株式会社ずんだもん技術室AI放送局 podcast 20250708

Failed to add items

Sorry, we are unable to add the item because your shopping cart is already at capacity.

Add to Cart failed.

Please try again later

Add to Wish List failed.

Please try again later

Remove from wishlist failed.

Please try again later

Adding to library failed

Please try again

Follow podcast failed

Please try again

Unfollow podcast failed

Please try again

株式会社ずんだもん技術室AI放送局 podcast 20250708

Listen for free

View show details

About this listen

関連リンク Mercury: Ultra-Fast Language Models Based on Diffusion 「Mercury」は、拡散モデルという新しい技術を取り入れた、次世代の大規模言語モデル（LLM）です。これまでのLLMは一つずつ単語やコードを生成していましたが、Mercuryは複数の単語やコードの断片を同時に予測して生成できる点が画期的です。これにより、非常に高速な動作が可能になりました。これは、LLMの基盤技術であるTransformerアーキテクチャを使いながら、同時に複数の要素を予測できるように学習させる新しいアプローチで実現されています。特に注目されているのは、プログラミングコードの生成に特化した「Mercury Coder」というモデルです。このモデルには「Mini」と「Small」の2つのサイズがあります。独立した評価機関によるテストでは、Mercury Coder Miniが1秒あたり1109トークン、Mercury Coder Smallが1秒あたり737トークンという驚異的な処理速度を記録しました。これは、現在速度に特化した最先端のLLMと比較しても、平均で最大10倍も高速でありながら、生成されるコードの品質は同等レベルを保っていることを示しています。さらに、実際の開発者が利用する評価プラットフォーム「Copilot Arena」では、Mercury Coderは品質面で全モデル中2位にランクインし、速度においては全モデルの中で最速を記録しました。これは、論文上の数値だけでなく、実際の開発現場でもその優れた性能が認められていることを意味します。開発元のInception Labsは、この「Mercury Coder」を外部サービスから利用できるパブリックAPIと、無料で試せるプレイグラウンドも公開しています。新人エンジニアの皆さんにとって、日々のコーディング作業を劇的に効率化し、AIを活用した開発のスピードを飛躍的に向上させる可能性を秘めた、まさに画期的な技術の登場と言えるでしょう。この超高速LLMの登場は、AI開発の未来を大きく変える「ブレイクスルー」となるでしょう。引用元: https://arxiv.org/abs/2506.17298 LLM Inference Benchmarking: Performance Tuning with TensorRT-LLM 大規模言語モデル（LLM）を実際に使う際、その「推論性能」はとても重要です。どれだけ速く、たくさんのユーザーのリクエストを処理できるかが、ユーザー体験やサービスの効率を大きく左右します。この記事では、NVIDIAが提供するオープンソースのAI推論エンジン「TensorRT-LLM」を使って、LLMの性能を最大限に引き出すためのベンチマークとチューニング方法を、新人エンジニアにも分かりやすく解説しています。まず、LLMの性能を測るためのツール「trtllm-bench」の使い方が紹介されています。このツールを使うことで、実際にLLMを動かすことなく、モデルの性能を簡単に測定・分析できます。ベンチマークを行うには、GPU環境の準備と、テスト用のデータセットを用意します。データセットは、質問とそれに対する期待される回答の長さなどを指定して作成します。ベンチマークを実行すると、様々な性能指標が得られます。特に注目すべきは、「Request Throughput（1秒あたりのリクエスト処理数）」、「Total Output Throughput（1秒あたりの出力トークン数）」、そしてユーザー体験に直結する「Average time-to-first-token [TTFT]（最初のトークンが出るまでの時間）」や「Average time-per-output-token [TPOT]（トークンごとの生成時間）」です。これらの指標を分析し、アプリケーションの目的に合わせて最適なバランスを見つけることが、性能チューニングの鍵となります。例えば、ユーザーへの応答速度を重視するなら「Per User Output Speed」という指標を最大化するように調整します。記事では、データの精度を少し落とす代わりに処理を高速化する「FP8量子化」されたモデルと、標準の「FP16」モデルを比較し、FP8モデルがより多くの同時ユーザーを処理できる例を示しています。このように、trtllm-benchを使えば、さまざまな設定を試して、どの設定が一番効率的かをグラフで視覚的に確認できます。最適な設定が見つかったら、それを「trtllm-serve」というツールを使って、LLMを動かすサーバーに適用します。trtllm-serveはOpenAI互換のAPIを提供するため、チューニングされたLLMをアプリケーションから簡単に呼び出して利用...

No reviews yet

Get Started

Popular Lists

Explore Audible

株式会社ずんだもん技術室AI放送局 podcast 20250708

Failed to add items

Add to Cart failed.

Add to Wish List failed.

Remove from wishlist failed.

Adding to library failed

Follow podcast failed

Unfollow podcast failed

株式会社ずんだもん技術室AI放送局 podcast 20250708

About this listen