MLPerf ベンチマーク

NVIDIA AI プラットフォームは、MLPerf トレーニング、推論、HPC ベンチマークにおいて世界最高レベルのパフォーマンスと汎用性を実現し、最も要求の厳しい実世界の AI ワークロードに対応します。

MLPerf とは?

MLPerf™ ベンチマークは、学術、研究室、業界の AI リーダーで構成されるコンソーシアムである MLCommons が開発したものです。これは、ハードウェア、ソフトウェア、サービスのトレーニングと推論パフォーマンスを公平に評価するために設計されています。 これらはすべて、規定された条件下で実施されています。 業界トレンドの最先端に対応し続けるため、MLPerf は定期的に新しいテストを実施したり、AI の最先端を示す新しいワークロードを追加したりするなど、進化を続けています。

MLPerf ベンチマークの詳細

MLPerf Inference v5.1 は、さまざまな大規模言語モデル (LLM)、リーズニング LLM、テキストから画像を生成する生成 AI、レコメンデーション、テキスト読み上げ、グラフ ニューラル ネットワーク (GNN) など、10 種類の異なる AI モデルの推論パフォーマンスを測定します。

MLPerf Training v5.1 は、LLM (事前学習とファインチューニング)、画像生成、GNN、物体検出、レコメンデーションのユースケースをカバーする 7 つの異なるモデルのトレーニング時間を測定します。

リーズニング大規模言語モデル

応答精度を向上させるために中間的なリーズニング (思考) トークンを生成する大規模言語モデル。

詳細

大規模言語モデル

大規模なデータセットでトレーニングされたディープラーニング アルゴリズムは、幅広いユース ケース向けにコンテンツを認識、要約、翻訳、予測、生成することができます。

詳細

テキストから画像の生成

テキスト プロンプトから画像を生成します。

詳細

レコメンデーション

ユーザーと製品や広告などのサービス アイテム間の相互作用を理解することで、ソーシャル メディアや E コマース Web サイトなどのユーザー向けサービスでパーソナライズされた結果を提供します。

詳細

物体検出 (軽)

画像や動画内の顔、自転車、建物など、現実世界の物体のインスタンスを見つけ、それぞれの周囲に境界ボックスを指定します。

詳細

グラフ ニューラル ネットワーク

グラフとして構造化されているデータで動作するように設計されたニューラル ネットワークを使用します。

詳細

音声認識

話し言葉を文字テキストに変換します。

詳細

NVIDIA の MLPerf ベンチマークの結果

NVIDIA プラットフォームは、7 つの MLPerf Training v5.1 ベンチマークすべてで最速のトレーニング時間を達成しました。 Blackwell Ultra が登場し、アーキテクチャの強化と画期的な NVFP4 トレーニング手法により、大規模言語モデルの事前学習とファインチューニングに大きな飛躍をもたらしました。これによりパフォーマンスが向上し、MLPerf の厳格な精度要件を満たしています。 NVIDIA はまた、NVFP4 により実現した規模の倍化と GPU あたりの大幅なパフォーマンス向上を組み合わせることで、Blackwell Llama 3.1 405B の事前学習パフォーマンスを大規模環境で 2.7 倍に向上させました。NVIDIA はまた、新規追加されたベンチマーク Llama 3.1 8B と FLUX.1 の両方でパフォーマンス記録を樹立し、既存のレコメンダー、物体検出、グラフ ニューラル ネットワーク ベンチマークでもパフォーマンス記録を保持し続けています。

NVIDIA Blackwell Ultra が、MLPerf トレーニングの登場により大きく飛躍

MLPerf™ トレーニング v5.0 と v5.1 の結果は、2025 年 11 月 12 日に www.mlcommons.org で、4.1-0050、5.0-0014、5.0-0067、5.0-0076、5.1-0058、5.1-0060 のエントリから取得されました。MLPerf™ の名前とロゴは、米国およびその他の国における MLCommons Association の商標です。 無断複写、複製、転載禁止。不正使用は固く禁止されています。詳細については、www.mlcommons.org をご覧ください。

継続的なトレーニング リーダーシップのための年次リズムと極限の共同設計

NVIDIA プラットフォームは、チップ、システム、ソフトウェア全体にわたる革新により、あらゆる MLPerf Training v5.1 ベンチマークで最速のトレーニング時間を達成しました。業界標準の査読済み性能データに示されているように、継続的なトレーニング パフォーマンスの優位性を実現しています。

最大スケールの性能

Benchmark Time to Train
LLM Pretraining (Llama 3.1 405B) 10 minutes
LLM Pretraining (Llama 3.1 8B) 5.2 minutes
LLM Fine-Tuning (Llama 2 70B LoRA) 0.40 minutes
Image Generation (FLUX.1) 12.5 minutes
Recommender (DLRM-DCNv2) 0.71 minutes
Graph Neural Network (R-GAT) 0.84 minutes
Object Detection (RetinaNet) 1.4 minutes

MLPerf™ トレーニング v5.0 と v5.1 の結果は、2025 年 11 月 12 日に www.mlcommons.org で、5.1-0002、5.1-0004、5.1-0060、5.1-0070、5.1-0072 のエントリから取得されました。 MLPerf™ の名前とロゴは、米国およびその他の国における MLCommons Association の商標です。 無断複写、複製、転載禁止。無断使用は固く禁じられています。詳細については、www.mlcommons.org をご覧ください。

Blackwell Ultra が MLPerf Inference v5.1 で推論処理の新記録を樹立

NVIDIA プラットフォームは、MLPerf Inference v5.1 で多くの新記録を樹立しました。特に難易度の高い新しい DeepSeek-R1 リーズニングや Llama 3.1 405B インタラクティブ テストなど、データセンター カテゴリにおいて GPU 単体の MLPerf Inference パフォーマンスの最高記録をすべて保持し続けています。NVIDIA Blackwell Ultra GPU アーキテクチャを基盤とする GB300 NVL72 ラックスケール システムは、NVIDIA Blackwell からわずか 6 か月後に登場し、DeepSeek-R1 推論ベンチマークで新記録を樹立しました。また、NVIDIA Dynamo も今回初めて導入され、その分散型の提供により、Llama 3.1 405B Interactive における各 Blackwell GPU のパフォーマンスを劇的に向上させました。 NVIDIA プラットフォームのパフォーマンスとイノベーションのペースは、より高度なインテリジェンス、AI ファクトリーの収益拡大の可能性、100 万トークンあたりのコストの削減を可能にします。

NVIDIA プラットフォーム、MLPerf Inference においてデータセンターの GPU 単体の全記録を保持

Benchmark Offline Server Interactive
DeepSeek-R1 5,842 Tokens/Second 2,907 Tokens/Second *
Llama 3.1 405B 224 Tokens/Second 170 Tokens/Second 138 Tokens/Second
Llama 2 70B 99.9% 12,934 Tokens/Second 12,701 Tokens/Second 7,856 Tokens/Second
Llama 3.1 8B 18,370 Tokens/Second 16,099 Tokens/Second 15,284 Tokens/Second
Mistral 8x7B 16,099 Tokens/Second 16,131 Tokens/Second *
Stable Diffusion XL 4.07 Samples/Second 3.59 Queries/Second *
DLRMv2 99% 87,228 Tokens/Second 80,515 Tokens/Second *
DLRMv2 99.9% 48,666 Tokens/Second 46,259 Tokens/Second *
RetinaNet 1,875 samples/second/GPU 1,801 queries/second/GPU *
Whisper 5,667 Tokens/Second * *
Graph Neural Network 81,404 Tokens/Second * *

* MLPerf Inference v5.0 または v5.1 ベンチマーク スイートに含まれていないシナリオ。

MLPerf Inference v5.0 と v5.1、Closed Division。 結果は、2025 年 9 月 9 日に www.mlcommons.org から取得されました。 以下のエントリの NVIDIA プラットフォームの結果: 5.0-0072、5.1-0007、5.1-0053、5.1-0079、5.1-0028、5.1-0062、5.1-0086、5.1-0073、5.1-0008、5.1-0070、5.1-0046、5.1-0009、5.1-0060、5.1-0072。 5.1-0071、5.1-0069 チップあたりのパフォーマンスは、総スループットを報告されたチップ数で割ることで算出されます。 チップあたりのパフォーマンスは、MLPerf Inference v5.0 または v5.1 の主要な指標ではありません。 MLPerf の名前とロゴは、米国およびその他の国における MLCommons Association の登録商標および未登録商標です。 無断複写、複製、転載禁止。無断使用は厳禁です。 詳細については、http://www.mlcommons.org をご覧ください。

成果の背後にあるテクノロジ

AI の仕組みは複雑であり、プラットフォームのあらゆる面をしっかりと統合することが必要となります。MLPerf のベンチマークが示したように、NVIDIA AI プラットフォームは、世界最先端の GPU、パワフルかつスケーラブルな相互接続テクノロジ、最新のソフトウェアにより、他をリードするパフォーマンスを提供します。これはデータ センター、クラウド、エッジでデプロイ可能なエンドツーエンドのソリューションで、驚異的な成果をもたらします。

AI ワークフローを加速する最適化されたソフトウェア

NVIDIA のプラットフォームおよび MLPerf のトレーニングと推論の結果の重要な構成要素である NGC™ カタログは、GPU に最適化された AI、HPC、データ分析ソフトウェアのハブとして、エンドツーエンドのワークフローを簡素化および高速化します。 生成 AI対話型 AIレコメンダー システムのワークロードなど 150 以上のエンタープライズ グレードのコンテナー、数百もの AI モデル、オンプレミス、クラウド、エッジに展開できる業界固有の SDK を有する NGC により、データ サイエンティスト、研究者、開発者は、これまで以上に迅速にクラス最高のソリューションを構築し、洞察を収集し、ビジネス価値を提供できるようになります。

業界トップクラスの AI インフラストラクチャ

トレーニングから推論に至るまで世界をリードする結果を達成するには、世界で最も複雑な AI の課題に特化したインフラが必要です。 NVIDIA AI プラットフォームは、NVIDIA Blackwell および Blackwell Ultra プラットフォームを搭載し、NVIDIA GB300 NVL72 および GB200 NVL72 システム、NVLink と NVLink Switch、Quantum InfiniBand などにより、業界をリードするパフォーマンスを実現しました。 これらは、NVIDIA データセンター プラットフォームを基盤とした AI ファクトリーの中核であり、ベンチマーク パフォーマンスを支えるエンジンです。

加えて、NVIDIA DGX™ システムは、拡張性、迅速なデプロイ、驚異的な演算能力を提供し、あらゆる企業が業界トップクラスの AI インフラを構築できるようにします。 

変革的なパフォーマンスでエッジで生成 AI の可能性を引き出す

NVIDIA Jetson Orin は、比類のない AI コンピューティング、大規模な統合メモリ、包括的なソフトウェア スタックを提供し、最新の生成 AI アプリケーションの稼働を優れたエネルギー効率で実現します。Transformer アーキテクチャによって動作するあらゆる生成 AI モデルに対して高速推論が可能で、MLPerf で優れたエッジ パフォーマンスを提供します。

NVIDIA のデータ センターのトレーニングと推論パフォーマンスの詳細をご覧ください。

大規模言語モデル

MLPerf Training では、c4 (v3.0.1) データセットを含む LLM 事前学習ワークロードに、4050 億個のパラメーターとシーケンス長が 8,192 である Llama 3.1 生成言語モデルを採用しています。LLM ファインチューニング テストには、Llama 2 70B モデルと GovReport データセットを使用し、シーケンス長は 8,192 です。Llama 3.1 8B はまた、シーケンス長が 8,192 の C4 データセットを使用しています。

MLPerf Inference は、Llama 3.1 405B モデルを使用し、LongBench、RULER、GovReport 要約のデータセットをします。Llama 2 70B モデルは OpenORCA データセットを使用します。Mixtral 8x7B モデルは OpenORCA、GSM8K、MBXP データセットを使用します。Llama 3.1 8B モデルは CNN-DailyMail データセットを使用します。

テキストから画像の生成

MLPerf トレーニングでは、CC12M デ��タセットを学習した FLUX.1 テキストから画像生成モデルを使用し、評価には COCO 2014 データセットを採用しています。

MLPerf Inference は、Stable Diffusion XL (SDXL) のテキストを画像に変換するモデルを使用し、coco-val-2014 データセットから 5,000 個のプロンプトのサブセットを使用します。

レコメンデーション

MLPerf Training および Inference は、DCNv2 クロスレイヤーと、Criteo データセットから合成されたマルチホット データセットを採用したディープラーニング レコメンデーション モデル v2 (DLRMv2) を使用します。

物体検出 (軽)

MLPerf Training は、Google OpenImages データセットのサブセットで ResNeXt50 バックボーンを備えたシングルショット検出器 (SSD) を使用しています。

リーズニング LLM

MLPerf Inference は、AIME、MATH500、GPQA-Diamond、MMLU-Pro、LiveCodeBench のデータセットから提供されたサンプルと DeepSeek-R1 モデルを使用します。

自然言語処理 (NLP)

MLPerf Training では Wikipedia 2020/01/01 データセットで BERT (Bidirectional Encoder Representations from Transformers) を使用します。

グラフ ニューラル ネットワーク

MLPerf Training では、R-GAT とIllinois Graph Benchmark(IGB) - 異種データセットを使用します。

音声認識

MLPerf 推論は、LibriSpeech データセットで Whisper-Large-V3 を使用します。

サーバー

4X

オフライン

3.7X

AI スーパーチップ

208B トランジスタ

第 2 世代トランスエンジン

FP4/FP6 Tensor Core

第 5 世代 NVLINK

576 GPU にスケール

RAS エンジン

100% の内部システム自己テスト

安全な AI

完全なパフォーマンスの暗号化と TEE

解凍エンジン

800Gb/s