MLPerf™ ベンチマークは、学術、研究室、業界の AI リーダーで構成されるコンソーシアムである MLCommons が開発したものです。これは、ハードウェア、ソフトウェア、サービスのトレーニングと推論パフォーマンスを公平に評価するために設計されています。 これらはすべて、規定された条件下で実施されています。 業界トレンドの最先端に対応し続けるため、MLPerf は定期的に新しいテストを実施したり、AI の最先端を示す新しいワークロードを追加したりするなど、進化を続けています。
MLPerf Inference v5.1 は、さまざまな大規模言語モデル (LLM)、リーズニング LLM、テキストから画像を生成する生成 AI、レコメンデーション、テキスト読み上げ、グラフ ニューラル ネットワーク (GNN) など、10 種類の異なる AI モデルの推論パフォーマンスを測定します。
MLPerf Training v5.1 は、LLM (事前学習とファインチューニング)、画像生成、GNN、物体検出、レコメンデーションのユースケースをカバーする 7 つの異なるモデルのトレーニング時間を測定します。
NVIDIA プラットフォームは、7 つの MLPerf Training v5.1 ベンチマークすべてで最速のトレーニング時間を達成しました。 Blackwell Ultra が登場し、アーキテクチャの強化と画期的な NVFP4 トレーニング手法により、大規模言語モデルの事前学習とファインチューニングに大きな飛躍をもたらしました。これによりパフォーマンスが向上し、MLPerf の厳格な精度要件を満たしています。 NVIDIA はまた、NVFP4 により実現した規模の倍化と GPU あたりの大幅なパフォーマンス向上を組み合わせることで、Blackwell Llama 3.1 405B の事前学習パフォーマンスを大規模環境で 2.7 倍に向上させました。NVIDIA はまた、新規追加されたベンチマーク Llama 3.1 8B と FLUX.1 の両方でパフォーマンス記録を樹立し、既存のレコメンダー、物体検出、グラフ ニューラル ネットワーク ベンチマークでもパフォーマンス記録を保持し続けています。
MLPerf™ トレーニング v5.0 と v5.1 の結果は、2025 年 11 月 12 日に www.mlcommons.org で、4.1-0050、5.0-0014、5.0-0067、5.0-0076、5.1-0058、5.1-0060 のエントリから取得されました。MLPerf™ の名前とロゴは、米国およびその他の国における MLCommons Association の商標です。 無断複写、複製、転載禁止。不正使用は固く禁止されています。詳細については、www.mlcommons.org をご覧ください。
NVIDIA プラットフォームは、チップ、システム、ソフトウェア全体にわたる革新により、あらゆる MLPerf Training v5.1 ベンチマークで最速のトレーニング時間を達成しました。業界標準の査読済み性能データに示されているように、継続的なトレーニング パフォーマンスの優位性を実現しています。
| Benchmark | Time to Train |
|---|---|
| LLM Pretraining (Llama 3.1 405B) | 10 minutes |
| LLM Pretraining (Llama 3.1 8B) | 5.2 minutes |
| LLM Fine-Tuning (Llama 2 70B LoRA) | 0.40 minutes |
| Image Generation (FLUX.1) | 12.5 minutes |
| Recommender (DLRM-DCNv2) | 0.71 minutes |
| Graph Neural Network (R-GAT) | 0.84 minutes |
| Object Detection (RetinaNet) | 1.4 minutes |
MLPerf™ トレーニング v5.0 と v5.1 の結果は、2025 年 11 月 12 日に www.mlcommons.org で、5.1-0002、5.1-0004、5.1-0060、5.1-0070、5.1-0072 のエントリから取得されました。 MLPerf™ の名前とロゴは、米国およびその他の国における MLCommons Association の商標です。 無断複写、複製、転載禁止。無断使用は固く禁じられています。詳細については、www.mlcommons.org をご覧ください。
NVIDIA プラットフォームは、MLPerf Inference v5.1 で多くの新記録を樹立しました。特に難易度の高い新しい DeepSeek-R1 リーズニングや Llama 3.1 405B インタラクティブ テストなど、データセンター カテゴリにおいて GPU 単体の MLPerf Inference パフォーマンスの最高記録をすべて保持し続けています。NVIDIA Blackwell Ultra GPU アーキテクチャを基盤とする GB300 NVL72 ラックスケール システムは、NVIDIA Blackwell からわずか 6 か月後に登場し、DeepSeek-R1 推論ベンチマークで新記録を樹立しました。また、NVIDIA Dynamo も今回初めて導入され、その分散型の提供により、Llama 3.1 405B Interactive における各 Blackwell GPU のパフォーマンスを劇的に向上させました。 NVIDIA プラットフォームのパフォーマンスとイノベーションのペースは、より高度なインテリジェンス、AI ファクトリーの収益拡大の可能性、100 万トークンあたりのコストの削減を可能にします。
| Benchmark | Offline | Server | Interactive |
|---|---|---|---|
| DeepSeek-R1 | 5,842 Tokens/Second | 2,907 Tokens/Second | * |
| Llama 3.1 405B | 224 Tokens/Second | 170 Tokens/Second | 138 Tokens/Second |
| Llama 2 70B 99.9% | 12,934 Tokens/Second | 12,701 Tokens/Second | 7,856 Tokens/Second |
| Llama 3.1 8B | 18,370 Tokens/Second | 16,099 Tokens/Second | 15,284 Tokens/Second |
| Mistral 8x7B | 16,099 Tokens/Second | 16,131 Tokens/Second | * |
| Stable Diffusion XL | 4.07 Samples/Second | 3.59 Queries/Second | * |
| DLRMv2 99% | 87,228 Tokens/Second | 80,515 Tokens/Second | * |
| DLRMv2 99.9% | 48,666 Tokens/Second | 46,259 Tokens/Second | * |
| RetinaNet | 1,875 samples/second/GPU | 1,801 queries/second/GPU | * |
| Whisper | 5,667 Tokens/Second | * | * |
| Graph Neural Network | 81,404 Tokens/Second | * | * |
* MLPerf Inference v5.0 または v5.1 ベンチマーク スイートに含まれていないシナリオ。
MLPerf Inference v5.0 と v5.1、Closed Division。 結果は、2025 年 9 月 9 日に www.mlcommons.org から取得されました。 以下のエントリの NVIDIA プラットフォームの結果: 5.0-0072、5.1-0007、5.1-0053、5.1-0079、5.1-0028、5.1-0062、5.1-0086、5.1-0073、5.1-0008、5.1-0070、5.1-0046、5.1-0009、5.1-0060、5.1-0072。 5.1-0071、5.1-0069 チップあたりのパフォーマンスは、総スループットを報告されたチップ数で割ることで算出されます。 チップあたりのパフォーマンスは、MLPerf Inference v5.0 または v5.1 の主要な指標ではありません。 MLPerf の名前とロゴは、米国およびその他の国における MLCommons Association の登録商標および未登録商標です。 無断複写、複製、転載禁止。無断使用は厳禁です。 詳細については、http://www.mlcommons.org をご覧ください。
AI の仕組みは複雑であり、プラットフォームのあらゆる面をしっかりと統合することが必要となります。MLPerf のベンチマークが示したように、NVIDIA AI プラットフォームは、世界最先端の GPU、パワフルかつスケーラブルな相互接続テクノロジ、最新のソフトウェアにより、他をリードするパフォーマンスを提供します。これはデータ センター、クラウド、エッジでデプロイ可能なエンドツーエンドのソリューションで、驚異的な成果をもたらします。
NVIDIA のプラットフォームおよび MLPerf のトレーニングと推論の結果の重要な構成要素である NGC™ カタログは、GPU に最適化された AI、HPC、データ分析ソフトウェアのハブとして、エンドツーエンドのワークフローを簡素化および高速化します。 生成 AI、対話型 AI、レコメンダー システムのワークロードなど 150 以上のエンタープライズ グレードのコンテナー、数百もの AI モデル、オンプレミス、クラウド、エッジに展開できる業界固有の SDK を有する NGC により、データ サイエンティスト、研究者、開発者は、これまで以上に迅速にクラス最高のソリューションを構築し、洞察を収集し、ビジネス価値を提供できるようになります。
トレーニングから推論に至るまで世界をリードする結果を達成するには、世界で最も複雑な AI の課題に特化したインフラが必要です。 NVIDIA AI プラットフォームは、NVIDIA Blackwell および Blackwell Ultra プラットフォームを搭載し、NVIDIA GB300 NVL72 および GB200 NVL72 システム、NVLink と NVLink Switch、Quantum InfiniBand などにより、業界をリードするパフォーマンスを実現しました。 これらは、NVIDIA データセンター プラットフォームを基盤とした AI ファクトリーの中核であり、ベンチマーク パフォーマンスを支えるエンジンです。
加えて、NVIDIA DGX™ システムは、拡張性、迅速なデプロイ、驚異的な演算能力を提供し、あらゆる企業が業界トップクラスの AI インフラを構築できるようにします。
NVIDIA Jetson Orin は、比類のない AI コンピューティング、大規模な統合メモリ、包括的なソフトウェア スタックを提供し、最新の生成 AI アプリケーションの稼働を優れたエネルギー効率で実現します。Transformer アーキテクチャによって動作するあらゆる生成 AI モデルに対して高速推論が可能で、MLPerf で優れたエッジ パフォーマンスを提供します。
NVIDIA のデータ センターのトレーニングと推論パフォーマンスの詳細をご覧ください。