■事実
AA-AgentPerfベンチマークとは
Artificial Analysis(AI性能評価機関)が2026年3月に発表した、エージェントAI向け業界初のマルチベンダー公開ベンチマークです。
最初の結果は2026年6月12日に公開されました。
測定指標の主軸は「Agents per Megawatt(1MWあたりの同時稼働エージェント数)」——電力が制約となっているデータセンター現場の実態を反映した指標です。
消費電力はTDP(熱設計電力)ではなく、実負荷下での実測値で計算です。
テストモデル:DeepSeek V4 Pro(MoEアーキテクチャ。Artificial Analysis Intelligence Index で第2位の開放重みモデル)
ベンチマークの特徴:
- 実際のコーディングエージェントのトラジェクトリを再現(最大200ターン、コンテキスト長100K トークン超)
- 合成プロンプトではなく、推論・ツール呼び出し・コード編集が交互に発生するリアルな負荷
- SLO(サービスレベル目標)は1エージェントあたりの出力速度:20 / 60 / 100 / 300 tps の4段階
- 結果はハードウェア・ソフトウェアスタック更新に合わせて継続的に更新される
「エージェントAI」とは何か——従来の推論と何が違うか
会話型AIはLLMへの1回の呼び出し→1回の応答(短距離走)です。
エージェントAIは目標をステップに分解し、推論・ツール呼び出し・コード実行を繰り返しながら完了まで走り続けます。(リレー)
KVキャッシュの再利用効率、スペキュラティブデコーディング、スケジューラの挙動が性能に直結します。
コンテキストが長くなるほど必要メモリが急増し、従来のベンチマーク(単発トークン生成スループット)では適切に評価できません。
GB300 NVL72のベンチマーク結果
NVIDIA GB300 NVL72が最高スコアを記録しており、1MWあたり同時エージェント数でNVIDIA HGX H200(Hopper世代)比 最大20倍です。
同時稼働エージェント数は最大約61,400 / MW(SLO=30 tps 条件)です。
20 tps・60 tps のSLOいずれの条件でもH200を大幅に上回ります。
AMD Instinct MI355X も同ベンチマークに登場。B200・GB300には電力効率指標で劣る結果です。
重要な注意点:GB300(およびB300)の結果はNVIDIAが提出したベンダーチューニング済み設定で、一方、H200とMI355XはArtificial Analysisチームが独自に構成した設定で、ベンダー最適化の恩恵を受けていない。Artificial Analysisは「H200とMI355Xにはさらなる改善余地がある可能性が高い」と明記されています。
GB300 NVL72のハードウェア構成
1ラック内に72枚のBlackwell Ultra GPU(B300)+36基のGrace CPU(ARM Neoverse V2 96コア)を統合しています。
B300 GPU単体ではHBM3e 279 GB、帯域8 TB/s、TDP 1,400W、FP4演算性能15 PFLOPS(スパーシティなし)です。
ラック全体ではFP4演算能力 1.1 ExaFLOPS、総GPU メモリ20.7 TB(HBM3e)です。
NVLink第5世代はGPU間帯域1.8 TB/s、ラック内130 TB/sのファブリックです。
ラック消費電力は120 kW(全液冷)です。
72 GPU全体が1つの巨大GPUとして動作——1兆パラメータ規模モデルをラック内で完結処理可能です。
20倍を実現したソフトウェア最適化スタック
- WideEP / DeepEP:MoEの「エキスパート」実行をNVL72全体(72 GPU)に分散し、効果的なバッチサイズを最大化
- DeepGEMM:MXFP4/MXFP8カーネルで行列演算を高速化
- Fused MoE:NVLink通信とTensor Core演算を重複実行してレイテンシを隠蔽
- 対応推論フレームワーク:TensorRT-LLM、SGLang、vLLM
- 先行世代との比較(SemiAnalysis InferenceXのデータより):GB300 NVL72はHopperと比較して1MWあたりスループット最大50倍、推論コスト(トークンあたり単価)は35分の1
次世代Vera Rubinへの展望
NVIDIA次世代アーキテクチャ「Vera Rubin」は2026年後半に登場予定(TSMC 3nmプロセス)です。
Rubin GPUはHBM4 288 GB、帯域13 TB/s、NVFP4演算50 PFLOPSです。
Rubin NVL144ラックは3.6 ExaFLOPS(GB300 NVL72の約3倍強)です。
エージェント向けLLMのツール呼び出し高速化も強化される予定です。
解説
「Agents per Megawatt」が新しい戦場の指標になった理由
2026年のAIインフラ拡張における実質的なボトルネックは演算能力ではなく「電力」——都市部の電力グリッドがデータセンター建設の制約になっている。
同じ消費電力でどれだけ多くの仕事ができるかが、設備投資あたりの収益に直結する。
「1秒あたりトークン生成数(TPS)」という従来の指標は会話型AIには適切だったが、長期セッションで動き続けるエージェントの評価には向いていなかった——それを正直に認めたのがAA-AgentPerfの意義だ。
業界が「エージェントの時代」を本気で想定し始めたことを示す象徴的な出来事だ。
数字の読み方——「20倍」を額面通り受け取るべきかどうか
20倍という数字はインパクトがあるが、前提条件を外すと話が変わる。
GB300の結果はNVIDIA自身が最適化した設定で提出、H200とAMD MI355XはArtificial Analysisが独自構成した設定——比較条件が揃っていない。
Artificial Analysis自身が「H200とMI355Xはベンダー提出でさらにスコアが伸びる可能性が高い」と述べており、この点は記事では必ず言及すべきだる
AMDは別途、MI355XがDeepSeek V4 ProでB200/GB300と同等以下のコスト・トークン単価を達成できると独自データで主張している。(ただしAA-AgentPerfに含まれない別測定)
要するに「NVIDIAが自分のベンチマーク提出を最適化し、競合はされていない」という構造。公正な比較ではないが、やる気とエンジニアリングリソースの差として現れているとも言える。
エージェントAIとNVIDIAのエコシステム優位
MoEモデルの「エキスパート分散(EP)」はモデル全体が1つのドメインに乗っていることが効率に直結する——72 GPUをワンファブリックで繋ぐGB300 NVL72はこのアーキテクチャに最適化されている。
CUDA / TensorRT-LLMの最適化蓄積は引き続き強力。WideEP・DeepEP・DeepGEMM等はCUDAエコシステムの上に積み上げられたソフトウェア資産であり、ハードウェア単体の差だけでは説明できない部分がある。
AMDがROCm + ATOM(AMD独自カーネル)で対抗しているが、ベンダー提出の最適化設定をAA-AgentPerfに出してこなかった点はAMDにとって痛手——ベンチマーク登場の時点でNVIDIAの「定義主導」を許してしまった形だ。
【ネタ候補】NVIDIAは「ベンチマークを作る側」から「ベンチマークを最初に最適化した提出をする側」まで一気通貫でやれてしまうわけで、これを「エコシステムの強さ」と呼ばずして何と呼ぶのか、という話だ。
Rubin登場後の展望とGB300の位置づけ
GB300 NVL72は2025年後半から本格展開が始まり、2026年前半を通じてクラウド各社が本番運用に移行している段階だ。
Vera Rubinが2026年後半に登場するとすれば、GB300の「旬」は実質1年以内——エージェントAI需要が一巡したタイミングでの登場となる。
逆に言えば、今このタイミングでAA-AgentPerfのスコアをベースに調達判断をするクラウド事業者は、Rubin世代との価格・性能比較が間もなく求められる局面になる。
「20倍」という数字が正確かどうかよりも重要なのは、エージェントAIの本番稼働という次の時代のニーズに合ったものさしが生まれたこと——それがNVIDIAの描く絵に沿って定義されたという事実は、CUDAロックインの次の段階が静かに始まっていることを示している。
まとめと私見
私は以前、AgenticAIで「自社CPUが売れる」というIntelの強気な見解に否定的な意見を書いたが、今回の話を聞けばある程度は納得できるだろう。
かつてのIntelもそうだったが、市場を制したものが自社製品に最適化された基準を作り、そうでないものはその基準の上で戦わなくてはならない。
これでは高い評価を得るのは難しい上に、GoogleのTPUやAWSのTrainium/Inferentiaのような一部の例外を除いてはほとんどがNVIDIA製品となる。
要はそこにはNVIDIA製品でなければ誰も気にも留めない世界が広がっているということだ。
サーバー製品はただでさえ囲い込みが厳しいので、NVIDIA製品と組み合わせるならば、よほどのことがない限りNVIDIA製品を選ぶだろう。
トヨタの車に日産の社外品をつけるか?ということだ。
エコシステムというのはそういうものだ。
