NVIDIAのGroq買収、MellanoxとAI推論への拡張戦略——低遅延デコードの「アクセラレーター」として活用へ

NVIDIAのCEOジェンスン・ファンが、2025年12月のクリスマスイブに発表したGroqとの契約の意図について、第4四半期決算説明会で初めて具体的な言及を行った。

その内容は、Groqの技術がNVIDIAのAIアーキテクチャをどう拡張するかを示唆するものであり、業界に大きな波紋を広げている。

200億ドルの契約——NVIDIA史上最大の投資

2025年12月24日、NVIDIAはGroqとの非独占的ライセンス契約を締結したと発表した。

契約の内容は、GroqのAI推論技術に関する非独占ライセンスであり、Groq創業者のジョナサン・ロス、社長のサニー・マドラを含む主要メンバーがNVIDIAに合流するというものだ。

報告されている契約規模は約200億ドルで、NVIDIAのこれまでの投資としては最大規模となる。

比較対象として、2019年に行われたMellanox買収は約70億ドルだった。

Groqは2016年に設立された企業で、LPU（Language Processing Unit：言語処理ユニット）と呼ばれるプロセッサーを独自開発してきた。

GroqCloud（クラウドサービス）はサービスを継続し、CFOが新たなCEOに就任する形で独立企業としての体裁を維持している。

決算説明会での発言——Mellanoxとの類比

投資家から具体的な活用計画を問われたジェンスン・ファンは、決算説明会でこう語った。

「Groqと低遅延デコードについては、GTCでシェアしたいアイデアがある。GroqでやることはGTCに来れば分かるが、MellanoxでNVIDIAのアーキテクチャを拡張したのと同じように、Groqをアクセラレーターとしてアーキテクチャを拡張する」

——NVIDIA CEO、ジェンスン・ファン（決算説明会より）

Mellanoxの買収が2020年にNVIDIAのデータセンター戦略を根本から変えたことは周知の事実だ。

MellanoxはInfiniBandの基盤を提供し、NVIDIAが「エクストリームコデザイン」と呼ぶアーキテクチャの完全統合を可能にした。

今回のジェンスン・ファンの発言は、GroqのLPU技術がネットワークにおけるMellanoxと同じ役割——つまりGPUアーキテクチャを補完する「拡張アクセラレーター」として機能することを示唆している。

LPUとは何か——GPUとの構造的な違い

Groqが開発したLPUは、従来のGPUとは根本的に異なるアーキテクチャを持つ。

GPUはAI処理に際してHBM（高帯域幅メモリ）に依存しており、このメモリが処理コアの外部に存在することが遅延の原因となる。

これに対してLPUは、オンチップSRAM（静的ランダムアクセスメモリ）を主要なメモリとして活用することで、この「メモリウォール」を解消している。

LPUのもう一つの特徴は「決定論的処理（Deterministic Computing）」だ。

GPUがハードウェア側でリソース割り当てを動的に決定する「確率論的」なアプローチを取るのに対し、LPUではコンパイラが全てのデータの経路と処理タイミングを事前に決定する。

この「完全に同期された組み立てラインのような」アーキテクチャが、GPUが苦手とするトークン逐次生成処理で数百トークン/秒という高速処理を実現している。

ただし弱点もある。

単一LPUチップのSRAM容量は約230MBと小さく、70Bパラメーターの大規模言語モデルを動かすには数百枚のLPUを接続する必要がある。NVIDIAのGPU数枚で動かせるモデルと比べると、データセンターのフットプリントは大幅に増える。

推論の2段階——プリフィルとデコード

LLM推論には大きく2つのフェーズがある。

一つ目は「プリフィル」——入力トークンを処理してKVキャッシュを生成する段階で、大量の並列計算が求められる。

二つ目は「デコード」——応答トークンを逐次生成する段階で、超低遅延が求められる。

NVIDIAはRubin CPXという新チップで既にプリフィル段階の強化を図っているが、デコード段階には別のアプローチが必要だった。

そこにGroqのLPUが当てはまる。

ファンが「アーキテクチャを拡張する」と表現したのは、まさにこの推論の二段階をそれぞれ専用ハードウェアで最適化するという方向性を示している。

LPXラック——GTC 2026での発表が期待される

具体的な統合形態についても情報が浮上している。

GF Securitiesの分析（Jukan経由）によれば、NVIDIAは今年のGTC（3月16〜19日、サンノゼ開催）で256基のLPUユニットを搭載した「LPXラック」を発表する可能性がある。

LPU同士の接続には独自のPlesisochronous（擬似同期）チップ間プロトコルが使用され、LPUとGPU間のKVキャッシュ転送にはNVLink Fusionが採用されるとみられている。

別の選択肢として、将来の「Feynman」世代GPUにLPUをハイブリッドボンディングで直接統合する案も検討されているが、現時点ではラックスケールでの統合が有力だ。

Vera Rubin、2026年後半に出荷開始

現在進行形のNVIDIAのプラットフォームとしては、Vera Rubin NVL72が2026年後半から主要クラウドパートナー（AWS、Google Cloud、Microsoft、OCI）への出荷を開始する予定だ。

Blackworldと比較して推論性能で最大5倍、トレーニング性能で3.5倍、メモリ帯域幅で2.8倍の向上が見込まれている。

Groqの技術をVera Rubinにどう統合するかの詳細は、GTC 2026で明らかになると見られている。

独占禁止法上のリスクとディール構造

今回の契約はあえて「非独占ライセンス」という形式を取っている。

Bernsteinのアナリストは、この構造について「競争の”フィクション”を維持するための手法」と指摘し、非独占ライセンスとして構造化することで規制当局の全面審査を回避しようとしている可能性を示唆した。

NVIDIAはかつてArm Holdings（英国の半導体設計大手）を400億ドルで買収しようとしたが、米FTCやEU規制当局の介入により2022年に断念した経緯がある。

その教訓を踏まえた構造設計とみることもできる。

解説

正直、今回のジェンスン・ファンの発言は「よく分かった」と「まだ謎が多い」の両方が混在していて、非常に興味深い内容でした。

「MellanoxのようにGroqでアーキテクチャを拡張する」という表現、これはかなり重要なヒントだと思います。

MellanoxのInfiniBandがNVIDIAのGPUクラスターを「バラバラな演算装置の集まり」から「一つの巨大なコンピューター」に変えたように、GroqのLPUがGPUの推論フェーズを根本から変える——そういう野心が透けて見えます。

AIの使われ方が変わってきているんですよね。

トレーニングは「大量の電力と時間をかけて一発仕上げる」作業ですが、エージェント型AIが普及すると推論は「一秒以内に何百回も繰り返す」作業になる。

チャットボットに話しかけて3秒待つのは許容できても、AIエージェントが複雑なタスクを100ステップこなす際に毎回3秒かかったら合計300秒——それは使い物になりません。

つまり「推論の低遅延化」は、AIが本当に社会のインフラになるための必要条件だということです。

NVIDIAがGroqに200億ドルを払ったのは、その必要条件を自分で持っていなかったから、というのが本質だと思います。

一方で私が気になるのは、LPUの構造的な弱点——メモリ容量の問題です。

単一チップが230MBのSRAMしか持てないということは、大規模モデルを動かすには文字通り「棚いっぱいのLPUチップ」が必要になる。

NVIDIAがこの問題をどう解決するか——HBMとSRAMのハイブリッド構成なのか、それとも推論をより小さなモデルに分割するアーキテクチャなのか——GTCでどんな答えが出てくるか、そこが今一番注目している点です。

GTC 2026（3月16〜19日）は、今年最大の「答え合わせ」の場になりそうですね。