NVIDIAは、Blackwell GPUを搭載したGB10スーパーチップの詳細を発表しました。このチップは、複数のDGX AI Miniスーパーコンピューターに搭載されています。
NVIDIA GB10スーパーチップは、3nmプロセスをベースに2.5DテクノロジーでパッケージングされたSoCとGPUを搭載しています。
NVIDIAのDGX Sparkは、GB10スーパーチップを搭載した最初のシステムとして発表され、大きな注目を集めています。
このシステムは、NVIDIAが「AI PC」分野に進出した最初のシステムであり、発表以来、複数の企業が独自のGB10「AI PC」プラットフォームを開発しています。
本日、Hot Chips 2025において、NVIDIAはGB10スーパーチップの詳細と、BlackwellアーキテクチャをMini開発者およびワークステーション向けにスケールダウンする方法について詳しく説明します。
DGX Sparkの背後にあるアイデアは、Blackwellアーキテクチャを採用したミニAIスーパーコンピュータの設計でした。
これを実現するために、NVIDIAはGB10スーパーチップを開発しました。
このチップは、NVFP4、CUDA、SLANG、TensorRT、vLLM、CX-7 NIC、NVLINK C2C、TMEMといったデータセンターのイノベーションを、マルチダイパッケージング技術、超低消費電力のC2Cインターフェース、そして統合メモリアーキテクチャ(UMA)によって実現された小型フォームファクタを採用したミニPCプラットフォームに統合しています。
その結果、以下の主要な機能とメリットを提供するDGX Sparkワークステーションが開発されました。:
- GB10 Grace Blackwellスーパーチップ:AI、データサイエンス、コンピューティング、レンダリング、ビジュアライゼーションを高速化
- 128GBコヒーレント統合システムメモリ:最大2,000億パラメータの大規模AIモデルに対応し、最大700億パラメータのモデルを微調整
- ConnectX-7ネットワーキング:2台のDGX Sparkシステムを接続し、最大405bパラメータのモデルを処理
- DGXベースOSとNVIDIA AIソフトウェアスタック:DGX SparkからDGX Cloud、または高速化されたデータセンターやクラウドインフラストラクチャにワークロードをシームレスに移行
- 柔軟な導入構成:AIワークステーションまたはネットワーク接続されたパーソナルAIクラウドとして構成
- 優れたデスクトップエクスペリエンス:マルチヘッドディスプレイのサポートと柔軟な接続性
- コンパクトで省電力な設計:あらゆるデスクに簡単に設置でき、標準の壁コンセントから電源を供給
それでは、GB10スーパーチップの仕様を詳しく見ていきましょう。
まずはSoC構成ですが、チップ自体は2つのダイレットで構成されています。
CPU、メモリサブシステムなどを収容するSダイレットと、GPUコアを収容するGダイレットです。
これら2つのダイレットは、Advanced 2.5Dパッケージング技術を用いて一体化されており、TSMCの3nmプロセス技術で製造されています。
このCPUはARM Arch v9.2アーキテクチャをベースとし、合計20コアを搭載しています。10コアずつのクラスターが2つあり、各コアにはプライベートL2キャッシュと、クラスターあたり16MBのL3キャッシュが搭載されているため、合計32MBとなります。
※ 画像をクリックすると別Window・タブで拡大します。
このGPUはGB100 Blackwellアーキテクチャをベースとしており、同一パッケージとシリコン上に搭載されているためiGPUとみなされます。
DLSS 4対応の第5世代TensorコアとRTXレイトレーシングコアを搭載し、AIワークロード向けにFP32で最大31TFLOPS、NVFP4(FP4)で最大1000TOPSの演算性能を発揮します。
また、このGPUには24MBのL2キャッシュも追加されています。
メモリシステムについては、NVIDIA GB10 Superchip SOCは、最大9400 MT/sの速度を誇る256b LPDDR5x(UMA)をサポートし、最大301 GB/sの帯域幅と最大128 GBの容量を実現します。
システムファブリックは、CHI-Eコヒーレンシプロトコルをサポートする高性能コヒーレントファブリックです。
GPU は、C2X インターフェイスを介して 600 GB/s (合計) のシステム帯域幅全体にアクセスできます。
※ 画像をクリックすると別Window・タブで拡大します。
CPUのL4として機能する16MBのシステムレベルキャッシュも搭載されており、SoC上の複数のエンジン間で電力効率の高いデータ共有を可能にします。
C2Cインターフェースも高帯域幅かつ低消費電力で、NVIDIAのNVLINKアーキテクチャによって実現されています。
接続性に関しては、NVIDIAのGB10 Superchip SoCはPCIe、USB、PCIe経由のEthernetに対応し、最大4台のディスプレイ(DP 3台 + HDMI 1台)を同時に接続し、DP Altモードでは最大4K @120Hz、HDMI 2.1aでは最大8K @120Hzの解像度で接続できます。
セキュリティ機能には、デュアルセキュアルートサポート、SROOTプロセッサ、OSROOTプロセッサ、fTPMとディスクリートTPMの両方のサポートが含まれます。チップ全体のTDPは140Wです。
※ 画像をクリックすると別Window・タブで拡大します。
以下は NVIDIA GB10 Superchip SoC のブロック図です。
※ 画像をクリックすると別Window・タブで拡大します。
GB10スーパーチップのもう一つの魅力は、スケーラビリティです。
NVIDIAのConnectXテクノロジーを介して複数のGB10チップを接続することで、スループット、帯域幅、DRAM容量を拡張し、より大規模なAIモデルをサポートできます。
ConnectX NICはPCIe Gen5 x8インターフェースを介してGB10 SoCに接続され、各ユニットはイーサネットを介して相互通信します。
※ 画像をクリックすると別Window・タブで拡大します。
NVIDIAは、CPU IPがMediatek製であることから、GB10 Superchip SoCを同社とMediatekの成功事例と呼んでいます。
このチップは、MediatekのメモリサブシステムへのGPUメモリトラフィックの徹底的なパフォーマンスモデリングを実施しました。
GB10スーパーチップがなぜこれほど興味深いのかと言うと、将来的にはノートパソコンやミニPCといったコンシューマー向けプラットフォームにも搭載される日が来るからです。
N1XとN1 SoCが初のコンシューマー向けNVIDIA SoCになるという報道は複数ありますが、GB10はこれらのチップがどのようなものになるのか、そしてどのような機能を提供するのかを初めて垣間見ることができる機会となります。
解説:
GB10スーパーチップの詳細。
私がなぜGB10スーパーチップに注目しているかというとN1Xと仕様が同一だからです。
何か関連性があるのかなとずっと思っていましたが、今回の記事の末尾にありました。
N1XとN1 SoCが初のコンシューマー向けNVIDIA SoCになるという報道は複数ありますが、GB10はこれらのチップがどのようなものになるのか、そしてどのような機能を提供するのかを初めて垣間見ることができる機会となります。
とありますので、N1XはGB10のバリエーションである可能性が非常に高くなったと思います。
仕様からしてもおそらくそのまま搭載されるのではないでしょうか。
興味深いのはGPU部分のメモリ帯域が
- L2 24MB
- オンチップLPPDRA5-9400 301GB/s
- C2X帯域 600GB/s
となっているところです。
わたくしはGB10のメモリがLPDDR5Xということを聞いて、その性能があまり生かせないのではないかと考えていました。
しかし、パッケージにビルトインのメモリであり、帯域が301 GB/sに加えてL2が24MBあるのでほとんど性能低下はないのではないかと思います。
ちなみにRTX5070のVRAMメモリ帯域は672GB/sとなっています。
GB10はRTX5070の半分以下のメモリ帯域ですが、L2が24MBあるので、これでかなり見かけ上のメモリ帯域はカバーできるのではないかと思います。
私の感覚ではRTX5070の1/3程度のメモリ帯域なのかなと考えていましたが、思いのほかメモリ帯域が広くてびっくりです。
しかし、これだけ高スペックだということはそれだけ高コストになっているということでもあります。
DGX Sparkは40万円程度になるそうですが、N1X搭載PCはいくらになるんですかねぇ。
安くてもAIワークステーションクラスの価格になってしまうのではないでしょうか。
仕様を見ると少なくともStrix Haloよりはかなり高価になるように見えます。
だとするとCopilot+のイメージリーダー的な製品になるのではないでしょうか。
例を挙げるとすればMacbook Proのような感じですね。
Macbook Proも16インチだと40万円以上します。
飛ぶように売れるような製品にはならないと思います。