NVIDIA Hopper GH100 GPUを発表。世界初・最速の4nmデータセンターチップ、最大4000TFLOPsの演算性能、HBM3 3TB/sのメモリを実現

NVIDIAは、全く新しい4nmプロセスノードを採用した次世代データセンター用パワーハウス、Hopper GH100 GPUを正式に発表しました。このGPUは、800億個のトランジスタを持つ絶対的なモンスターであり、市場のあらゆるGPUの中で最速のAIおよびコンピュート馬力を提供します。

NVIDIA Hopper GH100 GPUの公式発表。初の4nm＆HBM3搭載データセンターチップ、800億トランジスタ、最大4000TFLOPsの馬力を持つ地球上で最速のAI/Compute製品

HopperアーキテクチャをベースにしたHopperは、最先端のTSMC 4nmプロセスノードで生産される工学的な驚異のGPUです

GPUです。

Hopper GH100は、これまでのデータセンター向けGPUと同様に、人工知能（AI）、機械学習（ML）、深層ニューラルネットワーキング（DNN）、およびHPCに焦点を当てた様々なコンピューティングワークロードをターゲットにしています。

※　画像をクリックすると、別Window・タブで拡大します。

GPUは、すべてのHPC要件に対するワンゴー・ソリューションであり、そのサイズと性能の数字を見れば、1つのモンスター・チップと言えます。

新しいストリーミング・マルチプロセッサ（SM）は、多くのパフォーマンスと効率性を改善しました。主な新機能は以下の通りです。

新しい第4世代のTensor Coreは、SM単位の高速化、SM数の追加、H100の高クロックを含め、A100と比較してチップ間が最大で6倍高速化されています。SM単位では、前世代の16ビット浮動小数点オプションと比較して、同等のデータ型でA100 SMの2倍のMMA（Matrix MultiplyAccumulate）演算レート、新しいFP8データ型を用いたA100の4倍のレートをTensor Coresは実現しています。Sparsity機能は、深層学習ネットワークにおけるきめ細かい構造化されたスパース性を利用し、標準的なTensor Core演算の性能を2倍に向上させることができます。
新しいDPX命令は、ダイナミックプログラミングアルゴリズムをA100 GPUに比べて最大7倍高速化します。その例として、ゲノム処理のためのSmith-Watermanアルゴリズムと、動的な倉庫環境におけるロボット群の最適経路を見つけるために使用されるFloyd-Warshallアルゴリズムが挙げられます。
IEEE FP64 および FP32 の処理速度が、A100 と比較してチップ間比で 3 倍高速化。
新機能スレッド・ブロック・クラスターにより、1つのSM上の1つのスレッド・ブロックよりも大きな粒度で局所性をプログラムにより制御することができます。これは、CUDA プログラミングモデルを拡張するもので、プログラミング階層にもう 1 つのレベルを追加し、スレッド、スレッドブロック、スレッドブロッククラスタ、およびグリッドを含むようにします。クラスターでは、複数の SM で同時に実行される複数のスレッドブロックを同期させ、共同でデータをフェッチおよび交換することができます。
新しい非同期実行機能として、グローバルメモリと共有メモリ間で大きなデータブロックを非常に効率的に転送できる新しい Tensor Memory Accelerator (TMA) ユニットが含まれています。TMA は、クラスタ内のスレッドブロック間の非同期コピーもサポートします。また、アトミックなデータ移動と同期を行うための新しい非同期トランザクションバリアも用意されています。
新しいTransformer Engineは、Transformerモデルの学習と推論を高速化するために特別に設計されたソフトウェアとカスタムHopper Tensor Coreテクノロジーの組み合わせを使用します。Transformer Engineは、FP8と16ビットの計算をインテリジェントに管理し、動的に選択することで、各レイヤーにおけるFP8と16ビット間のリキャストとスケーリングを自動的に行い、最大9倍のAIトレーニングと最大30倍の高速化を達成します。大規模言語モデルにおけるAI推論を前世代のA100と比較して高速化。
HBM3メモリサブシステムにより、前世代と比較して約2倍の帯域幅を実現。H100 SXM5 GPUは、クラス最高レベルの3TB/秒のメモリ帯域幅を実現するHBM3メモリを搭載した世界初のGPUです。
50 MBのL2キャッシュ・アーキテクチャは、モデルやデータセットの大部分をキャッシュして繰り返しアクセスできるようにし、HBM3へのトリップを低減します。
NVIDIA H100 Tensor Core GPU アーキテクチャを A100 と比較。MIGレベルのTrusted Execution Environments (TEE)によるConfidential Computing機能が初めて提供されるようになった。最大7つのGPUインスタンスがサポートされ、それぞれが専用のNVDECとNVJPGユニットを備えています。各インスタンスには、NVIDIA開発者ツールで動作する独自のパフォーマンスモニタのセットが含まれるようになりました。
新しいコンフィデンシャル・コンピューティングのサポートは、ユーザデータの保護、ハードウェアおよびソフトウェア攻撃からの防御、仮想化およびMIG環境におけるVM同士の分離と保護を強化します。H100は、世界初のネイティブConfidential Computing GPUを実装し、Trusted Execution EnvironmentをPCIeフルラインレートのCPUで拡張します。
第4世代のNVIDIA NVLink®は、PCIe Gen 5の7倍の帯域幅で動作するマルチGPU IO用の900GB/秒の総帯域幅で、前世代のNVLinkに比べて、all-reduceオペレーションで3倍の帯域幅の増加、一般帯域幅で50％の増加を実現しています。
第3世代のNVSwitchテクノロジーには、サーバー、クラスタ、およびデータセンター環境において複数のGPUを接続するために、ノードの内側と外側の両方に存在するスイッチが含まれています。ノード内の各NVSwitchは、第4世代NVLinkリンクを64ポート提供し、マルチGPU接続を加速させます。スイッチの総スループットは、前世代の7.2 Tbits/secから13.6 Tbits/secに向上しています。新しい第3世代のNVSwitch技術は、マルチキャストとNVIDIA SHARPのインネットワーク削減による集団操作のためのハードウェアアクセラレーションも提供します。
新しいNVLinkスイッチシステムの相互接続技術と第3世代NVSwitch技術に基づく新しい第2レベルNVLinkスイッチは、アドレス空間の分離と保護を導入し、最大32ノードまたは256GPUを、2対1のテーパーファットツリートポロジーでNVLink上に接続できるようにします。これらの接続されたノードは、57.6TB/秒の全帯域幅を実現し、FP8スパースAIコンピュートで1エクサフロップという驚異的な処理能力を提供することができます。
PCIe Gen5は、Gen4 PCIeの64GB/秒の総帯域幅（各方向32GB/秒）に対し、128GB/秒の総帯域幅（各方向64GB/秒）を提供します。PCIe Gen 5により、H100は最高性能のx86 CPUおよびSmartNIC/DPU（データ処理ユニット）とのインターフェイスが可能になります。

だから仕様に来る、NVIDIA Hopper GH100 GPU は、大規模な 144 SM (ストリーミングマルチプロセッサ) チップレイアウトで構成されています、合計 8 GPC で紹介されていることです。これらの GPC は、さらに各 2 SM ユニットで構成されている 9 TPC の合計を揺する。

これにより、1GPCあたり18個のSMを搭載し、8GPC構成全体では144個となります。

各 SM は最大 128 個の FP32 ユニットで構成され、合計 18,432 個の CUDA コアを提供することになります。以下は、H100チップに期待される構成の一部です。

GH100 GPUのフル実装には、以下のユニットが含まれます：

8GPC、72TPC（9TPC/GPC）、2SMs/TPC、144SMs/フルGPU
128 FP32 CUDA コア/SM、18432 FP32 CUDA コア/フル GPU
第4世代Tensorコア（SMあたり4個、フルGPUあたり576個
6個のHBM3またはHBM2eスタック、12個の512ビットメモリコントローラ
60MB L2キャッシュ
第4世代のNVLinkとPCIe Gen 5

SXM5ボードフォームファクタのNVIDIA H100 GPUは、以下のユニットを搭載しています：

8 GPC、66 TPC、2 SMs/TPC、132 SMs/GPU。
128 FP32 CUDAコア/SM、16896 FP32 CUDAコア/GPU
第4世代Tensorコア 4個/SM、528個/GPU
80 GB HBM3、5 HBM3スタック、10 512ビットメモリコントローラ
50MB L2キャッシュ
第4世代のNVLinkとPCIe Gen 5

PCIe Gen 5ボードのフォームファクタを持つNVIDIA H100 GPUには、以下のユニットが含まれています：

GPUあたり7または8のGPC、57のTPC、2 SMs/TPC、114 SMs
128 FP32 CUDA コア/SM, 14592 FP32 CUDA コア/GPU
第4世代Tensorコア（SMあたり4個）、GPUあたり456個
80 GB HBM2e、5 HBM2eスタック、10 512ビットメモリコントローラ
50MB L2キャッシュ
第4世代のNVLinkとPCIe Gen 5

これはGA100 GPUのフル構成と比較して2.25倍の増加です。NVIDIAは、Hopper GPUのFP64、FP16、Tensorコアの数を増やして、性能を大幅に向上させることも考えている。

また、IntelのPonte Vecchioも1:1のFP64を搭載すると見られており、これに対抗するためには必要不可欠なものとなっている。

※　画像をクリックすると、別Window・タブで拡大します。

キャッシュもNVIDIAが力を入れている部分であり、Hopper GH100GPUでは48MBに増強されています。

これは、Ampere GA100 GPUに搭載された50MBキャッシュの20%増で、AMDのフラッグシップMCM GPUであるAldebaranのMI250Xの3倍のサイズとなる。

NVIDIA の GH100 Hopper GPU は、FP8 で 4000TFLOPs、FP16 で 2000TFLOPs、TF32 で 1000TFLOPs、FP64 で 60 TFLOPs の演算性能を提供する予定です。

この記録的な数値は、それ以前のすべてのHPCアクセラレータを凌駕するものです。

ちなみに、FP64演算では、NVIDIA社の自社製GPU「A100」の3.3倍、AMD社の「Instinct MI250X」の28%に相当する高速化を実現しています。

FP16では、A100の3倍、MI250Xの5.2倍と、文字通り桁違いの速さです。

NVIDIA GH100 GPUのブロック図：

※　画像をクリックすると、別Window・タブで拡大します。

第4世代NVIDIA Hopper GH100 GPU SM（Streaming Multiprocessor）の主な特徴は以下の通りです：

SM単位の高速化、SM数の追加、H100の高クロックを含め、A100と比較してチップ間が最大6倍高速化されています。
Tensor Cores は、SM 毎に、同等のデータ型において A100 SM の 2 倍の MMA (Matrix Multiply-Accumulate) 計算速度、新しい FP8 データ型を使用して、前世代の 16 ビット浮動小数点オプションと比較して、A100 の 4 倍の計算速度を実現しています。
Sparsity機能は、深層学習ネットワークにおけるきめ細かい構造化されたスパース性を利用し、標準的なTensorコア演算の性能を2倍に向上させる。
新しいDPX命令は、ダイナミックプログラミングアルゴリズムをA100 GPUに比べて最大7倍高速化します。その例として、ゲノム処理のためのSmith-Watermanアルゴリズムと、動的な倉庫環境におけるロボット群の最適経路を見つけるために使用されるFloyd-Warshallアルゴリズムが挙げられます。
IEEE FP64およびFP32の処理速度がA100比でチップ間3倍速い。これは、SMあたりのクロックが2倍速いことに加え、H100ではSM数が増え、クロックが高くなったためである。
共有メモリとL1データキャッシュを合わせて256KB、A100の1.33倍。
新しい非同期実行機能には、グローバルメモリと共有メモリ間で大きなデータブロックを効率的に転送できる新しいTensor Memory Accelerator（TMA）ユニットが含まれています。TMAは、クラスタ内のスレッドブロック間の非同期コピーもサポートしています。また、アトミックなデータ移動と同期を行うための新しい非同期トランザクションバリアも用意されています。
新しいスレッドブロッククラスター機能は、複数のSMにまたがるローカリティの制御を公開します。
Distributed Shared Memoryは、複数のSMの共有メモリブロックにまたがるロード、ストア、アトミックについて、SM間の直接通信を可能にする。

NVIDIA GH100 SMブロック図:

※　画像をクリックすると、別Window・タブで拡大します。

メモリについては、NVIDIA Hopper GH100 GPUは、6144ビットのバスインターフェイスで動作し、A100のHBM2eメモリサブシステムに比べて50％増となる最大3TB/sの帯域幅を提供する全く新しいHBM3メモリを搭載しています。

各H100アクセラレータは80GBのメモリを搭載しますが、将来的にはA100 80GBのように2倍のメモリ容量構成になることが予想されます。

※　画像をクリックすると、別Window・タブで拡大します。

このGPUは、最大128GB/秒の転送速度を持つPCIe Gen 5準拠と、900GB/秒のGPU間相互接続帯域幅を提供するNVLINKインターフェイスも備えています。

Hopper H100チップ全体では、4.9 TB/秒という驚異的な外部帯域幅を実現しています。

このモンスター性能のすべてが、700W（SXM）パッケージで提供されています。

PCIeバージョンは、最新のPCIe Gen 5コネクタを装備し、最大600Wの電力を可能にしますが、実際のPCIeバージョンは、TDP 350Wで動作します。

NVIDIA Hopper GH100コンピュート

GPU	Kepler GK110	Maxwell GM200	Pascal GP100	Volta GV100	Ampere GA100	Hopper GH100
実行環境デバイス世代	4	5	6	7	8	9/0
ワープ辺りのスレッド数	32	32	32	32	32	32
最大ワープ数 / マルチプロセッサー	64	64	64	64	64	64
最大スレッド数 / マルチプロセッサー	2,048	2,048	2,048	2,048	2,048	2,048
最大スレッドブロック数 / マルチプロセッサー	16	32	32	32	32	32
大罪32bit レジスタ数 / SM	65,536	65,536	65,536	65,536	65,536	65,536
最大レジスタ数 / ブロック	65,536	32,768	65,536	65,536	65,536	65,536
最大レジスタ数 / スレッド	255	255	255	255	255	255
最大スレッドブックサイズ	1,024	1,024	1,024	1,024	1,024	1,024
CUDAコア数 / SM	192	128	64	64	64	128
共有メモリサイズ / SM 構成 (bytes)	16K/32K/48K	96K	64K	96K	164K	228K

NVIDIA Ampere GA100 GPUベースのA100のスペック：

NVIDIA Tesla グラフィックカード	NVIDIA H100 (SMX5)	NVIDIA H100 (PCIe)	NVIDIA A100 (SXM4)	NVIDIA A100 (PCIe4)	Tesla V100S (PCIe)	Tesla V100 (SXM2)	Tesla P100 (SXM2)	Tesla P100 (PCI-Express)	Tesla M40 (PCI-Express)	Tesla K40 (PCI-Express)
GPU	GH100 (Hopper)	GH100 (Hopper)	GA100 (Ampere)	GA100 (Ampere)	GV100 (Volta)	GV100 (Volta)	GP100 (Pascal)	GP100 (Pascal)	GM200 (Maxwell)	GK110 (Kepler)
製造プロセス	4nm	4nm	7nm	7nm	12nm	12nm	16nm	16nm	28nm	28nm
トランジスタ数	800億	800億	542億	542億	211億	211億	153億	153億	80億	71億
GPUダイサイズ	814mm2	814mm2	826mm2	826mm2	815mm2	815mm2	610 mm2	610 mm2	601 mm2	551 mm2
SM数	132	114	108	108	80	80	56	56	24	15
TPC数	66	57	54	54	40	40	28	28	24	15
SM当りのFP32 CUDA コア数	128	128	64	64	64	64	64	64	128	192
FP64 CUDA コア数 / SM	128	128	32	32	32	32	32	32	4	64
FP32 CUDA コア数	16,896	14,592	6,912	6,912	5,120	5,120	3,584	3,584	3,072	2,880
FP64 CUDA コア数	16,896	14,592	3,456	3,456	2,560	2,560	1,792	1,792	96	960
Tensorコア数	528	456	432	432	640	640	N/A	N/A	N/A	N/A
テクスチャユニット数	528	456	432	432	320	320	224	224	192	240
ブーストクロック	不明	不明	1410 MHz	1410 MHz	1601 MHz	1530 MHz	1480 MHz	1329MHz	1114 MHz	875 MHz
TOP数 (DNN/AI)	2000 TOPs 4000 TOPs	1600 TOPs 3200 TOPs	1248 TOPs 2496 TOPs with Sparsity	1248 TOPs 2496 TOPs with Sparsity	130 TOPs	125 TOPs	N/A	N/A	N/A	N/A
FP16演算性能	2000 TFLOPs	1600 TFLOPs	312 TFLOPs 624 TFLOPs with Sparsity	312 TFLOPs 624 TFLOPs with Sparsity	32.8 TFLOPs	30.4 TFLOPs	21.2 TFLOPs	18.7 TFLOPs	N/A	N/A
FP32演算性能	1000 TFLOPs	800 TFLOPs	156 TFLOPs (19.5 TFLOPs standard)	156 TFLOPs (19.5 TFLOPs standard)	16.4 TFLOPs	15.7 TFLOPs	10.6 TFLOPs	10.0 TFLOPs	6.8 TFLOPs	5.04 TFLOPs
FP64演算性能	60 TFLOPs	48 TFLOPs	19.5 TFLOPs (9.7 TFLOPs standard)	19.5 TFLOPs (9.7 TFLOPs standard)	8.2 TFLOPs	7.80 TFLOPs	5.30 TFLOPs	4.7 TFLOPs	0.2 TFLOPs	1.68 TFLOPs
メモリインターフェイス	5120-bit HBM2e	5120-bit HBM3	6144-bit HBM2e	6144-bit HBM2e	4096-bit HBM2	4096-bit HBM2	4096-bit HBM2	4096-bit HBM2	384-bit GDDR5	384-bit GDDR5
メモリ容量	最大80 GB HBM3 @ 3.0 Gbps	最大80 GB HBM2e @ 2.0 Gbps	最大 40 GB HBM2 @ 1.6 TB/s 最大80 GB HBM2 @ 1.6 TB/s	最大 40 GB HBM2 @ 1.6 TB/s 最大 80 GB HBM2 @ 2.0 TB/s	16 GB HBM2 @ 1134 GB/s	16 GB HBM2 @ 900 GB/s	16 GB HBM2 @ 732 GB/s	16 GB HBM2 @ 732 GB/s 12 GB HBM2 @ 549 GB/s	24 GB GDDR5 @ 288 GB/s	12 GB GDDR5 @ 288 GB/s
L2 キャッシュ	51200 KB	51200 KB	40960 KB	40960 KB	6144 KB	6144 KB	4096 KB	4096 KB	3072 KB	1536 KB
TDP	700W	350W	400W	250W	250W	300W	300W	250W	250W	235W

ソース：wccftech – NVIDIA Hopper GH100 GPU Unveiled: The World’s First & Fastest 4nm Data Center Chip, Up To 4000 TFLOPs Compute, HBM3 3 TB/s Memory

解説：

Hopperは5nmではなく、4nmだそうです。

GTC2022が開催され、どこもこの話題で持ち切りですので、サーバー向けのGPUは興味がないのですが、一応nVidiaの次世代だし、取り上げてみます。

ただし、あまりやる気はないです。

HopperはLovelaceがRDNA3にどうしても勝てなかった場合、MCMを採用するチップ(GH102?)をGeforceとして出すというような話が出ています。

しかし、今回の仕様を見るとゲーム向けとしては無駄が多く、恐らく、AD102を徹底的にOCして何とかするのではないかと思います。

RTX4090Ti(?)は800W以上とも言われていますし、そこまでやるからにはHopperの出番はないのかなと思います。

IntelのGaudi 2 HL 2080はHopperと互角と言われていますが、今回TSMCの4nmを採用すると聞いてホントかな？と思いました。

GH100にはMCMを採用せず、巨大なモノリシックで行くのはnVidiaはMCMにあまり肯定的ではないのかなと感じました。

AppleのM1 UltraもM1を2つくっつけて単純に2倍の性能になっているわけではありませんし、やはり、チップ間の通信がボトルネックになる可能性を考えると、サーバー向けのフラッグシップは巨大なモノリシックにした方が良いと思ったのかもしれませんね。

早々にMCMを採用するAMDと様子見しながらと言うnVidia、両社のスタンスがはっきりしているところですね。

Voltaはゲーム向けとして出ましたが、性能は今一つでPascalのTITANと同程度の性能でした。

Hopperもゲーマーには関係のない製品になるのかなと思います。