NVIDIAがA100 PCIeアクセラレータを発表 – 自作ユーザーが解説するゲーミングPCガイド

本日、NVIDIAはA100 Tensor Coreアクセラレータの新しいバリアントであるA100 PCIeを発表しました。

NVIDIA A100 PCIe

NVIDIAは、PCI Express 4.0インターフェイスを搭載したA100 Ampereベースの新アクセラレータの発売を発表した。

本製品は、いくつかの詳細を除いて、A100 SXM製品と同じ仕様となっている。

A100 PCIeのTDPは250W。NVIDIAを引用したComputeBaseによると、このカードは確かにTDPのスペックが低い。

比較のために、SXM製品は400WのTDPを持っています。

しかし、PCIeモデルのTDPが低いにもかかわらず、NVIDIAによると、両モデルのピーク電力は同じで、持続的な負荷の間だけSXM4ベースの製品よりも10～50％低いパフォーマンスを提供するという。

PCIeモデルは、SXMモデルと同じ40GBのHBM2eメモリを搭載しています。また、6912個のCUDAコアと432個のTensorコアを搭載していますが、RTコアは搭載していません。A100 PCIeは、AIトレーニングと干渉のために設計されたアクセラレータです。また、大規模な科学アプリケーションや大規模なデータセンター向けのコンピュートカードとしても機能する。

A100 PCIeとA100 SXMアクセラレータを搭載したシステムは、現在、幅広いサーバーサプライヤーから入手可能です。

NVIDIA Compute Acceleratorシリーズ(旧Tesla)

	A100 PCIe	A100 SXM	Tesla V100s	Tesla V100	Tesla P100
製造プロセス GPUチップ	7nm GA100	7nm GA100	12nm GV100	12nm GV100	16nm GP100
ダイサイズ	826 mm^2	826 mm^2	815 mm^2	815 mm^2	610 mm^2
トランジスタ数	540億	540億	211億	211億	153億
SMs	108	108	80	80	56
CUDAコア数	6912	6912	5120	5120	3840
Tensorコア数	432	432	640	640	NA
FP16 演算性能	78 TFLOPS	78 TFLOPS	32.8 TFLOPS	31.4 TFLOPS	21.2 TFLOPS
FP32 演算性能	19.5 TFLOPS	19.5 TFLOPS	16.4 TFLOPS	15.7 TFLOPS	10.6 TFLOPS
FP64 演算性能	9.7 TFLOPS	9.7 TFLOPS	8.2 TFLOPS	7.8 TFLOPS	5.3 TFLOPS
ブーストクロック	~1410MHz	~1410MHz	~1601 MHz	~1533 MHz	~1480MHz
メモリ帯域幅	1555 GB/s	1555 GB/s	1134 GB/s	900 GB/s	721 GB/s
実質メモリクロック	2430 MHz	2430 MHz	2214 MHz	1760 MHz	1408 MHz
メモリ容量種類	40GB HBM2e	40GB HBM2e	32GB HBM2	16GB / 32GB HBM2	16GB HBM2
メモリバス幅	5120-bit	5120-bit	4096-bit	4096-bit	4096-bit
TDP	250	400	250W	300W	300W
対応インターフェイス	PCIe 4.0	SXM4	PCIe 3.0	SXM2 / PCIe 3.0	SXM

ソース：Videocradz.com – NVIDIA announces A100 PCIe accelerator

解説：

GA100のがっかりスペックが公式発表

事前のリーク情報では8192CUDAコアとされていたGA100ですが、公式発表では6912CUDAコアでした。

相変わらずのビッグダイで7nmでも826mm2です。

FP32の演算性能は19.5TFLOPSです。

こちらは、PascalのGP100ベースのTesla P100が3840CUDAコアで10.6TFLOPS、GP102のGTX1080Tiが3584CUDAコアで11.34TFLOPSですから、

5248CUDAコアのRTX3090(?)だとTuringの30%増しでも妥当な線なのかなと思います。

これだとPascalからTuringへの性能向上に少しプラスになったくらいです。

正直、夢から覚めた気分でかなり落胆しました。

nVidiaが目指しているもの

なぜこんなにがっかりスペックになったのか考えてみました。

これはDLSSの存在が大きいのかなと思います。

DLSSは60PFS前後までしか効果を発揮しない技術と言われています。

つまり、DLSSは4Kだと60FPSゲーミングにターゲットを合わせていますので、それ以上は性能を上げても意味がない真空地帯のようなものが存在すると言うことになります。

40-50FPS程度の性能をDLSSを使うことによって60FPSにできるとします。

しかし、それ以上性能を上げても体感の性能はあまり変わりません。

60FPS以上にするためにはDLSSをオフにする必要がありますが、中途半端な性能では逆に若干FPSが落ちてしまう可能性すらもあります。

また、4K以上の解像度に関しては未だに不透明な状況です。

テレビは8Kに進んでいますが、PCモニターで8Kが下りてくるのは当面先になるでしょう。

このため、あまり意味のないノーマルのFPSを稼ぐ演算性能にはシリコンを割かずにTensorコアやRTコアにシリコンを割いたのではないでしょうか。

4K120FPSや144FPSは次世代のGPUまでお預けと言うのがnvidiaの考えのように「見えます」

もちろんこれは私の予想ですので、あっているとは限りません。

しかし、ARMなどもノーマルの演算性能にシリコンを割かず、画像などを処理するAI機能にシリコンを割いているところを見ると、もはや通常の演算性能にシリコンを割く時代ではないという風にnVidiaは判断しているように見えます。

私は古いタイプの人間で既成概念にガチガチに固まっているので正直落胆しましたが、nvidiaの目指している方向の方がおそらくは正しいのでしょうね。