本日、NVIDIAはA100 Tensor Coreアクセラレータの新しいバリアントであるA100 PCIeを発表しました。
NVIDIA A100 PCIe
NVIDIAは、PCI Express 4.0インターフェイスを搭載したA100 Ampereベースの新アクセラレータの発売を発表した。
本製品は、いくつかの詳細を除いて、A100 SXM製品と同じ仕様となっている。
A100 PCIeのTDPは250W。NVIDIAを引用したComputeBaseによると、このカードは確かにTDPのスペックが低い。
比較のために、SXM製品は400WのTDPを持っています。
しかし、PCIeモデルのTDPが低いにもかかわらず、NVIDIAによると、両モデルのピーク電力は同じで、持続的な負荷の間だけSXM4ベースの製品よりも10~50%低いパフォーマンスを提供するという。
PCIeモデルは、SXMモデルと同じ40GBのHBM2eメモリを搭載しています。また、6912個のCUDAコアと432個のTensorコアを搭載していますが、RTコアは搭載していません。A100 PCIeは、AIトレーニングと干渉のために設計されたアクセラレータです。また、大規模な科学アプリケーションや大規模なデータセンター向けのコンピュートカードとしても機能する。
A100 PCIeとA100 SXMアクセラレータを搭載したシステムは、現在、幅広いサーバーサプライヤーから入手可能です。
NVIDIA Compute Acceleratorシリーズ(旧Tesla)
A100 PCIe | A100 SXM | Tesla V100s | Tesla V100 | Tesla P100 | |
製造プロセス GPUチップ |
7nm GA100 | 7nm GA100 | 12nm GV100 | 12nm GV100 | 16nm GP100 |
ダイサイズ | 826 mm^2 | 826 mm^2 | 815 mm^2 | 815 mm^2 | 610 mm^2 |
トランジスタ数 | 540億 | 540億 | 211億 | 211億 | 153億 |
SMs | 108 | 108 | 80 | 80 | 56 |
CUDAコア数 | 6912 | 6912 | 5120 | 5120 | 3840 |
Tensorコア数 | 432 | 432 | 640 | 640 | NA |
FP16 演算性能 |
78 TFLOPS | 78 TFLOPS | 32.8 TFLOPS | 31.4 TFLOPS | 21.2 TFLOPS |
FP32 演算性能 |
19.5 TFLOPS | 19.5 TFLOPS | 16.4 TFLOPS | 15.7 TFLOPS | 10.6 TFLOPS |
FP64 演算性能 |
9.7 TFLOPS | 9.7 TFLOPS | 8.2 TFLOPS | 7.8 TFLOPS | 5.3 TFLOPS |
ブースト クロック |
~1410MHz | ~1410MHz | ~1601 MHz | ~1533 MHz | ~1480MHz |
メモリ 帯域幅 |
1555 GB/s | 1555 GB/s | 1134 GB/s | 900 GB/s | 721 GB/s |
実質メモリ クロック |
2430 MHz | 2430 MHz | 2214 MHz | 1760 MHz | 1408 MHz |
メモリ容量 種類 |
40GB HBM2e | 40GB HBM2e | 32GB HBM2 | 16GB / 32GB HBM2 | 16GB HBM2 |
メモリバス幅 | 5120-bit | 5120-bit | 4096-bit | 4096-bit | 4096-bit |
TDP | 250 | 400 | 250W | 300W | 300W |
対応インター フェイス |
PCIe 4.0 | SXM4 | PCIe 3.0 | SXM2 / PCIe 3.0 | SXM |
ソース:Videocradz.com – NVIDIA announces A100 PCIe accelerator
解説:
GA100のがっかりスペックが公式発表
事前のリーク情報では8192CUDAコアとされていたGA100ですが、公式発表では6912CUDAコアでした。
相変わらずのビッグダイで7nmでも826mm2です。
FP32の演算性能は19.5TFLOPSです。
こちらは、PascalのGP100ベースのTesla P100が3840CUDAコアで10.6TFLOPS、GP102のGTX1080Tiが3584CUDAコアで11.34TFLOPSですから、
5248CUDAコアのRTX3090(?)だとTuringの30%増しでも妥当な線なのかなと思います。
これだとPascalからTuringへの性能向上に少しプラスになったくらいです。
正直、夢から覚めた気分でかなり落胆しました。
nVidiaが目指しているもの
なぜこんなにがっかりスペックになったのか考えてみました。
これはDLSSの存在が大きいのかなと思います。
DLSSは60PFS前後までしか効果を発揮しない技術と言われています。
つまり、DLSSは4Kだと60FPSゲーミングにターゲットを合わせていますので、それ以上は性能を上げても意味がない真空地帯のようなものが存在すると言うことになります。
40-50FPS程度の性能をDLSSを使うことによって60FPSにできるとします。
しかし、それ以上性能を上げても体感の性能はあまり変わりません。
60FPS以上にするためにはDLSSをオフにする必要がありますが、中途半端な性能では逆に若干FPSが落ちてしまう可能性すらもあります。
また、4K以上の解像度に関しては未だに不透明な状況です。
テレビは8Kに進んでいますが、PCモニターで8Kが下りてくるのは当面先になるでしょう。
このため、あまり意味のないノーマルのFPSを稼ぐ演算性能にはシリコンを割かずにTensorコアやRTコアにシリコンを割いたのではないでしょうか。
4K120FPSや144FPSは次世代のGPUまでお預けと言うのがnvidiaの考えのように「見えます」
もちろんこれは私の予想ですので、あっているとは限りません。
しかし、ARMなどもノーマルの演算性能にシリコンを割かず、画像などを処理するAI機能にシリコンを割いているところを見ると、もはや通常の演算性能にシリコンを割く時代ではないという風にnVidiaは判断しているように見えます。
私は古いタイプの人間で既成概念にガチガチに固まっているので正直落胆しましたが、nvidiaの目指している方向の方がおそらくは正しいのでしょうね。