自作PCユーザーがゲーム用PCの解説をします

自作ユーザーが解説するゲーミングPCガイド

NVIDIAがA100 PCIeアクセラレータを発表

投稿日:

本日、NVIDIAはA100 Tensor Coreアクセラレータの新しいバリアントであるA100 PCIeを発表しました。

NVIDIA A100 PCIe

NVIDIAは、PCI Express 4.0インターフェイスを搭載したA100 Ampereベースの新アクセラレータの発売を発表した。

本製品は、いくつかの詳細を除いて、A100 SXM製品と同じ仕様となっている。

A100 PCIeのTDPは250W。NVIDIAを引用したComputeBaseによると、このカードは確かにTDPのスペックが低い。

比較のために、SXM製品は400WのTDPを持っています。

しかし、PCIeモデルのTDPが低いにもかかわらず、NVIDIAによると、両モデルのピーク電力は同じで、持続的な負荷の間だけSXM4ベースの製品よりも10~50%低いパフォーマンスを提供するという。

PCIeモデルは、SXMモデルと同じ40GBのHBM2eメモリを搭載しています。また、6912個のCUDAコアと432個のTensorコアを搭載していますが、RTコアは搭載していません。A100 PCIeは、AIトレーニングと干渉のために設計されたアクセラレータです。また、大規模な科学アプリケーションや大規模なデータセンター向けのコンピュートカードとしても機能する。

A100 PCIeとA100 SXMアクセラレータを搭載したシステムは、現在、幅広いサーバーサプライヤーから入手可能です。

NVIDIA Compute Acceleratorシリーズ(旧Tesla)

A100 PCIe A100 SXM Tesla V100s Tesla V100 Tesla P100
製造プロセス
GPUチップ
7nm GA100 7nm GA100 12nm GV100 12nm GV100 16nm GP100
ダイサイズ  826 mm^2  826 mm^2  815 mm^2  815 mm^2  610 mm^2
トランジスタ数 540億 540億 211億 211億 153億
SMs 108 108 80 80 56
CUDAコア数 6912 6912 5120 5120 3840
Tensorコア数 432 432 640 640 NA
FP16
演算性能
 78 TFLOPS  78 TFLOPS  32.8 TFLOPS  31.4 TFLOPS  21.2 TFLOPS
FP32
演算性能
 19.5 TFLOPS  19.5 TFLOPS  16.4 TFLOPS  15.7 TFLOPS  10.6 TFLOPS
FP64
演算性能
 9.7 TFLOPS  9.7 TFLOPS  8.2 TFLOPS  7.8 TFLOPS  5.3 TFLOPS
ブースト
クロック
 ~1410MHz  ~1410MHz  ~1601 MHz  ~1533 MHz  ~1480MHz
メモリ
帯域幅
 1555 GB/s  1555 GB/s  1134 GB/s  900 GB/s  721 GB/s
実質メモリ
クロック
 2430 MHz  2430 MHz  2214 MHz  1760 MHz  1408 MHz
メモリ容量
種類
 40GB HBM2e  40GB HBM2e  32GB HBM2  16GB / 32GB HBM2  16GB HBM2
メモリバス幅  5120-bit  5120-bit  4096-bit  4096-bit  4096-bit
TDP 250 400  250W  300W  300W
対応インター
フェイス
PCIe 4.0 SXM4 PCIe 3.0 SXM2 / PCIe 3.0 SXM

ソース:Videocradz.com – NVIDIA announces A100 PCIe accelerator

 

解説:

GA100のがっかりスペックが公式発表

事前のリーク情報では8192CUDAコアとされていたGA100ですが、公式発表では6912CUDAコアでした。

相変わらずのビッグダイで7nmでも826mm2です。

FP32の演算性能は19.5TFLOPSです。

こちらは、PascalのGP100ベースのTesla P100が3840CUDAコアで10.6TFLOPS、GP102のGTX1080Tiが3584CUDAコアで11.34TFLOPSですから、

5248CUDAコアのRTX3090(?)だとTuringの30%増しでも妥当な線なのかなと思います。

これだとPascalからTuringへの性能向上に少しプラスになったくらいです。

正直、夢から覚めた気分でかなり落胆しました。

 

nVidiaが目指しているもの

なぜこんなにがっかりスペックになったのか考えてみました。

これはDLSSの存在が大きいのかなと思います。

DLSSは60PFS前後までしか効果を発揮しない技術と言われています。

つまり、DLSSは4Kだと60FPSゲーミングにターゲットを合わせていますので、それ以上は性能を上げても意味がない真空地帯のようなものが存在すると言うことになります。

40-50FPS程度の性能をDLSSを使うことによって60FPSにできるとします。

しかし、それ以上性能を上げても体感の性能はあまり変わりません。

60FPS以上にするためにはDLSSをオフにする必要がありますが、中途半端な性能では逆に若干FPSが落ちてしまう可能性すらもあります。

また、4K以上の解像度に関しては未だに不透明な状況です。

テレビは8Kに進んでいますが、PCモニターで8Kが下りてくるのは当面先になるでしょう。

このため、あまり意味のないノーマルのFPSを稼ぐ演算性能にはシリコンを割かずにTensorコアやRTコアにシリコンを割いたのではないでしょうか。

4K120FPSや144FPSは次世代のGPUまでお預けと言うのがnvidiaの考えのように「見えます」

もちろんこれは私の予想ですので、あっているとは限りません。

しかし、ARMなどもノーマルの演算性能にシリコンを割かず、画像などを処理するAI機能にシリコンを割いているところを見ると、もはや通常の演算性能にシリコンを割く時代ではないという風にnVidiaは判断しているように見えます。

私は古いタイプの人間で既成概念にガチガチに固まっているので正直落胆しましたが、nvidiaの目指している方向の方がおそらくは正しいのでしょうね。

 

  • B!