GPU情報

NVIDIAがA100 PCIeアクセラレータを発表

投稿日:

本日、NVIDIAはA100 Tensor Coreアクセラレータの新しいバリアントであるA100 PCIeを発表しました。

NVIDIA A100 PCIe

NVIDIAは、PCI Express 4.0インターフェイスを搭載したA100 Ampereベースの新アクセラレータの発売を発表した。

本製品は、いくつかの詳細を除いて、A100 SXM製品と同じ仕様となっている。

A100 PCIeのTDPは250W。NVIDIAを引用したComputeBaseによると、このカードは確かにTDPのスペックが低い。

比較のために、SXM製品は400WのTDPを持っています。

しかし、PCIeモデルのTDPが低いにもかかわらず、NVIDIAによると、両モデルのピーク電力は同じで、持続的な負荷の間だけSXM4ベースの製品よりも10~50%低いパフォーマンスを提供するという。

PCIeモデルは、SXMモデルと同じ40GBのHBM2eメモリを搭載しています。また、6912個のCUDAコアと432個のTensorコアを搭載していますが、RTコアは搭載していません。A100 PCIeは、AIトレーニングと干渉のために設計されたアクセラレータです。また、大規模な科学アプリケーションや大規模なデータセンター向けのコンピュートカードとしても機能する。

A100 PCIeとA100 SXMアクセラレータを搭載したシステムは、現在、幅広いサーバーサプライヤーから入手可能です。

NVIDIA Compute Acceleratorシリーズ(旧Tesla)

A100 PCIeA100 SXMTesla V100sTesla V100Tesla P100
製造プロセス
GPUチップ
7nm GA1007nm GA10012nm GV10012nm GV10016nm GP100
ダイサイズ 826 mm^2 826 mm^2 815 mm^2 815 mm^2 610 mm^2
トランジスタ数540億540億211億211億153億
SMs108108808056
CUDAコア数69126912512051203840
Tensorコア数432432640640NA
FP16
演算性能
 78 TFLOPS 78 TFLOPS 32.8 TFLOPS 31.4 TFLOPS 21.2 TFLOPS
FP32
演算性能
 19.5 TFLOPS 19.5 TFLOPS 16.4 TFLOPS 15.7 TFLOPS 10.6 TFLOPS
FP64
演算性能
 9.7 TFLOPS 9.7 TFLOPS 8.2 TFLOPS 7.8 TFLOPS 5.3 TFLOPS
ブースト
クロック
 ~1410MHz ~1410MHz ~1601 MHz ~1533 MHz ~1480MHz
メモリ
帯域幅
 1555 GB/s 1555 GB/s 1134 GB/s 900 GB/s 721 GB/s
実質メモリ
クロック
 2430 MHz 2430 MHz 2214 MHz 1760 MHz 1408 MHz
メモリ容量
種類
 40GB HBM2e 40GB HBM2e 32GB HBM2 16GB / 32GB HBM2 16GB HBM2
メモリバス幅 5120-bit 5120-bit 4096-bit 4096-bit 4096-bit
TDP250400 250W 300W 300W
対応インター
フェイス
PCIe 4.0SXM4PCIe 3.0SXM2 / PCIe 3.0SXM

ソース:Videocradz.com - NVIDIA announces A100 PCIe accelerator

 

解説:

GA100のがっかりスペックが公式発表

事前のリーク情報では8192CUDAコアとされていたGA100ですが、公式発表では6912CUDAコアでした。

相変わらずのビッグダイで7nmでも826mm2です。

FP32の演算性能は19.5TFLOPSです。

こちらは、PascalのGP100ベースのTesla P100が3840CUDAコアで10.6TFLOPS、GP102のGTX1080Tiが3584CUDAコアで11.34TFLOPSですから、

5248CUDAコアのRTX3090(?)だとTuringの30%増しでも妥当な線なのかなと思います。

これだとPascalからTuringへの性能向上に少しプラスになったくらいです。

正直、夢から覚めた気分でかなり落胆しました。

 

nVidiaが目指しているもの

なぜこんなにがっかりスペックになったのか考えてみました。

これはDLSSの存在が大きいのかなと思います。

DLSSは60PFS前後までしか効果を発揮しない技術と言われています。

つまり、DLSSは4Kだと60FPSゲーミングにターゲットを合わせていますので、それ以上は性能を上げても意味がない真空地帯のようなものが存在すると言うことになります。

40-50FPS程度の性能をDLSSを使うことによって60FPSにできるとします。

しかし、それ以上性能を上げても体感の性能はあまり変わりません。

60FPS以上にするためにはDLSSをオフにする必要がありますが、中途半端な性能では逆に若干FPSが落ちてしまう可能性すらもあります。

また、4K以上の解像度に関しては未だに不透明な状況です。

テレビは8Kに進んでいますが、PCモニターで8Kが下りてくるのは当面先になるでしょう。

このため、あまり意味のないノーマルのFPSを稼ぐ演算性能にはシリコンを割かずにTensorコアやRTコアにシリコンを割いたのではないでしょうか。

4K120FPSや144FPSは次世代のGPUまでお預けと言うのがnvidiaの考えのように「見えます」

もちろんこれは私の予想ですので、あっているとは限りません。

しかし、ARMなどもノーマルの演算性能にシリコンを割かず、画像などを処理するAI機能にシリコンを割いているところを見ると、もはや通常の演算性能にシリコンを割く時代ではないという風にnVidiaは判断しているように見えます。

私は古いタイプの人間で既成概念にガチガチに固まっているので正直落胆しましたが、nvidiaの目指している方向の方がおそらくは正しいのでしょうね。

 

nVidia RTX2000/GTX1600シリーズGPU

 

RTX2000SUPERシリーズ

 

GTX1600SUPER

 

ハイエンド(性能重視)

RTX2080Ti最安

RTX2080Ti OCモデル

 

 

ミドルレンジ(性能と価格のバランス重視)

 

エントリー(価格重視)

-GPU情報

Copyright© 自作ユーザーが解説するゲーミングPCガイド , 2020 All Rights Reserved.