NVIDIAは、Tesla V100Sとして知られるVoltaベースのTeslaグラフィックカードの新しいバリアントをリリースしました。
新しいサーバー向け製品は、Volta GPUと同じ仕様を搭載していますが、GPUとメモリの両方ではるかに高速のクロック周波数を提供し、単精度の計算ワークロードで16TFLOPを超えるパフォーマンスを実現します。
NVIDIA Tesla V100S Volta GPUは、16TFLOPS以上の演算能力と1TB/s以上のメモリ帯域幅をサーバーにもたらします
構成に関しては、Tesla V100Sには、12nm FinFETプロセスノードに基づいたGV100 GPUと同じです。
仕様には、5120 CUDAコア、640 Tensorコア、および32 GBのHBM2メモリが含まれます。
おわかりのように、これらは既存のTesla V100と非常によく似た仕様ですが、GPUとメモリクロック速度の両方に大幅な変更が加えられています。
Tesla V100SはPCIeフォームファクターでのみ提供されますが、300W Tesla V100 SMX2(NVLINK)製品よりも高いクロックを提供します。
SMX2モデルの1533 MHzと比較して、1601 MHzのGPUクロック速度を備えており、HBM2 DRAMに対してより高い1.1 Gbps周波数も提供します。
メモリとグラフィッククロックの組み合わせにより、このTeslaモデルは最速のHPCおよびサーバー向けグラフィック製品になります。
上記のクロック速度で、Tesla V100Sは理論的なFP32演算性能は16.4 TFLOP、FP64演算性能は8.2 TFLOP、およびDNN/DL(ディープラーニング)計算は130 TFLOPを提供できます。
このカードは、Tesla V100の1秒あたり900 GBの帯域幅に対して、1テラバイト以上のメモリ帯域幅(1134 GB / s)も出力します。
Tesla V100Sは250W設計で提供され、7nm Vega 20 GPUアーキテクチャに基づいたAMDのRadeon Instinct MI60よりも高い計算パフォーマンスを備えていますが、300WのTDPで14.75 TFLOPsの最大FP32計算パフォーマンスを提供します。
NVIDIA Volta Tesla V100S仕様:
NVIDIA Tesla グラフィックカード 世代 | Tesla K40 (PCI-Express) | Tesla M40 (PCI-Express) | Tesla P100 (PCI-Express) | Tesla P100 (SXM2) | Tesla V100 (PCI-Express) | Tesla V100 (SXM2) | Tesla V100S (PCIe) |
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (Pascal) | GP100 (Pascal) | GV100 (Volta) | GV100 (Volta) | GV100 (Volta) |
製造プロセス | 28nm | 28nm | 16nm | 16nm | 12nm | 12nm | 12nm |
トランジスタ数 | 71億 | 80億 | 153億 | 153億 | 211億 | 211億 | 211億 |
GPU ダイサイズ | 551 mm2 | 601 mm2 | 610 mm2 | 610 mm2 | 815mm2 | 815mm2 | 815mm2 |
SMs | 15 | 24 | 56 | 56 | 80 | 80 | 80 |
TPCs | 15 | 24 | 28 | 28 | 40 | 40 | 40 |
SM当たりの CUDAコア数 | 192 | 128 | 64 | 64 | 64 | 64 | 64 |
CUDAコア数 (合計) | 2880 | 3072 | 3584 | 3584 | 5120 | 5120 | 5120 |
テクスチャ ユニット | 240 | 192 | 224 | 224 | 320 | 320 | 320 |
FP64 における SM当たりの CUDAコア | 64 | 4 | 32 | 32 | 32 | 32 | 32 |
FP64 における CUDAコア数 | 960 | 96 | 1792 | 1792 | 2560 | 2560 | 2560 |
ベース クロック | 745 MHz | 948 MHz | 1190 MHz | 1328 MHz | 1230 MHz | 1297 MHz | TBD |
ブースト クロック | 875 MHz | 1114 MHz | 1329MHz | 1480 MHz | 1380 MHz | 1530 MHz | 1601 MHz |
FP16 演算能力 | 無し | 無し | 18.7 TFLOPs | 21.2 TFLOPs | 28.0 TFLOPs | 30.4 TFLOPs | 32.8 TFLOPs |
FP32 演算能力 | 5.04 TFLOPs | 6.8 TFLOPs | 10.0 TFLOPs | 10.6 TFLOPs | 14.0 TFLOPs | 15.7 TFLOPs | 16.4 TFLOPs |
FP64 演算能力 | 1.68 TFLOPs | 0.2 TFLOPs | 4.7 TFLOPs | 5.30 TFLOPs | 7.0 TFLOPs | 7.80 TFLOPs | 8.2 TFLOPs |
メモリバス幅 | 384bit | 384bit | 4096bit | 4096bit | 4096bit | 4096bit | 4096bit |
メモリ容量 メモリ種類 メモリ帯域幅 | 12 GB GDDR5 @ 288 GB/s | 24 GB GDDR5 @ 288 GB/s | 16 GB HBM2 @ 732 GB/s 12 GB HBM2 @ 549 GB/s | 16 GB HBM2 @ 732 GB/s | 16 GB HBM2 @ 900 GB/s | 16 GB HBM2 @ 900 GB/s | 16 GB HBM2 @ 1134 GB/s |
L2キャッシュ 容量 | 1536 KB | 3072 KB | 4096 KB | 4096 KB | 6144 KB | 6144 KB | 6144 KB |
TDP | 235W | 250W | 250W | 300W | 250W | 300W | 250W |
Tesla V100 PCIeと比較すると、Tesla V100Sから得られる計算パフォーマンスは約17%向上しています。
これは素晴らしい増加であり、サーバーの視聴者はアップグレードの理由としてそれを見るでしょう。
ここで考慮すべき唯一のことは、AMD InstinctパーツはPCIe Gen 4.0互換性を備えており、2020年に多くの主要なサーバープレーヤーがPCIe 4.0プラットフォームに移行するため、NVIDIAは独自のPCIe Gen 4.0実装で作業する必要があります。 アンペアGPUが登場します。
現在、Tesla V100Sの価格設定や入手可能性については言及されていませんが、6000ドルを超えると予想されます。
解説:
nVidiaの機械学習向け新製品が出ない→今回はVoltaの改良版でした
nVidiaの機械学習向けの新製品が出ないと思っていたのですが、今回はTesla V100SというVoltaの高クロック版でした。
この製品はパートナー企業に積極的にPRしてくださいとnVidiaは言ってないようで、あまり派手にはPRしていないようですね。
てっきり7nmEUVの大規模性能向上版が出るものと思っていた私にとってはかなり肩透かしを食らいました。
AmpereはVoltaの後継になると思っていたのですが、どうも違うようです。
AI/DL向けのGPUの更新サイクルはゲーム向けGPUとは違うようです。
概要に関してはtechpowerupのほうが今回は先だったので、ツイッターでツイートしてあります。
翻訳しないトピックに関しても触れていますので、最新情報が気になる方はツイッターのアカウントをフォローされることをお勧めしておきます。
さて、今回Tesla V100Sの話題が出たところで今後のnVidiaのGPU製品の噂などをまとめてみましょう。
まず、Geforceの次期製品と見られているAmpereですが、こちらは現在
・2020年3月に発表され、6月に発売される(海外の証券アナリスト)
・2020年Q4に発表され、2021年に発売される(日本のアスキー)
2つの説があります。
私はどちらかと言うとサムスンの7nmEUVの生産状況なども考慮に入れて予測している日本のメディアの説を信用しています。
また、ドイツのフォーラムでAmpereの技術情報が初めて噂として出てきましたが、それによると、
RTX3080Tiは6000-7000 CUDAコアになると予想されています。
Tensorコア(DLSS)やRTコア(レイトレーシング)の処理能力は50-100%向上すると言われています。
TU102のメモリバス幅はフルシリコンで384bitですが、こちらは1.5倍の576bit以上になるのではないかと思います。
演算能力やTensorコア、RTコアの性能向上によって必要とされるメモリ帯域は今回はメモリ速度だけではなく、メモリ容量を増やしてバス幅を広げて対応するということのようです。
つまり、各モデルともにメモリ容量がアップする可能性があるということですね。
GA102が18GB前後、
GA104、GA106が12GB前後、
GA116(?)が8GB前後
この程度になるのではないかと思います。
容量が増えた分のバス幅の帯域とメモリ速度そのものの向上によって大幅に最終的なメモリ帯域が増えるものと思います。
RTX2000、GTX1600シリーズは12/14Gbpsが主に使われていますが、RTX3000シリーズは16Gbpsや18GbpsのGDDR6メモリも使われるのではないかと思います。
高速化とメモリバス幅の広帯域化によって最終的なメモリ帯域幅を性能向上に見合ったレベルにするのではないかと思います。
こう考えてみるとやはり、GA100系の次期GeforceはMaxwellからPascalの性能向上に近い大ジャンプになると思います。
参考記事:噂:ドイツのフォーラムにで語られた世界で最初のAmpere技術情報
nVidia RTX4000SUPER
nVidia RTX4000
nVidia RTX3000シリーズGPU
RTX3060 12GB GDDR6
RTX3050 6GB