NVIDIA Tesla V100s Voltaベースのグラフィックスカードは、16TFLOPs以上の計算、1 TB/s以上のメモリ帯域幅の高いGPUクロックを特長としています

NVIDIAは、Tesla V100Sとして知られるVoltaベースのTeslaグラフィックカードの新しいバリアントをリリースしました。

新しいサーバー向け製品は、Volta GPUと同じ仕様を搭載していますが、GPUとメモリの両方ではるかに高速のクロック周波数を提供し、単精度の計算ワークロードで16TFLOPを超えるパフォーマンスを実現します。

NVIDIA Tesla V100S Volta GPUは、16TFLOPS以上の演算能力と1TB/s以上のメモリ帯域幅をサーバーにもたらします

構成に関しては、Tesla V100Sには、12nm FinFETプロセスノードに基づいたGV100 GPUと同じです。

仕様には、5120 CUDAコア、640 Tensorコア、および32 GBのHBM2メモリが含まれます。

おわかりのように、これらは既存のTesla V100と非常によく似た仕様ですが、GPUとメモリクロック速度の両方に大幅な変更が加えられています。

Tesla V100SはPCIeフォームファクターでのみ提供されますが、300W Tesla V100 SMX2（NVLINK）製品よりも高いクロックを提供します。

SMX2モデルの1533 MHzと比較して、1601 MHzのGPUクロック速度を備えており、HBM2 DRAMに対してより高い1.1 Gbps周波数も提供します。

メモリとグラフィッククロックの組み合わせにより、このTeslaモデルは最速のHPCおよびサーバー向けグラフィック製品になります。

上記のクロック速度で、Tesla V100Sは理論的なFP32演算性能は16.4 TFLOP、FP64演算性能は8.2 TFLOP、およびDNN/DL(ディープラーニング)計算は130 TFLOPを提供できます。

このカードは、Tesla V100の1秒あたり900 GBの帯域幅に対して、1テラバイト以上のメモリ帯域幅（1134 GB / s）も出力します。

Tesla V100Sは250W設計で提供され、7nm Vega 20 GPUアーキテクチャに基づいたAMDのRadeon Instinct MI60よりも高い計算パフォーマンスを備えていますが、300WのTDPで14.75 TFLOPsの最大FP32計算パフォーマンスを提供します。

NVIDIA Volta Tesla V100S仕様：

NVIDIA Tesla グラフィックカード世代	Tesla K40 (PCI-Express)	Tesla M40 (PCI-Express)	Tesla P100 (PCI-Express)	Tesla P100 (SXM2)	Tesla V100 (PCI-Express)	Tesla V100 (SXM2)	Tesla V100S (PCIe)
GPU	GK110 (Kepler)	GM200 (Maxwell)	GP100 (Pascal)	GP100 (Pascal)	GV100 (Volta)	GV100 (Volta)	GV100 (Volta)
製造プロセス	28nm	28nm	16nm	16nm	12nm	12nm	12nm
トランジスタ数	71億	80億	153億	153億	211億	211億	211億
GPU ダイサイズ	551 mm2	601 mm2	610 mm2	610 mm2	815mm2	815mm2	815mm2
SMs	15	24	56	56	80	80	80
TPCs	15	24	28	28	40	40	40
SM当たりの CUDAコア数	192	128	64	64	64	64	64
CUDAコア数 (合計)	2880	3072	3584	3584	5120	5120	5120
テクスチャユニット	240	192	224	224	320	320	320
FP64 における SM当たりの CUDAコア	64	4	32	32	32	32	32
FP64 における CUDAコア数	960	96	1792	1792	2560	2560	2560
ベースクロック	745 MHz	948 MHz	1190 MHz	1328 MHz	1230 MHz	1297 MHz	TBD
ブーストクロック	875 MHz	1114 MHz	1329MHz	1480 MHz	1380 MHz	1530 MHz	1601 MHz
FP16 演算能力	無し	無し	18.7 TFLOPs	21.2 TFLOPs	28.0 TFLOPs	30.4 TFLOPs	32.8 TFLOPs
FP32 演算能力	5.04 TFLOPs	6.8 TFLOPs	10.0 TFLOPs	10.6 TFLOPs	14.0 TFLOPs	15.7 TFLOPs	16.4 TFLOPs
FP64 演算能力	1.68 TFLOPs	0.2 TFLOPs	4.7 TFLOPs	5.30 TFLOPs	7.0 TFLOPs	7.80 TFLOPs	8.2 TFLOPs
メモリバス幅	384bit	384bit	4096bit	4096bit	4096bit	4096bit	4096bit
メモリ容量メモリ種類メモリ帯域幅	12 GB GDDR5 @ 288 GB/s	24 GB GDDR5 @ 288 GB/s	16 GB HBM2 @ 732 GB/s 12 GB HBM2 @ 549 GB/s	16 GB HBM2 @ 732 GB/s	16 GB HBM2 @ 900 GB/s	16 GB HBM2 @ 900 GB/s	16 GB HBM2 @ 1134 GB/s
L2キャッシュ容量	1536 KB	3072 KB	4096 KB	4096 KB	6144 KB	6144 KB	6144 KB
TDP	235W	250W	250W	300W	250W	300W	250W

Tesla V100 PCIeと比較すると、Tesla V100Sから得られる計算パフォーマンスは約17％向上しています。

これは素晴らしい増加であり、サーバーの視聴者はアップグレードの理由としてそれを見るでしょう。

ここで考慮すべき唯一のことは、AMD InstinctパーツはPCIe Gen 4.0互換性を備えており、2020年に多くの主要なサーバープレーヤーがPCIe 4.0プラットフォームに移行するため、NVIDIAは独自のPCIe Gen 4.0実装で作業する必要があります。アンペアGPUが登場します。

現在、Tesla V100Sの価格設定や入手可能性については言及されていませんが、6000ドルを超えると予想されます。

ソース：wccftech - NVIDIA Tesla V100s Volta Based Graphics Card Features Higher GPU Clocks For Over 16 TFLOPs Compute, Over 1 TB/s Memory Bandwdith

解説：

nVidiaの機械学習向け新製品が出ない→今回はVoltaの改良版でした

nVidiaの機械学習向けの新製品が出ないと思っていたのですが、今回はTesla V100SというVoltaの高クロック版でした。

この製品はパートナー企業に積極的にPRしてくださいとnVidiaは言ってないようで、あまり派手にはPRしていないようですね。

てっきり7nmEUVの大規模性能向上版が出るものと思っていた私にとってはかなり肩透かしを食らいました。

AmpereはVoltaの後継になると思っていたのですが、どうも違うようです。

AI/DL向けのGPUの更新サイクルはゲーム向けGPUとは違うようです。

概要に関してはtechpowerupのほうが今回は先だったので、ツイッターでツイートしてあります。

翻訳しないトピックに関しても触れていますので、最新情報が気になる方はツイッターのアカウントをフォローされることをお勧めしておきます。

さて、今回Tesla V100Sの話題が出たところで今後のnVidiaのGPU製品の噂などをまとめてみましょう。