Intel Xe GPUアーキテクチャの詳細–数千のEU、大規模なHBMメモリ、Ramboキャッシュを備えたPonte Vecchio Xe HPC Exascale GPU

IntelはHPC Developer ConferenceでXe GPUアーキテクチャベースの製品の最新の詳細を発表しました。

検討中の段階ですが、IntelのSVP、チーフアーキテクト、およびアーキテクチャのジェネラルマネージャーであるRaja Koduriは、Xeとして知られるIntelの最初の社内グラフィックアーキテクチャの最初のアーキテクチャロードマップと、それが組み込まれる各製品ラインを明らかにしました。

Intel Details Xe GPUアーキテクチャ-Ponte Vecchioは、数千のEUに拡張可能なExascale Compute、XEMFスケーラブルメモリファブリック、Ramboキャッシュ、Forverosパッケージング、EUあたりのFP64 Computeの40倍の増加、その他多数！

ここでは多くのことを説明しますので、Xe GPUアーキテクチャの最初の側面であるラインナップ自体について話しましょう。

Intel Xe GPUアーキテクチャは、さまざまな製品を強化する1つのスケーラブルなアーキテクチャです。

インテルは、Xeから派生した3つのマイクロアーキテクチャを提供する予定です。

これらには以下が含まれます。

Intel Xe LP（統合+エントリー）
Intel Xe HP（中距離、愛好家、データセンター/ AI）
Intel Xe HPC（HPC Exascale）

命名スキームから、これらのGPUが機能になる場所を知ることができます。

「LP」キーワードはLow-Powerを表し、「HP」キーワードはHigh-Performanceを表します。

HPCキーワードは、高性能コンピューティングを目的としたアーキテクチャであり、これから説明するさまざまな新しいIntelテクノロジを使用します。

Xe LPは約5W〜20Wですが、最大50Wまで拡張できるとされています。

IntelのXe HPはその1層であり、75W-250Wセグメントをカバーする必要がありますが、Xe HPCクラスアーキテクチャは、他よりもさらに高いコンピューティングパフォーマンスを提供することを目指しています。

「アーキテクチャはソフトウェア互換性契約です。私たちはもともと、Xe内の2つのマイクロアーキテクチャ（LPとHP）を計画していましたが、HPC内に3つ目の機会を見つけました。」-Raja Koduri

Intel XeクラスGPUは、以下で説明するように可変ベクトル幅を備えています。

SIMT（GPUスタイル）
SIMD（CPUスタイル）
SIMT + SIMD（最大パフォーマンス）

Rajaは、Xe HPCクラスGPUについて具体的に説明しました。これは、開発者会議が完全にその目的であるためです。

IntelのXe HPC GPUは数千のEUに拡張でき、各実行ユニットは40倍の倍精度浮動小数点演算処理能力を提供するようにアップグレードされました。

EUは、XEMF（XE Memory Fabricの短縮形）として知られる新しいスケーラブルなメモリファブリックで、いくつかの高帯域幅メモリチャネルに接続されます。

Xe HPCアーキテクチャには、複数のGPUを接続するRamboキャッシュと呼ばれる非常に大きな統合キャッシュも含まれます。

このRamboキャッシュは、巨大なメモリ帯域幅を提供することにより、倍精度ワークロード全体で持続可能なピークFP64コンピューティングパフォーマンスを提供します。

「Xeアーキテクチャの中心には、XEMFと呼ばれる新しいファブリックがあります。これらのマシンのパフォーマンスの中心です。これをRambo Cacheと呼びました。CPUとGPUメモリにアクセスできる統合キャッシュです。」-Raja Koduri

Intelは、最新の7nmプロセスノードでXe HPCクラスGPUを製造します。

これは、Intelが以前に語った7nmの主要製品でもあります。

インテルは、ForverosやEMIBインターコネクトなどの新しい拡張パッケージテクノロジーを最大限に活用して、次のエクサスケールGPUを開発します。

プロセスの最適化に関しては、10nmを超える7nmプロセスノードについてIntelが発表したいくつかの重要な改善点を以下に示します。

10nmに対して倍の密度
計画的なノード内最適化
設計ルールの4倍の削減
EUV
次世代FoverosおよびEMIBパッケージ

Xe HPC GPUは、Forverosテクノロジーを使用して、同じインターポーザー上の他の複数のXe HPC GPUで共有されるRamboキャッシュと相互接続します。
同様に、EMIBはHBMメモリをGPUに接続するために使用されます。

どちらのテクノロジーも、帯域幅の効率と密度を大幅に向上させます。

Xeonの同胞と同様に、IntelのXe HPC GPUにはECCメモリ/キャッシュ修正とXeon-Class RASが搭載されます。

ブルーチーム初のHPC GPU、7nmPonte Vecchio-2021年にAuroraスーパーコンピューターに上陸

すべての主要なテクノロジーを詳細に説明したので、IntelのXe HPCアーキテクチャが搭載される最初の7nm製品に直行しましょう。

これはPonte Vecchioと呼ばれ、スーパーコンピューター向けの次のシングルチップエクサスケールデザインを目指した超大規模GPUです。

Ponte Vecchio GPUには、Xe HPC GPUアーキテクチャに基づく16個のコンピューティングチップレットが付属します。

各GPUには大量のHBM DRAMが接続されているようです。

Auroraスーパーコンピューターの単一ノードについてもここで詳しく説明します。

OneAPIソフトウェアスタックでCXL（Compute Express LinkまたはIntel Xe Link）を使用してIntel経由で接続された6つのPonte Vecchio GPUを検討しています。

このノードには、次世代の10nm ++ Willow Cove CPUアーキテクチャに基づく2つのIntel Sapphire Rapidsプロセッサも搭載されます。

7nmデータセンターXeベースのポンテヴェッキオPGPUを搭載した最初に確認された製品は、上記のAuroraスーパーコンピューターです。

単一のAuroraスーパーコンピューターノードの主要な機能には次のものがあります。
リーダーシップのパフォーマンス（HPC、データ分析、AI向け）
ユニファイドメモリアーキテクチャ（CPUとGPU全体）
ノード内のすべてからすべてへの接続（低遅延、高帯域幅）
ノード全体で比類のないI / Oスケーラビリティ（ノードあたり8つのファブリックエンドポイント、DAOS）

このアプローチは、NVIDIAがNVIDIA DGX-2で行ったものと非常によく似ており、16個のVolta GPUを単一ノード内にスタックし、NVSwitchを介して接続します。

しかし、Intelの計画とは異なり、NVIDIAはノード全体をGPUと呼び、Intelは単一のインターポーザーに搭載された16個のチップレットをGPUと呼びました。

そして、これらのGPUのうち6つが単一ノードにあります。

NVIDIAは、IntelのPonte VecchioがHPC市場に上陸する1年前の2020年にデビューする予定のAmpereなどの将来のHPC製品で、MCM（マルチチップモジュール）チップレットの設計に使う可能性があります。

Datacenterは最初に7nm Xe GPUを使用しますが、Intelの10nm Xe GPUラインナップは2020年に主流で熱狂的なゲーム市場に進出し、より消費者に合わせて調整されたXe LPおよびXe HP GPUアーキテクチャを利用します。

ソース：wccftech - Intel Xe GPU Architecture Detailed – Ponte Vecchio Xe HPC Exascale GPU With 1000s of EUs, Massive HBM Memory, Rambo Cache

解説:

Ponte Vecchio GPUの概要が判明

Ponte Vecchio GPUとは16個のチップレットを1GPUとして6個まで単一ノードとして接続できる仕様となるようです。

Intelはこれから演算の中心はGPUになるとするRajaの法則を唱えています。

この法則では20年で演算性能が1000倍になるとしています。

その最初の一歩です。

恐らく、ゲーム用GPUとしては

Xe LP

Xe HP

この2種類のグレードのXeが発売されることになると思います。

※ただし、このグレードの中に性能の違う複数の製品が含まれる可能性があります。

このPonte Vecchio GPUは16チップレット、単一ノードで6GPUとありますが、16チップレットまでがHPC GPUとあります。

これを見ただけではゲーム向け上位のXe HPはどのくらいのスケール感なのかよくわかりませんね。

タイトルに数千とありますが、1チップレット=1Xe HPで512EUならば、16チップレットで8192EUとなり、1ノード6GPUで49152EUとなります。

この解釈で良いのかどうかは上の記事を見ただけでははっきりしません。

ただ、512EUでRTX2070からRTX2080相当と言われているだけにかなりの性能になるものと思われます。

これだけの性能を出すためにCXLなどの仕様をシコシコと作っていたということになります。

AMDがCPUでIntelをぶち抜いている間に、先の暗いx86、x64はそこそこにしてGPUで演算能力を高める仕組みを作っていたということになりますね。

GPU事業次第ですが、「最終的にCPUで互角か負けても構わない」くらいのつもりなのかもしれません。

まあ、そうは言っても短期的には投資家からの追求もありますので、CPU事業にももちろん全力なのでしょうが、今後の演算能力はGPUで稼ぐというのはIntelの規定路線なのだと思います。

今まではGPU部分はnVidiaでしたが、今度はすべてIntel謹製になるということなのでしょう。