Tachyum社は、Prodigy Universal Processorがx86、ARMおよびRISC-Vバイナリ環境でのソフトウェアエミュレーションテストを成功裏に完了したことを発表しました。
この重要なマイルストーンは、Prodigyにより、顧客がレガシーアプリケーションを起動時に透過的に実行できるようになることを示しています。
TachyumがProdigyネイティブコードに再コンパイルしているHadoopやApacheなどのハイパースケールデータセンターの主力プログラムと組み合わせることで、この機能はProdigyの顧客が箱から出してすぐに幅広いアプリケーションを実行できることを確実にします。
Tachyumの顧客は一貫して、Tachyumプラットフォームに移行してから9~18ヶ月以内に100%ネイティブアプリケーションを実行して、最速のXeonプロセッサの性能を超えることを示しています。
エミュレーションは、Tachyum Prodigyのネイティブソフトウェアへの移行をスムーズに行うためのものです。
Tachyumは、2021年のProdigy発売に向けて、多くのアプリケーションを搭載したネイティブLinuxディストリビューションに取り組んでいる。
また、Tachyumは利便性のために、x86、ARM、またはRISC-VのコードをProdigyネイティブのISA(Instruction Set Architecture)に変換するダイナミック・バイナリー・トランスレータを使用して、レガシーアプリケーションを透過的にインストールして実行する機能も提供している。
Prodigyチップ上でのソフトウェアエミュレーションにもかかわらず、ARMとRISC-Vのバイナリは、現在利用可能なARMやRISC-VよりもTachyum Prodigy上ではるかに高速に実行されます。これはProdigyプロセッサの生のブルートフォース性能の証です。
あるデモでは、ネイティブとx86のコードを組み合わせて、WebサーバーアプリケーションをProdigy上で実行しました。
その結果、Prodigyは同じユニバーサルシリコン上で異種システムアプリケーションを効率的に実行できることが証明され、幅広いユーザーに大きなコストメリットを提供することができました。近日中に一連のデモビデオを公開する予定です。最初のビデオでは、ネイティブ、x86、ARM、RISC-VのバイナリをProdigyエミュレーション上で実行しているデモを https://www.tachyum.com/resources で公開します。
TachyumのProdigyは、そのシンプルなプログラミングモデルにより、HPCアプリケーション、畳み込みAI、説明可能なAI、一般的なAI、バイオAI、スパイク型ニューラルネットワーク、そして通常のデータセンターのワークロードを単一の均質なプロセッサプラットフォーム上で実行することができます。
これらの異なるタイプのワークロードにProdigyの代わりにCPU、GPU、TPU、その他のアクセラレータを使用するのは非効率的です。
各タイプのワークロード(データセンター、AI、HPCなど)に特化した独自のハードウェアを使用したヘテロジニアス・プロセッシング・ファブリックでは、ハードウェア・リソースが十分に活用されず、より困難なプログラミング環境になってしまいます。
Prodigyは、これらの様々なワークロードをシームレスに切り替えることができるため、データセンターの競争状況や経済性を劇的に変えることができます。
Prodigyは、現在のハイパースケールデータセンターにプロビジョニングされている既存のチップと比較して、計算性能、エネルギー消費、ハードウェア(サーバー)利用率、スペース要件を大幅に改善します。
また、IoT向けのエッジ開発者は、その低消費電力/高性能とシンプルなプログラミングモデルを活用して、エッジにAIを提供することができます。
Prodigyはまさに万能プロセッサだ。Prodigyのネイティブコードに加えて、レガシーx86、ARM、RISC-Vのバイナリも動作します。また、単一の高効率プロセッサアーキテクチャにより、Prodigyはデータセンター、AI、およびHPCワークロードにおいて業界をリードするパフォーマンスを提供します。
“すぐに利用可能なソリューションを持ち、大量のソフトウェアで簡単に使用できることは、プラットフォームの成功の基盤を示すものです。”と、Tachyumの創設者兼CEOであるRadoslav Danilak博士は述べています。
“x86、ARM、RISC-Vプロセッサのレガシーコードであっても、ソフトウェアを正しく実行できるProdigyの能力をこのように実証したことは、お客様が現在使用しているアプリケーションをProdigyの発売初日からシームレスに使用できるようにすることを示しています。
これは、Prodigyの実行可能性を証明するものであり、最も困難なコンピューティング環境において、これまでにないパフォーマンス、電力効率、コスト面での優位性を実現する能力を証明するものです」と述べています。
Prodigyは、同社の主力製品であるユニバーサル・プロセッサで、2021年に量産を開始する予定です。
4月には、Prodigyチップは、目標速度を上回る完全なチップレイアウトにより、その実行可能性を証明することに成功した。
8月には、目標クロック速度を超えながら、ソフトウェアモデルとの照合結果が自動的に検証され、短いプログラムを正しく実行できるようになった。次のステップは、このチップの製造された完全に機能するFPGAプロトタイプを今年中に入手することであり、これがテープアウト前の最後のマイルストーンとなる。
Prodigyは、データセンターのワークロードにおいて、最速のXeonプロセッサを10倍の低消費電力で上回るだけでなく、HPC、AIトレーニング、推論においてもNVIDIAの最速GPUを上回る性能を発揮する。
125台のHPC Prodigyラックは、32TensorのEXAFLOPSを実現します。Prodigyは、MIPSあたりのコストが3倍、消費電力が10倍低いため、データセンターの総所有コスト(TCO)が4倍低くなり、Google、Facebook、Amazon、Alibabaなどのハイパースケーラーのために数十億ドルの節約を可能にします。
ソース:techpowerup – Tachyum Shows Prodigy Running Existing x86, ARM, and RISC-V Software
解説:
Prodigyなるものが現れてびっくり。
Tachyum社のProdigy Universal Processorなるものの紹介記事がtechpowerupに現れて少し驚きました。
HPCや機械学習向けのプロセッサのようですが、驚くべきはその処理能力でXeonの10倍の効率、nVidiaの最新のプロセッサを上回る処理能力を持つとされています。
その性能を少しまとめてみました。
Tachyum社Prodigy Universal Processor現行製品ラインナップまとめ
製品名 | Tachyum Prodigy T216 | Tachyum Prodigy T432 | Tachyum Prodigy T864 | Tachyum Prodigy T16128 |
コア数 | 16 | 32 | 64 | 128 |
最大ソケット数 | 1 | 1 | 2 | 1 |
クロック | 2.8GHz | 3.2GHz | 4.0GHz | 4.0GHz |
L1データキャッシュ | 32KB | 32KB | 32KB | 32KB |
L1命令キャッシュ | 32KB | 32KB | 32KB | 32KB |
最終レベルキャッシュ | 32MB | 32MB | 64MB | 64MB |
サポートメモリ | DDR4-2666 | DDR4-3200 | DDR4-3200 DDR5-4800 |
DDR5-4800 |
最大容量 | 128GB | 256GB | 4TB (ソケット毎) |
512GB |
PCI Express | 4.0X12lane | 4.0X24lane | 5.0X48lane | 5.0X48lane |
演算性能 (AI/推論) |
28TFLOPS | 64TFLOPS | 131TFLOPS | 262TFLOPS |
物凄い性能でびっくりです。
アメリカ以外の国がこんな性能のCPUを作ったら大変じゃないかと思って本社を調べたらサンタクララでした。
共通仕様としては64bitコアに512bitのベクトル演算命令、4命令実行、人工知能・機械学習・ベクトル・行列演算アクセラレーター搭載です。
詳細はプロダクトページで確認してください。