ディープラーニングのブレークスルーにより、NVIDIA Tesla V100 GPUを破壊する44コアIntel Xeonが実現

[編集：1:26 PM GMT + 5]プレスリリースは少し誤解を招くように見えました。
ここでの実際の比較は、ハイパースレッディングが無効になっている2つの22コアXeon CPUと、1つのTesla V100を収容する2プロセッサシステムの比較です。
それは絶対にかなりのスピードアップであり、結果は多かれ少なかれ同じですが、その間違いをお詫びします。
必要に応じて、元のテキストに変更が加えられました。

ライス大学とインテルコーポレーションの共同作業中に、投資家や専門家がほぼ確実に追随するものが発生しました。

まったくとんでもないスピードアップのように見えるものの中で、研究者は44コアのIntel Xeonセットアップを使用して、NVIDIA Tesla V100を3.5倍上回ることができました！

CPUは通常、ディープニューラルネットワークのトレーニングに関してはGPUに比べてはるかにパフォーマンスが低下します（高度な並列アーキテクチャのため）。

CPUがディープラーニングに効果的に活用されるのは初めてです。

SLIDEアルゴリズムにより、44コアのIntel Xeon CPUセットアップがAIディープラーニングでNVIDIA Tesla V100 GPUの3.5倍速くなります

DL（ディープニューラル）ネットワークのトレーニングに関しては、GPUは常にCPUよりもはるかに優れていることがほとんど常識になりましたが、ライス大学のこれらの研究者は、DLのこの非常に基本的な教義に疑問を呈することに成功しました。

初めてのように思えるが、CPUはマッチするだけでなく、GPUベースの実装を完全に破壊し、混乱を招くほどの高速化をもたらしました。

先に進む前に、プレスリリースからの抜粋を以下に示します。

ライス大学のコンピューター科学者は、グラフィックスプロセッシングユニット（GPU）のような特別なアクセラレーションハードウェアなしでディープラーニングテクノロジーを高速化できることを示す
ことで、急成長する人工知能業界の大きな障害を克服しました。
スライドは、ディープラーニングに対して根本的に異なるアプローチをとるため、GPUを必要としません。
ディープニューラルネットワークの標準的な「逆伝播」トレーニング手法では、GPUの理想的なワークロードである行列乗算が必要です。
スライドを使って、Shrivastava、Chen、Mediniはニューラルネットワークトレーニングを検索問題に変え、代わりにハッシュテーブルで解決できるようにしました。
これにより、バックプロパゲーショントレーニングと比較して、SLIDEの計算オーバーヘッドが大幅に削減されます。
たとえば、Amazon、Google、その他がクラウドベースのディープラーニングサービスに提供しているトップクラスのGPUプラットフォームには、8台のTesla V100が搭載されており、コストは約100,000ドルです。
「私たちはラボに1つあり、テストケースでは、V100に最適なワークロードを取りました。GPUメモリに適合する大規模で完全に接続されたネットワークで1億以上のパラメーターを持つものです」と彼は言いました。
「GoogleのTensorFlowで最高の（ソフトウェア）パッケージを使用してトレーニングしました。トレーニングに3時間半かかりました。
「その後、新しいアルゴリズムがGPUではなく44コアXeonクラスのCPUで1時間でトレーニングを実行できることを示しました」とShrivastava氏は述べています。
研究論文のコピーはこちらから入手できます。

興味深いことに、Intelは現在、一般一般向け44コアのXeonを公開していません。

そこで、3つの可能性の1つがここで発生しました

：1）これはリリースされていない今後のIntel Xeon、

：2）テストは単一の22コアプロセッサ（44スレッドを持ち、研究者は誤って44コアと呼んだ）を使用して実施された

または：3）このテストは、2プロセッサシステムで2つの22コアを使用して実施されました。

SLIDE（Sub LInear Deep learning Engine）と呼ばれるアルゴリズムは、現在Intelプロセッサーでのみ実行可能です。

このアルゴリズムの実装がメインストリーム化された場合、ディープラーニングエコシステムのダイナミクスがほぼ瞬時に混乱します。

企業の評価は一晩で変更される可能性があります（研究者が主張していることには警告が付いていないと仮定）。

また、AMDプロセッサ上でアプローチを複製できるかどうかという興味深い疑問も生じます。

いずれにせよ、この手法の検証待ちで、インテルの既に偏った供給方程式にかなりの量の需要が追加されているはずです。

Intelがプロセッサを生産できる限り、目で見る限り需要を抑えているように見えます。

出典：ディープラーニングの再考がAI業界の大きな障害を克服

ソース：wccftech - Deep Learning Breakthrough Results In A 44-Core Intel Xeon Destroying NVIDIA Tesla V100 GPU

解説：

まず最初にお断りです。

私自身がAI関連の専門家ではありませんので、内容に関しては深堀してませんし、する気もないです。

AI関連特有の言い回しや表現などで誤訳があるかもしれません。

それを前提にさらっと読み勧めてください。

興味がある方はご自分で原文を読み進められることをお勧めします。

GPUを使った機械学習より、CPUを使った機械学習のほうが速いソフト的なアプローチが見つかったという話です。

2ケットの22コアXeonとTesla V100を搭載した2プロセッサーのシステムで比較した場合、3.5倍の性能差が出たとのこと。

こういったソフトでハードの差異をひっくり返すという話はAIの進歩によって、今後どんどん進んでいくと思います。

人間が達成不可能だったことをAIがやるというのはこうしたプログラミングの分野が一番向いているのではないかと個人的には思っています。

AI用のプログラミング言語というものがもしあれば、人間の持つ制約に縛られないからですね。

話をもとに戻すと、この試みによって、Intel CPUの需要と供給のバランスがまた大きく崩れるのではないかとしています。

Intelの本当の強みは大部分は報われなかったとしてもこうした新しい需要をもたらす研究に資金を投下しているところです。

この辺の引き出しの多さはまだまだAMDがかなうところではないのではないかと思います。

すでに存在しているマーケットに対するアプローチが中心のAMDに対して未来に需要を喚起する投資も積極的に行っているということです。

それは言いかえると、後ろを見ているか、前を見ているかということの違いです。

IntelのCEOは自社の今の状態を「瘢痕組織」と呼びましたが、それはイコール正常に機能しないということではありません。