CPU情報

AMD & IntelがAI向けCPU命令拡張「ACE」最新仕様を公開——AVX10比16倍の行列演算密度

投稿日:

x86 CPUチップの中枢から行列演算グリッドが光のエネルギーとして浮かび上がるコンセプトアート。

■事実

今回のニュース(2026年6月)

WCCFtechが2026年6月19日に報道:AMD & Intelが共同でACE(AI Compute Extensions)の最新仕様をリリースし、AI処理のためのx86命令拡張をさらに詳細化しました。

ACEの正式ホワイトペーパーv1.0は2026年4月15日にx86 Ecosystem Advisory Group(EAG)名義で公開済みです。今回の報道はその後続の仕様詳細化と普及推進に関するものです。

x86 EAGとACEの背景

x86 Ecosystem Advisory Group(EAG):AMD・Intelが2024年に設立した共同技術標準化機関。ARMアーキテクチャの台頭に対抗し、x86の将来仕様を統一的に策定することが目的です。

EAGが定める4つの主要機能:FRED(割り込みモデルの現代化)、AVX10(512ビットSIMD命令の標準化)、ChkTag(メモリ安全性タグ)、ACE(AI演算拡張)です。

このうちChkTagは未公開。残る3機能はすでに仕様公開済みです。

ホワイトペーパーの著者:AMD側8名(Gabriel Loh、Brian Thompto等)+Intel側3名(Pradeep Dubey等)という布陣です。

ACEの技術概要

正式名称はAI Compute Extensions(AI計算拡張命令)。x86の新しいISA拡張として位置づけています。

目的:ニューラルネットワーク・LLMの中核演算である**行列積(Matrix Multiplication)**をCPUコア上でネイティブに高速化することです。

既存のAVX/SIMD命令は1次元のベクトル演算を前提としており、行列積には本質的に非効率。ACEはこれを2次元のタイルレジスタで解決します。

タイルレジスタアーキテクチャ(技術詳細)

ACEは8個のアーキテクチャタイルレジスタを新設し、各レジスタは512ビット幅×16行の構造(32ビット精度の場合、16×16行列を格納可能)です。

**外積演算(Outer Product)**ベースの演算設計を採用。これにより2次元スケールでの計算密度がN²スケールで向上します。

AVX10の512ビットZMMレジスタを入力に使い、タイルレジスタを累積器として動作する設計。既存のAVX最適化コードとの協調動作を前提とした設計です。

Block Scale Register(1024ビット幅)を1個追加し、OCP MX標準のブロックスケーリングに対応します。

AVX10の豊富なデータ変換命令を活用し、タイルレジスタとZMMレジスタ間のデータ移動を高速に処理できます。

対応データ形式

データ形式ビット幅特徴
INT88ビット整数推論定番フォーマット
OCP FP88ビット浮動小数点動的レンジがINT8より広い
OCP MXFP88ビット(ブロックスケール付き)LLM推論向けの精度と効率のバランス
OCP MXINT88ビット整数(ブロックスケール付き)同上
BF1616ビット脳内浮動小数点学習・推論の汎用フォーマット

性能向上の数値

AVX10の通常の積和演算と比較して、計算密度が最大16倍という数値をホワイトペーパーが提示しました。

内訳の考え方はAVX-512の512ビットZMMレジスタを8ビットデータで使うと64要素の積和演算が可能→ACEのタイルレジスタは同じ入力から1,024回の積和→16倍の計算密度です。

ソフトウェア対応状況

PyTorch・TensorFlowへのACEカーネル組み込みが進行中です。

NumPy・SciPy(Pythonの数値演算ライブラリ)にもACEアクセラレーションを統合する作業中です。

LLM推論向けGEMM(汎用行列積)カーネルの最適化も開発中です。

現時点でACE対応CPUは1製品も発表されていない——仕様先行、シリコンは次世代以降です。

実装ロードマップ

AMDは次世代Zen 6ベースのEPYC「Venice」が2026年後半〜2027年想定で(諸説あり)、コンシューマー向けRyzen 10000「Olympic Ridge」は2027年CES前後が有力です。

IntelはNova Lake(Core Ultra Series 4)もCES 2027前後の見通しに後退しているとの情報ありね当初はLip-Bu Tan CEOが2026年末を示唆していました。

いずれの場合もACEがどの世代のCPUから実装されるかは現時点で未確定です。

1次元SIMDと2次元タイルレジスタの対比を示す図解スタイルのイラスト。

解説

ACEを読み解く上で最重要の文脈は「AVX-512の失敗をどう繰り返さないか」という問題意識だ。AVX-512はIntelがXeonや一部のCore世代に搭載したものの、Alder Lakeでは意図的に無効化されるなど混乱が続いた。AMDはZen 4でフル実装したが、その頃にはIntelのコンシューマー製品では使えないという断片化問題が定着してしまっていた。

EAGを設立してAMD・Intel共同でACEを標準化しているのは、この教訓を踏まえた動き。「どのメーカーのx86 CPUを買ってもACEが使える」という状態を最初から担保しようとしている。ソフトウェア開発者の視点では、これは非常に重要な保証だ。

IntelはサーバーCPU(Xeon)向けには**AMX(Advanced Matrix Extensions)**をすでにSapphire Rapids(2023年)から実装している。AMXとACEは似た発想の命令セットだが、AMXはIntel独自・サーバー専用だった。ACEはそれをAMD含むx86全体に開放・標準化した形とも言える——「Intelが持っていた技術をAMDが道連れにして標準にした」ともとれる。

「CPUでAI演算をやる意義はどこにあるのか」という根本的な問いがある。NPU(専用AIチップ)やGPUと比べると絶対性能では劣るのは否定できない。ただしCPUで動かす価値は「どのPCでも動く」という普遍性にある。GPUやNPUを持たない環境(エッジ・組み込み・軽量推論)での活用や、推論パイプラインの前処理・後処理をCPUで担うユースケースでACEは有効だ。

ARMはすでに**SME(Scalable Matrix Extension)**を保有しており、Apple M4に実装済み。x86のACEとARMのSMEは「CPUにテンソル演算コアを積む」という同じ方向性の答え。ARM陣営に先行を許していた領域をACEが追いかける構図だ。

「まだシリコンがない」という現実は正直に言って痛い。仕様だけ先に出てソフトウェアの準備を整えるというアプローチは戦略的に理解できるが、ユーザー・開発者からすると「いつ使えるのか」が明確でない状態が続く。

Zen 6・Nova Lakeともに2027年CES前後という見通しが出てきており、ACEが実際に動くハードウェアが手に入るのは早くて2027年初頭になりそうだ。DRAM不足・製造コスト上昇の波がCPU市場のスケジュールにも影響を及ぼしている。

AMDとIntelが協力して規格を作るというのは、東西冷戦中にNATOとワルシャワ条約機構が「核兵器の取り扱い説明書」を共同執筆するようなものであり、それだけARMという共通の脅威が二社の距離を縮めたということだ。

CPUがAI演算を「ネイティブにできる」時代が近づいている。それが「GPUの代替」になるわけではないが、AIを動かすためにGPUが必須という前提が少しずつ崩れていく予兆として、ACEは注目に値する。

 

ACEの「AVX10比16倍の計算密度」という数字は、デコードフェーズのような帯域律速ワークロードでは実質的に意味をなさない。LLM推論は1トークン生成のたびに巨大なウェイト行列を読み直す構造であり、演算強度(FLOP/byte)が極めて低い。DDR5デュアルチャネルの約100 GB/sという帯域の天井は、CPUの演算コアがどれだけ速くなっても動かない。

ACEが効果を発揮できる条件は相当限定的——プリフィルフェーズ(プロンプト一括処理)、L3キャッシュに収まる超小型モデル(INT4量子化で1〜2B程度)、バッチ処理による演算強度の向上、これらが揃わないと恩恵はほぼない。

裏を返せば、ACEの主な存在意義は演算性能の向上よりもARMのSMEへの対抗姿勢とエコシステムの統一にある。「x86でもAIが動く」という市場へのメッセージとして機能させることが本質的な狙いと見るべきで、帯域律速の根本問題を解決するものではない。

-CPU情報
-,

Copyright© 自作ユーザーが解説するゲーミングPCガイド , 2026 All Rights Reserved.