■事実
今回のニュース(2026年6月)
WCCFtechが2026年6月19日に報道:AMD & Intelが共同でACE(AI Compute Extensions)の最新仕様をリリースし、AI処理のためのx86命令拡張をさらに詳細化しました。
ACEの正式ホワイトペーパーv1.0は2026年4月15日にx86 Ecosystem Advisory Group(EAG)名義で公開済みです。今回の報道はその後続の仕様詳細化と普及推進に関するものです。
x86 EAGとACEの背景
x86 Ecosystem Advisory Group(EAG):AMD・Intelが2024年に設立した共同技術標準化機関。ARMアーキテクチャの台頭に対抗し、x86の将来仕様を統一的に策定することが目的です。
EAGが定める4つの主要機能:FRED(割り込みモデルの現代化)、AVX10(512ビットSIMD命令の標準化)、ChkTag(メモリ安全性タグ)、ACE(AI演算拡張)です。
このうちChkTagは未公開。残る3機能はすでに仕様公開済みです。
ホワイトペーパーの著者:AMD側8名(Gabriel Loh、Brian Thompto等)+Intel側3名(Pradeep Dubey等)という布陣です。
ACEの技術概要
正式名称はAI Compute Extensions(AI計算拡張命令)。x86の新しいISA拡張として位置づけています。
目的:ニューラルネットワーク・LLMの中核演算である**行列積(Matrix Multiplication)**をCPUコア上でネイティブに高速化することです。
既存のAVX/SIMD命令は1次元のベクトル演算を前提としており、行列積には本質的に非効率。ACEはこれを2次元のタイルレジスタで解決します。
タイルレジスタアーキテクチャ(技術詳細)
ACEは8個のアーキテクチャタイルレジスタを新設し、各レジスタは512ビット幅×16行の構造(32ビット精度の場合、16×16行列を格納可能)です。
**外積演算(Outer Product)**ベースの演算設計を採用。これにより2次元スケールでの計算密度がN²スケールで向上します。
AVX10の512ビットZMMレジスタを入力に使い、タイルレジスタを累積器として動作する設計。既存のAVX最適化コードとの協調動作を前提とした設計です。
Block Scale Register(1024ビット幅)を1個追加し、OCP MX標準のブロックスケーリングに対応します。
AVX10の豊富なデータ変換命令を活用し、タイルレジスタとZMMレジスタ間のデータ移動を高速に処理できます。
対応データ形式
| データ形式 | ビット幅 | 特徴 |
|---|---|---|
| INT8 | 8ビット整数 | 推論定番フォーマット |
| OCP FP8 | 8ビット浮動小数点 | 動的レンジがINT8より広い |
| OCP MXFP8 | 8ビット(ブロックスケール付き) | LLM推論向けの精度と効率のバランス |
| OCP MXINT8 | 8ビット整数(ブロックスケール付き) | 同上 |
| BF16 | 16ビット脳内浮動小数点 | 学習・推論の汎用フォーマット |
性能向上の数値
AVX10の通常の積和演算と比較して、計算密度が最大16倍という数値をホワイトペーパーが提示しました。
内訳の考え方はAVX-512の512ビットZMMレジスタを8ビットデータで使うと64要素の積和演算が可能→ACEのタイルレジスタは同じ入力から1,024回の積和→16倍の計算密度です。
ソフトウェア対応状況
PyTorch・TensorFlowへのACEカーネル組み込みが進行中です。
NumPy・SciPy(Pythonの数値演算ライブラリ)にもACEアクセラレーションを統合する作業中です。
LLM推論向けGEMM(汎用行列積)カーネルの最適化も開発中です。
現時点でACE対応CPUは1製品も発表されていない——仕様先行、シリコンは次世代以降です。
実装ロードマップ
AMDは次世代Zen 6ベースのEPYC「Venice」が2026年後半〜2027年想定で(諸説あり)、コンシューマー向けRyzen 10000「Olympic Ridge」は2027年CES前後が有力です。
IntelはNova Lake(Core Ultra Series 4)もCES 2027前後の見通しに後退しているとの情報ありね当初はLip-Bu Tan CEOが2026年末を示唆していました。
いずれの場合もACEがどの世代のCPUから実装されるかは現時点で未確定です。
解説
ACEを読み解く上で最重要の文脈は「AVX-512の失敗をどう繰り返さないか」という問題意識だ。AVX-512はIntelがXeonや一部のCore世代に搭載したものの、Alder Lakeでは意図的に無効化されるなど混乱が続いた。AMDはZen 4でフル実装したが、その頃にはIntelのコンシューマー製品では使えないという断片化問題が定着してしまっていた。
EAGを設立してAMD・Intel共同でACEを標準化しているのは、この教訓を踏まえた動き。「どのメーカーのx86 CPUを買ってもACEが使える」という状態を最初から担保しようとしている。ソフトウェア開発者の視点では、これは非常に重要な保証だ。
IntelはサーバーCPU(Xeon)向けには**AMX(Advanced Matrix Extensions)**をすでにSapphire Rapids(2023年)から実装している。AMXとACEは似た発想の命令セットだが、AMXはIntel独自・サーバー専用だった。ACEはそれをAMD含むx86全体に開放・標準化した形とも言える——「Intelが持っていた技術をAMDが道連れにして標準にした」ともとれる。
「CPUでAI演算をやる意義はどこにあるのか」という根本的な問いがある。NPU(専用AIチップ)やGPUと比べると絶対性能では劣るのは否定できない。ただしCPUで動かす価値は「どのPCでも動く」という普遍性にある。GPUやNPUを持たない環境(エッジ・組み込み・軽量推論)での活用や、推論パイプラインの前処理・後処理をCPUで担うユースケースでACEは有効だ。
ARMはすでに**SME(Scalable Matrix Extension)**を保有しており、Apple M4に実装済み。x86のACEとARMのSMEは「CPUにテンソル演算コアを積む」という同じ方向性の答え。ARM陣営に先行を許していた領域をACEが追いかける構図だ。
「まだシリコンがない」という現実は正直に言って痛い。仕様だけ先に出てソフトウェアの準備を整えるというアプローチは戦略的に理解できるが、ユーザー・開発者からすると「いつ使えるのか」が明確でない状態が続く。
Zen 6・Nova Lakeともに2027年CES前後という見通しが出てきており、ACEが実際に動くハードウェアが手に入るのは早くて2027年初頭になりそうだ。DRAM不足・製造コスト上昇の波がCPU市場のスケジュールにも影響を及ぼしている。
AMDとIntelが協力して規格を作るというのは、東西冷戦中にNATOとワルシャワ条約機構が「核兵器の取り扱い説明書」を共同執筆するようなものであり、それだけARMという共通の脅威が二社の距離を縮めたということだ。
CPUがAI演算を「ネイティブにできる」時代が近づいている。それが「GPUの代替」になるわけではないが、AIを動かすためにGPUが必須という前提が少しずつ崩れていく予兆として、ACEは注目に値する。
ACEの「AVX10比16倍の計算密度」という数字は、デコードフェーズのような帯域律速ワークロードでは実質的に意味をなさない。LLM推論は1トークン生成のたびに巨大なウェイト行列を読み直す構造であり、演算強度(FLOP/byte)が極めて低い。DDR5デュアルチャネルの約100 GB/sという帯域の天井は、CPUの演算コアがどれだけ速くなっても動かない。
ACEが効果を発揮できる条件は相当限定的——プリフィルフェーズ(プロンプト一括処理)、L3キャッシュに収まる超小型モデル(INT4量子化で1〜2B程度)、バッチ処理による演算強度の向上、これらが揃わないと恩恵はほぼない。
裏を返せば、ACEの主な存在意義は演算性能の向上よりもARMのSMEへの対抗姿勢とエコシステムの統一にある。「x86でもAIが動く」という市場へのメッセージとして機能させることが本質的な狙いと見るべきで、帯域律速の根本問題を解決するものではない。