続編
もっとよく知るAI -量子化の魔法-
第1回 256通りの使い方:INT8とFP8、同じ8bitなのになぜこんなに違うのか?
第2回 Q4_K_Mが4.75bit?量子化フォーマット完全ガイド
第3回 FP8標準化戦争:GoogleとNVIDIAの覇権争い
2024年、マイクロソフトはNPU(Neural Processing Unit)搭載の「Copilot+ PC」を華々しく発表しました。40 TOPSの性能を誇り、ローカルでの大規模言語モデル(LLM)実行を可能にすると宣伝されたこの製品は、AI技術の民主化の象徴として注目を集めました。
しかし、実際のところはどうでしょうか?同じ時期にNVIDIAが発売したGeForce RTX 4000シリーズは、既に次世代のFP8精度に対応していました。そして2025年、RTX 5000シリーズはさらに先進的なFP4精度まで対応。一方、NPUは未だにINT8とFP16の時代に留まっています。この記事では、量子化の歴史的背景から、GPUとNPUの衝撃的な技術格差まで、技術的事実に基づいて検証します。
第1部:量子化の本質を理解する
1.1 量子化とは:アナログからデジタルへの変換
量子化(Quantization)とは、連続的なアナログ信号を離散的なデジタル値で近似的に表現する技術です[1]。この概念は、実はAI技術よりもずっと古く、1930年代の音声通信にまで遡ります。
量子化の定義
「連続的なアナログ信号を、離散的なデジタル値で近似的に表現すること」[1]
1.2 身近な例:音声のデジタル化(PCM)
最も分かりやすい例が、音声のデジタル化に使われるPCM(Pulse Code Modulation:パルス符号変調)です。1937年、イギリスのエンジニアAlec Reevesによって考案されたPCMは[2]、現在でもCD(コンパクトディスク)やデジタル電話の基礎技術として使われています。
例:CD規格では44.1kHz(1秒間に44,100回測定)2. 量子化:測定値を離散的な数値に変換
例:16ビット = 65,536段階の音圧レベル3. 符号化:デジタル値をバイナリデータとして記録
[出典] Wikipedia「Pulse-code modulation」[2]、Electronics-Lab「Analog To Digital Conversion」[3]
1.3 ADPCM:さらなる効率化
ADPCM(Adaptive Differential Pulse Code Modulation:適応差分パルス符号変調)は、1973年にベル研究所のP. Cummiskey、Nikil S. Jayant、James L. Flanaganによって開発されました[4]。これは前回のサンプル値との「差分」だけを記録することで、PCMよりも約25%データ量を削減できる技術です。
| 方式 | ビットレート | 用途 | 特徴 |
|---|---|---|---|
| PCM | 64 kbps | デジタル電話の基本 | 全ての値を記録 |
| ADPCM (G.726) | 32 kbps | VoIP通信 | 差分のみ記録、50%削減 |
| ADPCM (低レート) | 16 kbps | 携帯電話 | さらなる圧縮 |
[出典] Wikipedia「Adaptive differential pulse-code modulation」[4]、ITU-T G.726規格[5]
第2部:AI量子化 – 同じ原理、異なる応用
2.1 なぜAIは量子化しても性能が落ちないのか
音声のPCMと、AIモデルの量子化は、本質的に同じ「量子化」という操作です。では、なぜAIモデルは大幅に量子化しても(32ビット→4ビット)性能があまり落ちないのでしょうか?
AIが量子化に強い理由
AIモデルは元々「近似計算」の塊です。学習済みモデルのパラメーター(重み)には膨大な冗長性があり、個々の値が多少ずれても、統計的に全体の性能は維持されます。
2.2 具体例:Llama 3.3 70Bモデルの量子化
Llama 3.3 70Bモデル(700億パラメーター)を例に、量子化による効果を見てみましょう。
| 量子化レベル | ファイルサイズ | 削減率 | 品質維持率 | 実用性 |
|---|---|---|---|---|
| FP16(オリジナル) | 140GB | – | 100% | 基準 |
| Q8(8ビット整数) | 70GB | 50% | 98-99% | ほぼ劣化なし |
| Q6(6ビット) | 52GB | 63% | 96-97% | 実用上問題なし[6] |
| Q4(4ビット) | 38GB | 73% | 92-94% | 多くの用途で実用的 |
| Q3(3ビット) | 28GB | 80% | 85-90% | やや品質低下 |
[出典] GGUF形式の実測データ[6]、Ollama公式ドキュメント[7]
2.3 量子化の数学的背景
なぜ4ビット(16段階)でも92%の品質を維持できるのでしょうか?その答えは、ニューラルネットワークの重み分布にあります。
ニューラルネットワークの重みは、通常、平均0、標準偏差1程度の正規分布に従います[8]。つまり、重要な情報のほとんどが±3の範囲に収まっています。この範囲を16段階(4ビット)で表現しても、統計的には十分な精度が保たれるのです。
※ 画像をクリックすると別Window・タブで開きます。
2.4 FP8 vs INT8:なぜ浮動小数点が有利なのか
上のグラフからわかるように、INT8(8ビット整数)は-128から127まで均一に値を配置します。一方、FP8(8ビット浮動小数点)は対数分布で、ゼロ付近に多くの値を配置し、大きな値は粗く表現します。
FP8の優位性
NVIDIA H100 GPUに搭載されたFP8サポートにより、従来のFP16と比較して:
・2倍の演算速度[9]
・50%のメモリ削減
・98-99%の精度維持[10]
| 形式 | 指数部 | 仮数部 | 表現範囲 | ゼロ付近の精度 | 用途 |
|---|---|---|---|---|---|
| FP8 E4M3 | 4ビット | 3ビット | ±448 | 高い | 訓練・推論 |
| FP8 E5M2 | 5ビット | 2ビット | ±57,344 | 中程度 | 広範囲が必要な場合 |
| INT8 | – | – | -128〜127 | 低い(均一分布) | 推論専用 |
[出典] NVIDIA Technical Blog「FP8 Formats for Deep Learning」[9]、Databricks「H100 Quantization Benchmarks」[10]
第3部:NPUは本当にAIの民主化をもたらすのか?
3.1 Copilot+ PCの約束
2024年、マイクロソフトは「Copilot+ PC」という新カテゴリーのパソコンを発表しました[11]。その核心は、40 TOPS(Trillion Operations Per Second)以上の性能を持つNPUの搭載です。
Copilot+ PCの仕様
・NPU性能:最低40 TOPS[11]
・搭載AI:Phi-3 mini(3.8Bパラメーター)[12]
・主要ベンダー:Qualcomm(45 TOPS)、Intel、AMD
3.2 スマートフォンでの成功例
実は、NPUは既にスマートフォンで大きな成功を収めています。その理由は明確です:カメラ処理。
| 用途 | モデルサイズ | NPUでの処理 | 効果 |
|---|---|---|---|
| 顔認識 | 数MB〜数十MB | リアルタイム検出 | 瞬時のフォーカス |
| 夜景モード | 100MB程度 | ノイズ除去 | 鮮明な夜景写真 |
| ポートレート | 50-100MB | 背景ぼかし | 一眼レフ風の効果 |
| 音声認識 | 数十MB | 音声入力 | オフライン動作 |
スマートフォンでNPUが成功した理由:
1. 明確なユースケース:カメラは毎日使う
2. 小型モデル:数MB〜数百MBで十分
3. 即時性:シャッターを押した瞬間に処理
4. 省電力:バッテリー駆動に最適
3.3 PCでの厳しい現実
しかし、PCでは状況が全く異なります。その最大の理由は、NPUの致命的なアーキテクチャ制限です。
⚠️ NPUの32ビットアドレス空間制限
現行のNPU(2024-2025年世代)の多くは、32ビットアドレス空間という深刻な制約を抱えています。これは、システムに128GBのRAMを搭載していても、NPUからは最大4GBまでしかアクセスできないことを意味します[13]。
📝 訂正(2025年追記)
上記の「32ビットアドレス空間=4GB制限」という解釈は誤りです。Intel公式データシートによれば、32ビットLeonRTマイクロコントローラーはNPUのスケジューラー(コマンドキューとランタイムの管理)であり、データアクセスパスそのものではありません[14]。NPUはPCIeデバイスとしてシステムの64ビットメモリ空間にマッピングされており、DMAエンジンを通じて4GBを超えるメモリにアクセス可能です。32ビットの制御プロセッサが64ビットアドレスのDMAディスクリプタを発行するのは組み込み設計では一般的な手法です(例:Raspberry Pi BCM2711は32ビットコアで36ビットDMAアドレスを使用)。ただし、個々のDMAディスクリプタやバッファ管理が内部的に4GB単位で分割される可能性はあります[14]。
[出典] Intel Core Ultra 200S Series Processors Datasheet Volume 1, Section: Intel® Neural Processing Unit (Intel® NPU), ID:832586
Intel EDC
Chester Lam, “Intel Meteor Lake’s NPU”, Chips and Cheese, 2024年4月22日
https://chipsandcheese.com/p/intel-meteor-lakes-npu
3.4 32ビット制限の実際の影響
Intel Core Ultra 200Sシリーズの公式データシートには、以下のように明記されています[14]:
Intel® NPU, a 32-bit LeonRT micro-controller.”
(全てのホスト通信は、32ビットLeonRTマイクロコントローラーである
Intel® NPUのスケジューラーで処理されます。)
📝 訂正:データシートの正確な解釈
上記の引用は事実ですが、「32ビットLeonRT」はホスト通信のスケジューラー(コマンドキューの管理とランタイム制御)を指しています。LeonRTはMovidius由来のSPARCアーキテクチャベースのマイクロコントローラーであり、実際のデータ転送を行うDMAエンジンやNCE(Neural Compute Engine)タイルとは別のコンポーネントです[C&C]。したがって、「LeonRTが32ビット → NPUは4GBしかアクセスできない」という推論は論理的飛躍であり、データシートにそのような制限は明記されていません。
[C&C] Chester Lam, “Intel Meteor Lake’s NPU”, Chips and Cheese, 2024年4月22日
これが実際のAIモデルに与える影響を見てみましょう:
以下の表は当初「NPUの4GB制限」を前提に作成されましたが、上記の訂正により、メモリ制限の根拠が不正確です。NPUがLLMに不向きである主な理由は、アドレス空間制限ではなく、演算性能(TOPS)の不足と対応精度の限界(INT8/FP16のみ)です:
| モデル | パラメーター数 | メモリ必要量 (Q4量子化) |
NPU(4GB制限) NPU(演算性能制約) |
実用性 |
|---|---|---|---|---|
| Phi-3 mini | 3.8B | 約2.5GB | ✅ 動作可能 | NPUで実用的 |
| Qwen2.5-7B | 7B | 約4GB | ⚠️ ギリギリ | 制限ギリギリ |
| Qwen2.5-14B | 14B | 約8GB | ❌ メモリ超過 | 動作不可 |
| Qwen2.5-32B | 32B | 約18GB | ❌ 完全に不可能 | 動作不可 |
| Llama 3.3 70B | 70B | 約40GB | ❌ 完全に不可能 | 動作不可 |
[出典] モバイルNPU論文[13]、Intel公式データシート[14]
3.5 Unified Memory Architectureは解決策にならない
AMD Ryzen AI Max(2025年発表)は、128GBの統一メモリ(Unified Memory Architecture)を謳っています[15]。CPU、GPU、NPUが同じメモリプールを共有するという画期的な設計です。
しかし、これでも根本的な問題は解決しません。
なぜUnified Memoryでも解決しないのか
統一メモリは「共有」であって「拡張」ではありません。NPU自身が32ビットアーキテクチャである限り、そのアドレス空間は4GBに制限されます。128GBのメモリがあっても、NPUから「見える」のは4GBまでなのです。
📝 訂正
上記の「NPU自身が32ビットアーキテクチャであるためアドレス空間が4GBに制限される」という主張は、LeonRTスケジューラーの32ビット仕様をメモリアクセス制限と混同した誤りです。Unified Memory Architectureにより、NPUのDMAエンジンはシステムメモリ全体にアクセス可能です。NPUがLLM実行に不向きな真の理由は、演算スループット(13〜48 TOPS程度)がGPU(数百TOPS〜PFLOPS級)に対して桁違いに小さい点にあります。
3.6 64ビットNPUはいつ登場するのか
📝 訂正
本セクションは「NPUが32ビットアドレス空間で4GBに制限されている」という前提に基づいていますが、この前提自体がデータシートの誤読に基づいています(セクション3.3の訂正を参照)。NPUは既にPCIeデバイスとして64ビットシステムメモリ空間にマッピングされています。NPUの実用上の制約は、アドレス空間ではなく演算スループットと対応精度です。以下の表の「アドレス空間」列の情報は不正確です。
では、64ビットアドレス空間を持つNPUは存在するのでしょうか?残念ながら、2025年1月時点では確認できません。
| 時期 | NPU世代 | アドレス空間 | 実行可能モデル | 状況 |
|---|---|---|---|---|
| 2024-2025 | NPU4 (Intel Core Ultra) |
32ビット | 3-7Bまで | 現行製品 |
| 2026 | NPU5 (Panther Lake) |
不明 (おそらく32ビット) |
3-7Bまで? | 予定[16] |
| 2027-2028 | 次世代 | 64ビット? | 14-32B? | 検討段階? |
| 2029以降 | 将来世代 | 完全64ビット? | 70B級も可能? | 不透明 |
[出典] Intel Panther Lake発表[16]、NeuMMU論文[17]
なぜ64ビットNPUがないのか
1. 設計思想のミスマッチ:NPUは元々、数MB〜数GBの小型モデル向けに設計された
2. LLMブームは想定外:2022年以降の大規模LLMブームは設計時に想定されていなかった
3. 市場ニーズの不透明さ:ローカルで大型LLMを動かすニーズがどれほどあるか不明
4. 設計変更の大きさ:32ビット→64ビットは「実質的に新設計」に近い大工事(※NPUは既にPCIe経由で64ビット空間にアクセス可能であり、この指摘は前提が誤り)
3.7 ローカルLLM環境の一例
参考までに、ローカルLLM環境の一例を紹介します。筆者は以下の構成でQwen3やMistralなどのモデルを運用しています:
参考:筆者のローカルLLM環境
・CPU:Ryzen 9 7950X(16コア/32スレッド)
・RAM:128GB(DDR5-4800)
・GPU:RTX 4060 Ti 16GB(補助用)
・ストレージ:NVMe SSD 2TB
・ソフトウェア:Ollama + Open WebUI
注意:ただし、これはあくまで一例です。CPU推論のベンチマークは散発的にしか公開されておらず[18]、最新のZen 5(Ryzen 9 9950X)やIntel Arrow Lakeとの性能比較は十分なデータがありません。個人向け生成AIの世界では、画像生成(Stable Diffusion等)の方が圧倒的に人気が高く、LLM推論のCPUベンチマークを公開しているメディアは限られています。
X3Dモデル(7950X3D等)との比較も、LLM推論においてはデータが不足しています。ゲーミング性能では大きな差がありますが、LLM推論での優位性は明確ではありません。
3.8 クラウドLLMとの性能差
さらに深刻な問題は、仮に64ビットNPUが登場しても、クラウドLLMとの性能差は埋まらないという点です。
| 項目 | NPU (将来の64ビット版) |
クラウドLLM (現在) |
|---|---|---|
| 実行可能モデル | 32-70Bクラス (2029年頃?) |
400-600Bクラス (2025年現在) |
| 性能 | TOPS制限あり | H100等の最新GPU |
| 更新頻度 | ハードウェア買い替え必要 | 常に最新モデル |
| コスト | 初期投資大(PC購入) | 月額課金(約3,000円〜) |
NPUの将来に対する悲観的な見方
2029年に64ビットNPUが登場したとしても、その頃クラウドLLMは1兆パラメーター(1T)級に進化している可能性が高い。NPUは「永遠に追いつけない」という構造的問題を抱えています。
3.9 GPU vs NPU:技術格差の衝撃的な現実
NPUの実力を正しく評価するには、GPUのAIアクセラレータ(Tensor Core)の進化と比較する必要があります。
3.9.1 GPU Tensor Coreの進化(2018-2025)
| 世代 | 発売年 | 代表モデル | 対応精度 |
|---|---|---|---|
| RTX 2000 (Turing) | 2018 | RTX 2080 Ti | FP16, INT8, INT4 |
| RTX 3000 (Ampere) | 2020 | RTX 3090 | FP16, BF16, TF32, INT8, INT4 |
| RTX 4000 (Ada) | 2022 | RTX 4090 | FP16, BF16, TF32, FP8, INT8, INT4 |
| RTX 5000 (Blackwell) | 2025 | RTX 5090 | FP16, BF16, TF32, FP8, FP6, FP4, INT8, INT4 |
[出典] NVIDIA Technical Blog[19][20]、Wikipedia GeForce RTX 40/50 series[21][22]
重要な発見
・2018年(RTX 2000)からFP16対応
・2022年(RTX 4000)でFP8対応開始
・2025年(RTX 5000)でFP4対応
・INT8は補助的な精度に過ぎない
3.9.2 AMD Radeon:2025年にやっとFP8対応
| 世代 | 発売年 | 代表モデル | 対応精度 |
|---|---|---|---|
| RX 6000 (RDNA 2) | 2020 | RX 6950 XT | AI専用ハードウェアなし |
| RX 7000 (RDNA 3) | 2022 | RX 7900 XTX | FP16, BF16, INT8, INT4(FP8なし) |
| RX 9000 (RDNA 4) | 2025 | RX 9070 XT | FP16, BF16, FP8, INT8, INT4 |
[出典] AMD GPUOpen[23]、RDNA 3/4 Architecture[24][25]
3.9.3 そしてNPU:2018年のGPUレベルに留まる
⚠️ NPUの対応精度(2025年1月時点)
Intel Core Ultra 200S NPU: INT8, FP16
AMD Ryzen AI Max NPU: INT8, FP16
Qualcomm X Elite NPU: INT8, FP16
| 精度 | GPU初対応 | NPU対応状況(2025年) | 遅延年数 |
|---|---|---|---|
| FP16 | 2018年(RTX 2000) | ✅ 対応 | – |
| INT8 | 2018年(RTX 2000) | ✅ 対応 | – |
| FP8 | 2022年(RTX 4000) | ❌ 非対応 | 3年遅れ |
| FP4 | 2025年(RTX 5000) | ❌ 非対応 | 世代遅れ |
衝撃的な結論
NPUは2025年現在、2018年のRTX 2000シリーズと同じ精度対応レベル
・FP8非対応(GPU比3年遅れ)
・FP4非対応(最新GPUに完全に置いていかれている)
・さらに32bitアドレス空間制限で4GBまでしかアクセスできない(※訂正:この主張はデータシートの誤読に基づく。正確にはLeonRTはスケジューラーであり、DMAは64ビットアドレスにアクセス可能)
3.9.4 INT8 vs FP8:演算器の複雑さの違い
同じ8ビットでも、INT8とFP8では演算器の複雑さが全く異なります[26]。
| 項目 | INT8演算器 | FP8演算器 |
|---|---|---|
| 基本構造 | 整数加算器 | 浮動小数点演算器 |
| 処理ステップ | 加算のみ(1段) | 指数調整→加算→正規化→丸め(6-8段) |
| トランジスタ数 | 基準 | 10倍以上 |
| 品質(70Bモデル) | 92-94% | 98-99% |
なぜNPUはFP8に対応できないのか:FP8演算器はINT8の10倍複雑で、小型・省電力を重視するNPUに搭載するのは技術的ハードルが高い。さらに、32bitアドレス空間制限との組み合わせで、投資対効果が見えにくい。(※訂正:アドレス空間制限の前提は誤り。FP8非対応の主因は演算器の複雑さとダイサイズ・消費電力のトレードオフ)
3.9.5 実用シナリオ比較:Llama 3.3 70B推論
| ハードウェア | 対応精度 | メモリ必要量 | 品質 | 実用性 |
|---|---|---|---|---|
| RTX 5090 (FP4) | FP4 | 35GB | 85-90% | ✅ 24GB VRAMで実行可能 |
| RTX 4090 (FP8) | FP8 | 70GB | 98% | ⚠️ 24GB VRAMでは不足 |
| RTX 3090 (INT8) | INT8 | 70GB | 92% | ⚠️ 24GB VRAMでは不足 |
| NPU (INT8/FP16) | INT8 | 70GB | 92% | ❌ 4GB制限で完全に不可能 ❌ 演算性能(TOPS)が桁違いに不足 |
現実的な結論
・RTX 5090:FP4で35GBに圧縮、単体で実用可能
・RTX 4090:FP8で70GB、2枚必要だが品質98%
・RTX 3090:INT8で70GB、品質は92%
・NPU:4GB制限で議論の余地なく不可能 演算スループット不足(13〜48 TOPS)で70Bモデルの実用的推論は不可能
3.9.6 NPUは「永遠に追いつけない」のか
仮に2029年に64bitアドレス空間+FP8対応NPUが登場したとしても:
仮に将来FP8対応+大幅な演算性能向上を果たしたNPUが登場したとしても:
| 時期 | NPU世代 | 予想スペック | 同時期のGPU |
|---|---|---|---|
| 2024-2025 | 現行(NPU4等) | 32bit, INT8/FP16, 13-48 TOPS | RTX 5000 (FP4対応) |
| 2026-2027 | 次世代? | 32bit, FP8追加? | RTX 6000 (FP2/FP3?) |
| 2028-2029 | 将来世代? | 64bit, FP8対応? | RTX 7000 (さらに先へ) |
絶望的な予測
2029年にFP8対応64bitNPUが登場したとしても:
・その頃GPUはFP2やFP3に進化している可能性
・クラウドLLMは1兆パラメーター級に進化
・NPUは「永遠に追いつけない」構造的問題を抱えている
第4部:では、どうすればいいのか
4.1 用途別の推奨アプローチ
| 用途 | 推奨手段 | 理由 | コスト目安 |
|---|---|---|---|
| 一般的な対話 | クラウドLLM | 最新モデル、高性能 | 月3,000円程度 |
| プライバシー重視 | ローカルLLM(CPU) | データがローカルに残る | PC + RAM (10-20万円) |
| カメラ処理 | NPU(スマホ) | リアルタイム性 | スマホ購入費 |
| 開発・実験 | ローカルLLM(GPU) | 柔軟性、制御性 | GPU搭載PC (20-50万円) |
4.2 2025年のモデル推奨
| モデル名 | パラメーター | 必要RAM (Q4) |
用途 | 特徴 |
|---|---|---|---|---|
| Qwen2.5-7B | 7B | 4GB | 軽量タスク | 高速、多言語対応 |
| Qwen2.5-14B | 14B | 8GB | バランス型 | 実用的な性能 |
| Qwen2.5-32B | 32B | 18GB | 高度なタスク | コーディング、推論 |
| Llama 3.3 70B | 70B | 40GB | 最高性能 | クラウド並みの品質 |
結論:NPUの未来と現実的な選択
主要な発見
1. 量子化は古くて新しい技術
PCM(1937年)から始まった量子化技術は、AI時代に新たな応用を見出しました。ニューラルネットワークの統計的性質により、大幅な圧縮(32ビット→4ビット)でも92%以上の品質を維持できます。
2. FP8の革命的優位性
INT8とFP8は同じ8bitですが、FP8の対数分布がニューラルネットワークに最適。NVIDIA H100では、FP16比で2倍の速度、50%のメモリ削減、98-99%の精度維持を実現しています。しかし、FP8演算器はINT8の10倍複雑で、これがNPUへの搭載を困難にしています。
3. NPUは2018年のGPUと同レベル
衝撃的な事実:2025年現在、NPUの対応精度(INT8/FP16)は、2018年のRTX 2000シリーズと同じです。FP8非対応、FP4非対応、さらに32bitアドレス空間制限(4GB)という三重苦という深刻な制約を抱えています。(※訂正:「4GBアドレス空間制限」はデータシートの誤読。正確にはFP8非対応+演算性能不足の二重苦)
4. GPUは3世代先を行く
・2018年(RTX 2000):FP16, INT8, INT4対応
・2022年(RTX 4000):FP8対応開始
・2025年(RTX 5000):FP4/FP6対応
一方、NPUはFP8すら未対応で、GPU比3年以上の遅れ。AMD Radeonですら2025年にFP8対応したのに対し、NPUは取り残されています。
5. 64bitアドレス空間+FP8対応NPUは2029年以降?
2025年時点で64ビットNPUは確認できず、登場は早くても2027-2028年以降と予測されます。NPUの主な課題はFP8/FP4対応と演算スループットの大幅向上です。しかし、仮にこれらが実現しても、その頃GPUはFP2やFP3に進化し、クラウドLLMは1兆パラメーター級に。NPUは「永遠に追いつけない」可能性が高いです。
実務的な推奨
用途別の最適解
一般ユーザー:クラウドLLM(ChatGPT、Claude等)
→ 最新モデル、高性能、月3,000円程度
プライバシー重視:ローカルLLM(CPU + 大容量RAM)
→ Ollamaでの構築が現実的
開発者・AI研究:GPU搭載PC(RTX 4060 Ti 16GB以上)
→ FP8対応で柔軟性と性能のバランス
最先端を追求:RTX 5090(24GB VRAM)
→ FP4対応で70Bモデルも単体で実行可能
Copilot+ PC購入について
→ NPUの制限(4GB、INT8/FP16のみ、演算スループット不足、GPU比3年遅れ)を理解した上で、用途に合うか慎重に検討すべき
最後に:技術格差の現実
AI技術の民主化という理想は素晴らしいものです。しかし、NPUという形での実現は、少なくとも2025年時点では困難と言わざるを得ません。
一方で、量子化技術の進歩により、ローカルでのLLM実行は確実に実用的になっています。大容量RAMを搭載したPC(約20万円)で、70Bモデルを実用的な速度で動かせる時代が到来しています。そして、RTX 4000シリーズ以降のGPUは、FP8という革命的な技術によって、メモリ使用量を半分にしながら品質を98%維持できるようになりました。
NPUは2018年のGPUと同じ精度対応レベル(INT8/FP16のみ)に留まり、FP8非対応、さらに32bitアドレス空間制限により4GBまでしかアクセスできないという三重苦に加え演算スループットの絶対的不足という課題を抱えています。技術の進化は予測困難ですが、現時点での冷静な判断として、クラウドLLM、GPU(特にFP8/FP4対応)、CPU+大容量RAMのハイブリッド利用が最も実用的な選択と言えるでしょう。
続編
もっとよく知るAI -量子化の魔法-
第1回 256通りの使い方:INT8とFP8、同じ8bitなのになぜこんなに違うのか?
第2回 Q4_K_Mが4.75bit?量子化フォーマット完全ガイド
第3回 FP8標準化戦争:GoogleとNVIDIAの覇権争い
参考文献
-
- IT用語辞典 e-Words「量子化」
https://e-words.jp/w/量子化.html - Wikipedia「Pulse-code modulation」(2025年11月26日版)
https://en.wikipedia.org/wiki/Pulse-code_modulation - Electronics-Lab「Analog To Digital Conversion – Sampling and Quantization」(2025年8月11日)
https://www.electronics-lab.com/article/analog-to-digital-conversion-part-1/ - Wikipedia「Adaptive differential pulse-code modulation」(2025年3月2日版)
https://en.wikipedia.org/wiki/Adaptive_differential_pulse-code_modulation - ITU-T Recommendation G.726「40, 32, 24, and 16 kbit/s Adaptive Differential Pulse-Code Modulation (ADPCM)」(1990)
- Phillip Gimmi「Understanding GGUF: A Deep Dive into the Most Popular LLM Format」, Medium
https://medium.com/@phillipgimmi/what-is-gguf-and-ggml-e364834d241c - Ollama公式ドキュメント
https://github.com/ollama/ollama - IBM Think Topics「GGUF vs GGML」
https://www.ibm.com/think/topics/gguf - NVIDIA Technical Blog「FP8 Formats for Deep Learning」(2022)
https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/ - Databricks「Quantization on H100: Benchmarking Llama2-70B」
https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices - Microsoft Learn「What is a Copilot+ PC?」
https://learn.microsoft.com/en-us/windows/ai/copilot-pc/overview - Windows Central「Microsoft announces Phi-3 mini AI models」(2024年3月)
https://www.windowscentral.com/software-apps/windows-11/microsoft-announces-phi-3-mini - arXiv「Scaling LLM Test-Time Compute with Mobile NPU on Smartphones」(2025年9月27日)
https://arxiv.org/html/2509.23324v1
引用:”Our current implementation is limited by the 32-bit address space of a single NPU session on older devices.” - Intel公式データシート「Intel® Core™ Ultra 200S and 200HX Series Processors – Intel® Neural Processing Unit (Intel® NPU)」
Intel EDC
引用:”All host communications are consumed by the scheduler of the Intel® NPU, a 32-bit LeonRT micro-controller.”
※注:この引用はLeonRTが「スケジューラー」であることを示すものであり、NPUのメモリアドレス空間が4GBに制限されることを意味しない。LeonRTはコマンドキュー管理とランタイム制御を担当し、DMAエンジンによるデータ転送は別経路で行われる。 - [C&C] Chester Lam, “Intel Meteor Lake’s NPU”, Chips and Cheese(2024年4月22日)
https://chipsandcheese.com/p/intel-meteor-lakes-npu
※ NPU内部アーキテクチャ(LeonRT/LeonNN/SHAVE DSPの役割分担、SPARCベースの制御プロセッサとNCEタイルの関係)の詳細分析 - IEEE Spectrum「Run AI Models Locally: A New Laptop Era Begins」(2025年11月17日)
https://spectrum.ieee.org/ai-models-locally - XDA Developers「Intel Panther Lake CPU: Architecture, specs and a 2026 launch」(2025年10月9日)
https://www.xda-developers.com/intel-panther-lake-details/ - arXiv「NeuMMU: Architectural Support for Efficient Address Translation in NPUs」(2019年11月)
https://arxiv.org/pdf/1911.06859 - DEV Community「Running Local LLMs, CPU vs. GPU – a Quick Speed Test」
https://dev.to/maximsaplin/running-local-llms-cpu-vs-gpu-a-quick-speed-test-2cjn/comments - NVIDIA「Turing Architecture In-Depth」(2023年10月25日)
https://developer.nvidia.com/blog/nvidia-turing-architecture-in-depth/ - HotHardware「GeForce RTX Explored: What You Need To Know About Turing」(2018年9月14日)
https://hothardware.com/reviews/nvidia-geforce-rtx-turing-gpu-architecture - Wikipedia「GeForce RTX 40 series」
https://en.wikipedia.org/wiki/GeForce_RTX_40_series - Wikipedia「Ada Lovelace (microarchitecture) / Blackwell」
https://en.wikipedia.org/wiki/Ada_Lovelace_(microarchitecture) - AMD GPUOpen「Accelerating Generative AI on AMD Radeon GPUs」
https://gpuopen.com/learn/accelerating_generative_ai_on_amd_radeon_gpus/ - HWCooling「RDNA 4 architecture deep dive」(2025年3月17日)
https://www.hwcooling.net/en/better-more-capable-than-expected-rdna-4-architecture-deep-dive/ - Wikipedia「RDNA 3」
https://en.wikipedia.org/wiki/RDNA_3 - Computer Architecture「Floating Point Arithmetic Unit」, University of Maryland
http://www.cs.umd.edu/~meesh/411/CA-online/chapter/floating-point-arithmetic-unit/ - Qualcomm AI Research「FP8 versus INT8 for efficient deep learning inference」, arXiv:2303.17951(2023年3月)
https://arxiv.org/abs/2303.17951
- IT用語辞典 e-Words「量子化」
※ 本記事の内容は2025年1月時点の情報に基づいています。