AIを1つのチャット窓で使い続けている人に、はっきり言いたいことがある。
1つのAIに何でもやらせるアプローチは、必ず品質の天井にぶつかる。文脈が混濁し、エラーが蓄積し、品質保証が自分一人の肩にのしかかる。これは能力の問題ではなく、構造の問題だ。
シリコンバレーのUXデザイナーで、元Google・Amazon・Ciscoのりお氏(クウキデザイン代表)は、この問題を「組織論」で解いた。17年にわたってシリコンバレーの一流チームを観察してきた彼が辿り着いたのは、AIエージェントの運用に人間の組織が何千年もかけて発明した知恵をそのまま適用するという発想だった。
1. エージェントAIを「組織」として動かす
1-1. 優れた組織の4原則
りお氏がAIエージェント設計の根拠とした組織原則は以下の4つだ。
| 原則 | 内容 | なぜ重要か |
|---|---|---|
| ① 専門化 | 全員が自分のドメインだけに責任を持つ | 「全部やる人」は全部が中途半端になる |
| ② レビュー文化 | 重要な判断は必ず複数の目を通す | 1人の視点には必ずバイアスが入る |
| ③ 文書による引き継ぎ | 口頭でなく書き物で引き継ぐ | 「なぜその決定をしたか」を残す |
| ④ 権限の明示化 | 何をAIが決めて良いか、どこで人間が判断するかを事前に定義する | 曖昧な権限はカオスを生む |
1-2. クウキデザインの18体組織
この原則を実装したのが、りお氏が3ヶ月・1000時間以上をかけて構築した実際の運用システムだ。
チーム
チーム
チーム
オペレーション
★ Eng Director = アドバイザー枠(Opus使用)
1-3. コーディネーション層(イントラネット)
全チームの上には「コーディネーション層」が置かれている。これは企業のイントラネットに相当するもので、2つの要素からなる。
| 要素 | 内容 |
|---|---|
| タスク管理ボード | カンバン形式。AIも人間も同じボードを使い、Unassigned → In Progress → Done の流れで処理。AIがタスクを自動取得・実行する。 |
| 知識ベース(Obsidian) | 会社の理念・価値観、ビジュアルデザインシステム(ブランド)、AIエージェント間の引き継ぎ文書、すべての入力の集約ポイント。 |
1-4. AIエージェント1体の構成要素
個々のAIエージェントは「Manual・Brain・Desk」の3要素で成り立つ。
コスト意識のあるモデル選択
OpusはEng Directorのアドバイザー機能のみ。Tech Leadがタスクの難易度を判断し、HaikuかSonnetに自動振り分け。最高性能モデルを全タスクに使えばトークンコストが現実的でなくなる。
2. これは「経営者の仕事」だ
ここまで読んでお気づきだろう。
りお氏がやっていることは、AIを使うことではなく、AIを使う組織を設計することだ。組織図を描く。役割の境界を定める。タスクの権限委譲ルールを決める。暗黙の了解を全て文書化する。イントラネットを構築し、引き継ぎのプロトコルを定める。例外が発生したときのエスカレーション経路を設計する。
これは職業経営者・組織設計者の仕事であり、1000時間以上の試行錯誤の産物だ。
[!] 実際に起きた事故
AIエージェントは暗黙のルールを理解しない。人間の新入社員なら「Inboxのファイルを勝手に削除したらまずい」と本能的に分かる。AIは分からない。実際にObsidianのInboxの中身をAIが自己判断で削除するという事故が発生した。指示していないことをやりかねない、というのがエージェントAIの現実だ。
さらに深刻なのは、エージェントAI組織はエラーが無音で発生するという特性だ。人間の部下なら「これ、うまく動いていないんですが」と声を上げる。AIエージェントは誤った設定のまま「完了しました」と報告し続ける。システム全体を定期的に観察する「運用監視」の設計まで求められる。
使いこなせる人間は、組織設計ができる人間に限られる。
3. Copilot+とは何だったのか――そして、なぜ失敗したのか
Microsoft Copilot+ PCは2024年5月に発表された。定義はシンプルで、40TOPS以上のNPU(ニューラルプロセッシングユニット)を搭載したPCだ。
| 機能 | 内容 |
|---|---|
| Recall | 過去の操作・画面をAIが記憶・検索できるようにする |
| Auto Super Resolution(ASR) | 低解像度画像をAIでアップスケール(NVIDIAのDLSSと同等) |
| Live Captions | 音声のリアルタイム字幕・翻訳 |
| AI画像生成 | オンデバイスでの画像生成 |
失敗の理由①:既存のワークフローに統合されていない
提供された機能はどれも「単発の便利機能」だ。ユーザーが日常的に行う仕事のフローの中に組み込まれていない。Recallはプライバシー問題で炎上し延期を繰り返し、ASRはGPU(DLSS・FSR)で既に解決済みの問題への二番煎じだった。
失敗の理由②:NPUをユーザーに意識させすぎた
「NPU搭載」「40TOPS」という仕様を前面に出したマーケティングは、そのまま「使いこなすにはNPUを理解する必要がある」という印象を与えた。真のインフラはその存在を意識させない。DNSを使うのにDNSの仕組みを理解しているユーザーは一人もいない。
失敗の理由③:エージェントAI時代の設計思想がなかった
Copilot+ PCが設計された時点でMicrosoftが想定していたのは「AI機能を追加したPC」だった。「AIが主体的にタスクをこなし続けるエージェントの基盤」という発想ではなかった。IntelとAMDのNPUはCopilot+という旗のために慌てて搭載された側面が強く、当初はソフトウェアエコシステムが伴っていなかった。
4. AI PCの本来の意義:エッジAIとNPUの役割
AI PCの本来の定義
「エンドユーザーが意識することなく、エージェントAIが常時稼働してタスクを処理し続けるための、常時起動・低消費電力の推論基盤」
4-1. 超小型LLMの登場
この構想を現実に押し上げたのが、2025年以降に登場した超小型のLLMだ。
| モデル | パラメータ | サイズ(INT4) | 備考 |
|---|---|---|---|
| Gemma4 E2B | 実効20億 (総計51億※) |
2-3GB | RPi5で動作確認済み・Apache 2.0 |
| Gemma4 E4B | 実効40億 | 4-5GB | ラップトップでの常用に最適 |
| Qwen2.5-1B | 10億 | 約600MB | Intel NPU動作確認済み |
| MiniCPM-o | 約2.6B | 約1.5GB | マルチモーダル対応 |
※「E」はEffective(実効パラメータ)の略。PLE(Per-Layer Embeddings)技術により各デコーダ層に独自のエンベッディングテーブルが付加されるため、実際のメモリ使用量は実効パラメータ数から想定するより大きくなる。E2Bは実効2.3Bだが総パラメータは5.1B相当。
Raspberry Pi 5でもGemma4 E2Bの動作が確認されており、PC上のNPUであれば、より高いパフォーマンスで常時起動しても電力コストは許容範囲に収まる。
4-2. CPU・GPU・NPUの三者分担
| チップ | 得意な処理 | エージェントAIでの役割 |
|---|---|---|
| CPU | 制御・シーケンシャル処理 | オーケストレーション・タスク管理・システム制御 |
| NPU | 低消費電力での行列演算・推論(常時起動可) | 超小型LLMの常時実行・文脈解釈・ルーティング・エンベッディング処理 |
| GPU | 大規模並列演算(電力大) | 複雑な推論タスク(要求時のみ起動) |
4-3. ソフトウェアスタックの現状(2026年)
Intel側:OpenVINO 2026.0でUnified Runtime Schedulerが実装され、CPU・GPU・NPUをまたぐパイプラインを自動的に分割・最適配置できるようになった。Qwen2.5-1BやMiniCPM-o-2.6などのNPU動作確認済みモデルも拡充中。ただしCore Ultra Series 1(Meteor Lake)では実用的なLLM推論速度は出ておらず、Series 2(Lunar Lake)以降が実用水準だ。
AMD側:XDNA 2アーキテクチャのNPUで最大50TOPSを実現。ONNX RuntimeのVitis AI Execution Providerを通じてエンベッディングモデルのNPU実行が実用化されている。LLM本体の生成部分はCPU・GPUとのハイブリッドが現実的な運用だ。
5. 結論:オーケストレーターによる抽象化
ここで冒頭の問いに戻る。クウキデザインのりお氏が構築したシステムは、エージェントAIの理想的なアーキタイプだ。しかし職業経営者レベルの組織設計能力が前提となる以上、それは一般ユーザーに届かない。では、この壁をどう超えるのか。
答えは「オーケストレーターによる抽象化」だ。
5-1. 現在と目指すべき姿
5-2. オーケストレーターの処理内訳とNPUの役割
| 処理 | 内容 | 実行場所 |
|---|---|---|
| ① 意図の解釈 | 「来週のプレゼン資料を」→ タスク分類 | NPU(超小型LLM) |
| ② タスクの分解 | リサーチ / 文書作成 / デザイン に分割 | NPU(超小型LLM) |
| ③ エージェント選択 | 複雑→クラウド大型LLM、定型→ローカル小型LLM | NPU(超小型LLM) |
| ④ 重い推論の実行 | 専門的・高度な推論タスク | GPU / クラウド |
| ⑤ 結果の統合・報告 | 「完了 / ここだけ確認が必要です」 | NPU(超小型LLM) |
5-3. クウキデザインの方法論が「見えなくなる」
| りお氏のシステム(手動・1000時間) | → 自動化されたオーケストレーター |
|---|---|
| 役割定義書(Manual) | モデルが内包するエージェントテンプレート |
| モデル選択(Opus/Sonnet/Haiku) | タスク複雑度の自動判定・自動切替 |
| タスクボード管理 | オーケストレーターの内部状態 |
| Obsidianの知識ベース | ローカルのベクトルDB・コンテキストストア |
| 品質チェックの多段階レビュー | パイプラインとして自動実行 |
| 暗黙ルールの全明文化(1000時間) | モデルの事前学習・ファインチューニング |
Copilot+ PCが登場した2024年時点では、AIをエッジデバイスでどう活用すべきかはまだ定まっていなかった。クラウドサービスとローカルAI機能のすみ分けも、その位置づけも、業界全体として答えが出ていなかった。作る側も手探りの状態だったのだ。
だからこそCopilot+の仕様を批判するのは後知恵に過ぎない。当時の時代認識では、NPUを「便利な機能の加速装置」として売り出すのはひとつの合理的な解答だった。
しかし、その後に登場したある概念が、問題解決へのアプローチそのものを塗り替えることになった。
6. 「万能の神」という幻想の終わり
OpenAIもAnthropicもGoogleも、AGI――すべての知的タスクをこなせる万能の高性能LLMを作り出し、あらゆる問題を解決するというアプローチで激しい性能競争を繰り広げてきた。ベンチマークのスコアが上がるたびに「これで解決だ」という空気が流れ、次のモデルが出ればまた更新される、その繰り返しだった。
しかしそれとはまったく別のアプローチが静かに台頭してきた。複数のエージェントを並列に稼働させ、組織として問題を解決するエージェントAIという概念だ。
| 従来のアプローチ | エージェントAIのアプローチ |
|---|---|
| 1つの超高性能モデルがすべてのタスクを処理 | 専門化した複数エージェントが並列で分担処理 |
| 性能向上=パラメータを増やす・計算資源を増やす | 性能向上=エージェントの数と役割設計を最適化する |
| 品質保証=モデル自身が行う | 品質保証=別エージェントがレビューする(組織論) |
| コスト=1回の推論が高い | コスト=軽量モデルの組み合わせで最適化できる |
なんでもできる巨大な「神」よりも、複数の自律的に稼働する標準的な性能のAIの組み合わせの方が、結果として役に立つ――この考え方は今後もっと一般的になるだろう。そしてそれは、データセンターへの投資の中身すら変えつつある。GPUクラスタに数百億ドルを注ぎ込む巨大モデル開発競争と並行して、エッジに分散した小型エージェント群をいかに効率よく動かすかという別の軸の競争が始まっている。
7. PCの未来――OSの意味が消える日
オーケストレーターによる抽象化が完成するということは、すべてのタスクをエージェントAIが受け持つということだ。Windows 11で言えば、「設定」を開くこともアプリを起動する必要もなくなる。タスクを実行するのは各エージェントであり、ユーザーはチャットや音声で指示するだけになるからだ。
そこまで来たとき、OSが何であるか、CPUが何であるか、MacかWindowsかChromOSかという問いは、実質的な意味を失う。PCはあくまで道具であり、目的を達成するためにある。Macであっても、ChromeOSであっても、チャットで指示して結果が返ってくるなら、それにこだわる人は少数派になるだろう。
現在Windowsのシェアが圧倒的なのは、Windowsでしか動かないアプリケーションが多いからだ。しかしエージェントがすべての機能を仲介するならば、その優位性は急速に薄れていく。
ゲームはどうなるか?
ゲームはクラウド化に向かうと私は考えている。数々のクラウドゲーミングサービスが失敗してきた経緯があるため強くは言えないが、端末に強力なハードウェアを搭載するという発想は徐々に下火になり、限りなくコモディティに近づいていくだろう。その速度がいつになるかは分からないが、方向性は変わらないと思っている。
これが私の考えるパーソナルコンピューターの未来だ。NPUの上で静かに稼働する超小型LLMが、その変化の出発点になる。
DNSがどのサーバーにルーティングするかをユーザーが意識しないように。優れたインフラは、存在すら気づかれない。
AI PCとは「AIで便利な機能が追加されたPC」ではなく、「エンドユーザーが意識することなく、エージェントAIが常時稼働してタスクを処理し続けるための基盤」だ。NPUはその心臓部として、オーケストレーターとなる超小型LLMを低消費電力で動かし続ける。
参考・ソース
- クウキデザイン りお氏「AIエージェント組織運営の全貌」YouTube(3ヶ月・1000時間以上の実運用を公開)
https://www.youtube.com/watch?v=K1JBWvTIc2Y - “Characterizing Mobile SoC for Accelerating Heterogeneous LLM Inference”(HeteroInfer)
arxiv 2501.14794(2025年) - “Intel Releases OpenVINO 2026 With Improved NPU Handling, Expanded LLM Support” — Phoronix(2026年2月)
https://www.phoronix.com/news/Intel-OpenVINO-2026.0-Released - “RAG with Hybrid LLM on AMD Ryzen AI Processors” — AMD Developer Blog(2025年8月)
AMD Developer
本記事はファクトチェック済みの情報を基に執筆しました。(2026年5月)