Google Gemma 4、NVIDIA RTX GPUで最適化対応──llama.cppでM3 Ultraの2.7倍高速なローカル推論を実現

■事実

Gemma 4がRTX GPU向けに正式最適化

Googleは2026年4月2日、オープンソースLLMシリーズの最新世代「Gemma 4」を発表した。

同時にNVIDIAは、Gemma 4がRTX GPUシリーズ向けに最適化され、llama.cppおよびOllamaを通じてすぐにローカル展開できる状態になったことをプレスリリースで発表した。

NVIDIAはGoogle、Ollama、llama.cppの各チームと連携して最適化に取り組んだとしており、Gemma 4の全4モデルにDay-1サポートが提供されている。

Gemma 4のモデルラインナップ

Gemma 4はエッジデバイスからハイエンドワークステーションまでをカバーする4モデル構成で展開される。

モデル	アーキテクチャ	推論時実効パラメータ	コンテキスト長	主な対象環境
E2B	Dense（Per-Layer Embeddings）	実効2B	128K	スマートフォン・Raspberry Pi
E4B	Dense（Per-Layer Embeddings）	実効4B	128K	Jetson Nano・エッジデバイス
26B-A4B	Mixture of Experts	実効3.8B（全26B中）	256K	RTX GPU・開発ワークステーション
31B	Dense	31B	256K	RTX GPU・DGX Spark

E2BとE4Bの「E」はEffective（実効）パラメータを意味し、Per-Layer Embeddings（PLE）という手法によって各デコーダ層に補助的な埋め込み信号を注入することでパラメータ効率を高めている。これらのモデルはJetson Orin Nanoを含む多様なエッジデバイス上でオフライン動作・超低レイテンシを実現するよう設計されている。

26B-A4BはMixture of Experts（MoE）アーキテクチャを採用しており、推論時には全128エキスパートのうち8基＋共有エキスパート1基のみが活性化される仕組みだ。総パラメータ26Bに対して推論時の実効パラメータは3.8Bにとどまり、31B Denseモデルの約97%の品質を大幅に少ない計算コストで達成するとされている。トークン生成速度においてはDenseモデルより有利であり、コンシューマGPUのVRAM制約内での実用性が高い。

全モデル共通の機能

Gemma 4シリーズ全モデルが以下の機能に対応している。

テキスト・画像・動画のマルチモーダル入力（26B・31Bは60秒以内の動画に対応）、1プロンプト内でのテキストと画像の任意順混在入力、ネイティブ関数呼び出し（ファンクションコール）による構造化ツール利用、35言語以上の出力対応（140言語以上で事前学習済み）、コンフィグ可能なThinkingモード（段階的推論）。

音声入力（音声認識・翻訳）はE2BとE4Bのみで対応しており、最大30秒の音声入力を処理できる。

ライセンスはApache 2.0で商用利用・改変・再配布が自由に行える。これはGemma 3以前に設けられていた商用制限および月間アクティブユーザー数の上限が撤廃されたことを意味する重要な変更だ。 QwenシリーズなどのApache 2.0モデルと同等の商業的自由度が確保された。

RTX GPUでのllama.cpp推論性能

NVIDIAの計測によれば、llama.cppを使用した場合、RTX 5090はApple M3 Ultraに対して以下の性能倍率を示している。

※　画像は記事の内容をもとにしたイメージです。必ずしも現実を反映しているわけではありませんのでご注意ください。

Gemma-4-31B：2.7倍
Gemma-4-26B-A4B：2.3倍
Gemma-4-E4B：2.3倍
Gemma-4-E2B：2.3倍

比較対象のApple M3 Ultraは、最大192GBの統合メモリアーキテクチャにより大容量モデルのローカル実行において長く定評のあるApple Siliconの最上位チップだ。ローカルLLM推論の世界では、Macシリーズはメモリバンド幅と大容量VRAM相当の統合メモリにより「コストパフォーマンスの高いLLM実行環境」として広く認識されてきた。

この性能優位の背景について、NVIDIAはTensor CoreによるAI推論ワークロードの加速と、CUDAソフトウェアスタックによる主要フレームワーク・ツールとの幅広い互換性を挙げている。 CUDAスタックにより、新規モデルが登場した際に広範なフレームワーク対応が初日から利用可能になるとしている。

対応展開ツール

llama.cppとOllamaに加え、Unslothがローカルファインチューニングと量子化済みモデルの展開をUnsloth Studio経由でDay-1サポートとして提供している。

Gemma 4のモデルウェイトはHugging Face、Kaggle、Ollamaから入手可能。 Hugging Face上のモデルIDは以下の通り。

google/gemma-4-31B-it
google/gemma-4-26B-A4B-it
google/gemma-4-E4B-it
google/gemma-4-E2B-it

NVIDIAはGemma 4がJetson Orin NanoからRTX PC・ワークステーション・DGX Sparkまで広範なシステムにまたがってスケール展開できると説明しており、エッジからクラウドまでの連続したデプロイを想定している。

エージェントAIアプリケーションの例として、RTX PCおよびDGX Spark上で常時起動AIアシスタントを実現するOpenClawが、Gemma 4と互換性を持つアプリケーションとして紹介されている。

解説

Gemma 4のリリースそのものは、オープンLLM界隈にとって相当インパクトのある出来事だ。

31BモデルがLMArenaのオープンモデルランキングで3位（ELO約1452）に入り、Gemini 3と同じ研究基盤からビルドされているという。ベンチマーク上のBigBench Extra Hardスコアも、Gemma 3の19.3%から74.4%と劇的な向上を示している。 Apache 2.0ライセンスへの変更は正直言って前世代から想定外の大きな一歩で、月間アクティブユーザー数の上限まで撤廃したのは「本気でエコシステムを広げにきた」という意思表示と受け取っている。

NVIDIAが比較対象としてApple M3 Ultraを選んできたのも、なかなか意図が透けて見える構図だ。ローカルLLM推論の世界では、Apple Siliconの統合メモリアーキテクチャが「コスパ最高のLLM実行環境」として広く定着してきた。 Mac StudioやMac Proは大容量の統合メモリのおかげで、ディスクリートGPUなしに70B級モデルすら実行できる。そこへNVIDIAがllama.cppというApple Siliconユーザーにもなじみのあるツールのベンチマークを引っ提げて「RTX 5090なら2.7倍速い」と直接比較してきた。これはCUDAエコシステムの強みが、推論ツールのDay-1対応の厚みという形でも現れていることの証左でもある。 AMD ROCmやIntel Arc向けのllama.cppがここまで一斉に最適化されてくるかというと、残念ながらそうはならない。この非対称性は依然として続いている。

ただし、この2.7倍という数字はRTX 5090の結果であることは忘れてはならない。

最初は単体GPUのRTX 5090と一体型SoCであるM3 Ultraを比べるのはフェアじゃないなと思ったのだが、M3 Ultra搭載Macと実売価格が同程度で、見た時に何とも言えない気分になった。現状の市場では、RTX 5090は$1,999のMSRPに対して実売が$3,500〜$4,000を超えることも珍しくなく、M3 Ultra搭載Mac Studioも$3,999〜という価格帯だ。恐らく多くの人たちは購入できない価格帯だろう。そういうレベルの話ではあるのだが、昨今のAIブームとPCパーツの値上がりによってこれが普通の景色になってしまったのは嘆かわしいところだ。 RTX 5080や5070 TiクラスのGPUでどれだけの性能が出るかが、より実践的な比較になるだろう。

ソース記事にOpenClawが具体的な活用例として登場していることには、個人的に留保を置いておきたい。 OpenClawは「常時起動AIアシスタント」として個人のファイル・アプリケーション・ワークフローへのアクセス権を持つアーキテクチャで動作するアプリだ。そうしたアプリがNVIDIAの公式プレスリリースに登場することは商業的な判断として理解できるが、プライバシーとセキュリティ面での評価は利用者が自分でしっかり行う必要がある。「エージェントAIだから常時アクセス権付与は当然」という感覚には慎重でいたい。

Gemma 4のローカル推論の本来の価値は「クラウドにデータを送らない」点にある。その価値を生かすためのツール・アプリケーション選択は、結局のところユーザー側の判断にかかっている。