Google は 2026 年 4 月 2 日に Effective 2B、Effective 4B、Google AI Studio、Google AI Edge Gallery、Transformers.js、NeMo、Keras を含む Gemma 4 を正式にリリースしました。これまでで最も強力なオープンソース・モデルの 1 つとして、Gemma 4 はネイティブ関数呼び出し、エージェントのワークフロー、多モーダル認識において大きなブレークスルーを実現し、商業に配慮した Apache 2.0 ライセンスを採用することで、世界中の開発者と企業にこれまでにない自由度と柔軟性をもたらします。
Gemma 4 とは何?コア特長を一度にチェック
Gemma 4 は Google DeepMind が提供するオープンソースの大規模言語モデル群であり、Gemini シリーズのモデルと技術を共有しています。主な注目ポイントは以下のとおりです:
高度な推論能力:複数ステップの計画と深い論理推論をサポートし、数学および指示追従のベンチマークテストで同世代のオープンソース・モデルを大きく上回ります。
ネイティブなエージェント・ワークフロー:関数呼び出し、構造化 JSON 出力、システム指示のサポートが内蔵されており、自律型 AI エージェントや複数ステップのタスク実行をそのまま駆動できます。
ローカル端末へのデプロイ:E2B、E4B のバージョンはスマホなど各種デバイス向けに最適化されており、完全にオフラインで動作させられます。
包括的な多モーダル対応:すべてのバージョンが画像と動画の入力をネイティブにサポート。E2B、E4B はさらにネイティブな音声入力も追加でサポートします。
超長コンテキスト・ウィンドウ:エッジ・モデルは 128K token に対応し、より大きなモデルでは最大 256K token をサポート。1 回のプロンプトで、コードベース全体や長文ドキュメントをそのまま投入できます。
高品質なコード生成:オフラインでのコード作成をサポートし、個人のワークステーションを「ローカル優先」の AI コーディング支援者にできます。
140+ 言語をネイティブに学習:140 を超える言語をサポートし、開発者が国際ユーザー向けの多言語アプリを構築するのを後押しします。
4 種類のモデルで、あらゆるユースケースを最大化
Gemma 4 は合計 4 つのバージョンを提供し、異なるハードウェア環境と用途シーンに合わせて最適化しています:
Effective 2B(E2B):モバイル端末や IoT 向けに設計されており、128K のコンテキスト・ウィンドウ、ネイティブ音声入力をサポート。Android のスマホ、Raspberry Pi などのエッジ環境で完全にオフライン運用できます。
Effective 4B(E4B):同様にエッジ側に最適化されており、多モーダル能力を備えています。推論性能とメモリ使用量の間で優れたバランスを実現しています。
26B 混合専門家(MoE):推論時にアクティブになるのは 38 億パラメータのみで、低遅延で高速推論を実現。スループットを重視するローカルのワークステーションへの導入に適しています。
31B Dense:フラッグシップ版。Arena AI のテキストランキングで 3 位に位置づけられ、最高品質の出力を提供し、単一の 80GB NVIDIA H100 GPU で完全に動作させられます。
26B MoE と 31B Dense の量子化版は、消費者向けのグラフィックカード上でネイティブに実行できるため、強力な AI 推論能力が個人開発者のデスクトップに本当に普及します。
ローカル推論の大きなブレークスルー:API 依存を卒業
Gemma 4 の最も注目される特長の 1 つは、「ローカル端末(On-device)推論」能力を重視している点です。E2B と E4B のモデルは、計算効率とメモリ効率を最大化することを目的に設計されており、スマホ、Raspberry Pi、NVIDIA Jetson Orin Nano などのエッジデバイス上で、ほぼゼロ遅延に近い運用が可能です。
これは開発者にとって非常に大きな影響があります。これまでクラウドの AI API を呼び出すには、毎回のリクエストに対する費用がかかり、さらにネットワーク遅延やデータのプライバシーリスクもありました。一方、Gemma 4 のローカル端末推論能力により、開発者は自前のハードウェア上でモデルを実行でき、API 呼び出しコストを大幅に下げることができると同時に、完全なデータの主権とオフラインでの利用性を享受できます。
Google はさらに、Pixel チームおよび Qualcomm、MediaTek などのモバイル向けハードウェア・パートナーと緊密に連携し、E2B/E4B が主要な Android 端末で最良のパフォーマンスを達成できるようにしています。また、Gemini Nano 4 の統合開発を行うために、Android 開発者向けに AICore Developer Preview を提供します。
エージェントのワークフローを強化し、ネイティブ関数呼び出しで効率を向上
Gemma 4 は、エージェント・ワークフロー(Agentic Workflows)でもネイティブな支援を実現しており、これは前世代に対する最も顕著な機能の飛躍の 1 つです。このモデルは以下をサポートします:
ネイティブ関数呼び出し(Function Calling):モデルが外部ツールや API を直接呼び出して、実際の操作を実行できます。たとえばデータベースの照会、第三者サービスの呼び出しなどです。
構造化 JSON 出力:モデルの出力が特定の形式に合致することを保証し、バックエンドシステムとのシームレスな統合を容易にします。
ネイティブなシステム指示(System Instructions):開発者がシステムレベルでモデルの挙動を設定できるため、AI エージェントの役割設定をより安定かつ一貫したものにできます。
これらの能力により、Gemma 4 は万能の自律型 AI エージェントになり得ます。単に質問に答えるだけでなく、ツールと自発的に連携し、複数ステップのワークフローを自動で実行できます。
多モーダルの全面アップグレード:ビジョン、音声、長文まで一通り
Gemma 4 の全シリーズのモデルはネイティブな多モーダル機能を備えており、扱えるタスクの種類を大幅に拡張します。
画像と動画
視覚理解の面では、すべてのモデルが画像と動画のネイティブ処理をサポートし、可変解像度にも対応します。OCR(光学文字認識)や図表理解などの視覚タスクで特に優れたパフォーマンスを示します。
音声入力
音声に関して、E2B と E4B のエッジモデルは追加でネイティブな音声入力をサポートします。音声認識と理解をそのまま行えるため、追加の「音声を文字に変換する」ステップは不要です。
超長コンテキスト
ドキュメント面では、エッジモデルが 128K token のコンテキスト・ウィンドウに対応し、さらに大きなモデルでは最大 256K token を提供します。これにより、開発者は単一のプロンプトでコードベース全体や長文ドキュメントを投入できます。
オフラインでのコード生成
高品質なオフラインでのコード作成に対応しており、個人のワークステーションをローカル優先の AI コーディング支援者にできます。
140+ 言語のサポート
ネイティブ学習で 140 種以上の言語をカバーし、世界のユーザーに向けたアプリ構築を支援します。
Apache 2.0 ライセンス:オープンソース・エコシステムのマイルストーン
Gemma 4 は Apache 2.0 ライセンスでリリースされます。これはオープンソース・コミュニティにおいて商業フレンドリー度が最も高いライセンスの 1 つです。開発者や企業は、モデルを自由に利用、改変、配布でき、プライベートなインフラ、ハイブリッドクラウド環境、または商用製品への組み込みのいずれであっても、追加の制限はありません。
豊富なエコシステムのサポート
Gemma 4 は業界の主要ツールからも幅広いサポートを受けています。Hugging Face(Transformers、TRL、Transformers.js)、Ollama、vLLM、llama.cpp、MLX、LM Studio、NVIDIA NIM、NeMo、Keras、Vertex AI などです。
開発者は Hugging Face、Kaggle、Ollama から直接モデルの重みをダウンロードでき、Google AI Studio でオンライン上で 31B と 26B MoE の各バージョンを体験したり、Google AI Edge Gallery で E2B と E4B の各バージョンを試したりできます。
大規模な導入が必要な企業向けに、Google Cloud は Vertex AI、Cloud Run、GKE、Sovereign Cloud、TPU による加速推論サービスを含む完全なクラウドソリューションを提供し、ローカル計算能力の上限という制約を取り除きます。
コストを下げても能力は犠牲にしない:Gemma 4 は開発者の新しい選択肢になり得る
Gemma 4 のリリースは、生産デプロイ能力を備えたエンタープライズ級ツールとして、スマホでオフライン運用でき、外部ツールを呼び出して自律的にタスクを完了し、長文ドキュメントや多モーダル入力を処理しながら、誰もが自由に使えるオープンソース AI モデルにおけるマイルストーンです。
API 呼び出しコストを下げつつ AI の能力を維持したい開発者や企業にとって、Gemma 4 は非常に魅力的な選択肢を提供します。
この記事 Google は Gemma 4 のオープンソース・モデルを公開:「本地端推理」で AI エージェントのワークフロー効率を強化 という内容が最初に現れたのは 鏈新聞 ABMedia です。