Google DeepMind推出Gemma 4，首个移动端友好、具备多模态与Agent功能的开源大模型

发布概览

2026年4月2日，Google DeepMind在官方博客上宣布Gemma 4系列模型正式开源。Gemma 4是继Gemma 1‑3之后的最新一代，针对高级推理和Agent工作流进行专门设计，并在Apache 2.0许可证下免费提供。

模型规格与核心能力

四种尺寸：Effective 2B (E2B)、Effective 4B (E4B)、26B Mixture‑of‑Experts (MoE) 与 31B Dense。
多模态：原生支持图像、视频和音频输入，具备OCR、图表识别以及语音识别能力。
超长上下文：E2B/E4B提供128K token，26B/31B提升至256K token，便于一次性处理整篇文档或代码库。
Agent特性：内置函数调用、结构化JSON输出和系统指令，直接支持自主代理在本地执行复杂工作流。
性能排名：在Arena AI聊天排行榜中，31B模型位列开放模型第3，26B模型位列第6，超越同等规模模型20倍以上。

开源与生态兼容

Gemma 4采用Apache 2.0许可证，开发者可自由下载、改进并部署。模型权重已同步至Hugging Face、Kaggle和Ollama，兼容Transformers、llama.cpp、vLLM、LiteRT‑LM、Ollama等主流推理框架。Google同时提供在Google AI Studio、Google AI Edge Gallery以及Android Studio AICore预览版中的一键实验环境。

硬件适配与落地场景

移动端：E2B/E4B在Android手机、Raspberry Pi和NVIDIA Jetson Orin Nano上实现离线推理，功耗低、延迟近零，适合实时翻译、AR助手等场景。
边缘服务器：26B MoE在激活3.8B参数的情况下保持高吞吐，适用于IoT网关和企业内部搜索。
科研与企业：31B Dense在单块80GB NVIDIA H100上即可完整加载，支持大规模微调，已用于Bulgarian语言模型BgGPT和Yale的Cell2Sentence‑Scale癌症通路发现项目。

行业意义

Gemma 4的发布标志着高性能大模型从云端向本地、从专有向开放的关键转折。对中小企业、教育机构以及主权云用户而言，能够在有限算力下获得接近闭源模型的推理水平，降低了AI创新的门槛，也为国产芯片生态提供了高质量的基准模型。

“开放模型的生态需要兼顾安全与创新，Gemma 4在保持前沿性能的同时，提供了可审计的代码和模型权重，这对行业健康发展至关重要。”——Google DeepMind研发副总裁Clement Farabet

随着Gemma 4生态的逐步扩展，预计将在生成式AI、智能客服、自动化研发等多个领域催生新一轮应用爆发。

Google DeepMind推出Gemma 4，首个移动端友好、具备多模态与Agent功能的开源大模型