谷歌最强开源大模型Gemma 4，支持多模态、离线运行

2026年4月2日凌晨，谷歌DeepMind CEO Demis Hassabis在X上发了四颗钻石emoji，几个小时后，谜底揭晓——Gemma 4全系列正式发布。

这次不是常规更新，而是开源大模型格局的彻底重写。31B Dense版本直接冲到Arena AI排行榜全球第三，用不到十分之一的参数量就能跟400亿参数的巨无霸掰手腕。更关键的是，谷歌这次彻底放下姿态，全系列采用Apache 2.0开源协议，没有任何商业限制。

Gemma 4 是谷歌推出的一款 开源本地大模型，主要用于支持多模态数据处理和离线运行。该模型在人工智能领域具有重要的突破，尤其是在处理多种数据形式（如文本、图像、视频和语音）时的能力。它能够提供一种本地运行的解决方案，无需依赖持续的网络连接，适用于各种智能化应用场景。

一、四款模型，覆盖全场景

Gemma 4不是单一模型，而是一个完整的模型家族，从2B到31B全场景覆盖：

• E2B（2.3B有效参数）：专为手机、树莓派等端侧设备设计，内存占用可压至1.5GB以下，完全离线运行
• E4B（4.5B有效参数）：端侧旗舰，支持多模态输入，AIME 2026数学测试达42.5%
• 26B MoE：混合专家架构，总参数260亿，推理时仅激活38亿参数，速度接近4B模型
• 31B Dense：旗舰版本，Arena AI排名全球第三，单张H100即可运行

二、小模型打出大牌面

Gemma 4最让人震惊的，不是它有多大，而是它有多小却能打多强。

在Arena AI开源排行榜上，31B Dense冲到全球第三，Elo评分1452。排在前面的GLM-5和Kimi K2.5，参数量分别是它的20倍和30倍。谷歌把这叫做"每参数智能"——用更少的参数，达到更高的性能。

数学推理方面，AIME 2026成绩从上一代的21.2%跃升至89.2%，提升幅度高达68个百分点。这一成绩已经接近甚至超越部分闭源商业模型。

三、Apache 2.0协议

如果说性能是惊喜，那许可证的变化才是真正的重磅炸弹。

此前Gemma前三代产品用的都是谷歌自定义的开源协议，不仅有诸多商用限制，谷歌还能单方面修改规则。这次，Gemma 4全系列采用Apache 2.0许可证，意味着：

• ✅ 可自由用于商业用途
• ✅ 可修改、分发、二次开发
• ✅ 专利授权明确，降低法律风险
• ✅ 与现有开源生态无缝兼容

Hugging Face联合创始人Clément Delangue评价："这是开源AI领域的一个重大里程碑。"

四、核心技术亮点

1. 多模态能力

Gemma 4全系支持图像和视频输入，E2B和E4B还额外支持原生音频输入，内置约3亿参数的音频编码器。这意味着开发者可以用Gemma 4构建真正的多模态AI应用。

2. Agent原生支持

Gemma 4原生支持函数调用（Function Calling）和结构化JSON输出，内置System Prompt支持，可作为Agent的核心大脑，自主规划多步骤任务、调用外部工具。

3. 思考模式

所有Gemma 4模型均支持可开关的思考模式（Thinking Mode）。开启后，模型会先输出内部推理过程，再给出最终答案，适合复杂问题求解。

4. 超长上下文

31B和26B版本支持256K的超长上下文窗口，在同参数级别开源模型中属于顶级配置，可处理长文档、代码库分析等复杂任务。

五、部署教程

方式一：Ollama（最简单）

安装ollama，进入 https://ollama.com/ 先下载ollama。


    
    
    
  # 安装Ollama（官网下载）
# 运行不同版本：

ollama run gemma4


ollama run gemma4:e2b    # 2B端侧版
ollama run gemma4:e4b    # 4B端侧版
ollama run gemma4:26b    # 26B MoE版
ollama run gemma4:31b    # 31B旗舰版

方式二：llama.cpp


    
    
    
  # macOS安装
brew install llama.cpp --HEAD

# 运行
llama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q4_K_M

方式三：Mac用户（MLX）


    
    
    
  # 安装
uv pip install -U mlx-vlm

# 运行（带TurboQuant优化）
uv run mlx_vlm.generate --model google/gemma-4-31b-it --kv-bits 3.5

硬件要求参考

• E2B/E4B：8GB内存即可，手机、树莓派都能跑
• 26B MoE：推荐16GB+显存，消费级GPU工作站
• 31B Dense：推荐24GB+显存，单张H100或RTX 4090

六、总结

Gemma 4标志着谷歌在开源AI领域的战略转向：从"提供替代品"到"争夺基础设施层"。Apache 2.0许可证、原生Agent支持、多模态覆盖的组合，使其成为2026年最值得关注的开源模型发布之一。

展开阅读全文

更新时间：2026-04-09

标签：科技离线最强模型参数版本上下文场景许可证协议领域方式

1 2 3 4 5