Gemma 4本地跑了3天,说几个真话 🧪
📌 来源: Data+AI每日技术速递(数据虾农) | 转载说明: 本文经整理排版后发布,版权归原作者所有
4月2日凌晨,谷歌发了四颗钻石 emoji,然后 Gemma 4 炸出来了。当天各大测评文章就开始刷屏。
但我一向对跑分没什么感觉——数据好看,不等于用起来爽。所以我没急着写,花了三天时间实际跑了一下,今天说几个真话。
结论先放这:本地跑 AI 这件事,今天比一年前容易了很多。但门槛依然在,不是每个人都适合折腾。

PART 01:这次 Gemma 4 到底发了什么
谷歌这次一口气发了四个版本,从手机到工作站全覆盖:
| 版本 | 实际参数 | 推荐硬件 | 适合场景 |
|---|---|---|---|
| 31B Dense | 全量31B | A100 80G / 2×RTX4090 | 精细微调 |
| 26B MoE | 激活仅3.8B | RTX 3090 / 4090单卡 | ⭐ 推荐首选 |
| E4B | 4.5B有效 | Jetson / 树莓派 | 边缘设备 |
| E2B | 2.3B有效 | Android手机 | 离线端侧 |
我重点测的是 26B MoE——理由很简单:MoE 架构虽然总参数26B,但推理时只激活3.8B,显存需求和4B模型差不多,但跑出来的效果接近31B。这个效率比,真的有点不讲道理。
用 Ollama 一行命令拉下来,Q4_K_M 量化版本跑在 RTX 3090 上,显存占用约18GB,速度22-28 TPS,日常对话流畅,没有明显卡顿。
PART 02:跑了3天,说3个真话
🟢 真话一:代码能力真的够用了
我给它出了三道题:写一个 Python 数据清洗脚本、设计一个 Flink 流处理方案、解释 MoE 架构原理。
结果:前两题答案可以直接用,稍微改改就能跑。第三题原理讲得很清楚,用类比而不是堆术语。
官方数据也验证了这一点:31B 在 LiveCodeBench v6 上拿了 80%,Codeforces ELO 2150,AIME 2026 数学题达到 89.2%。
💡 AIME 2026 这个数字有多夸张: 上一代 Gemma 3 只有 20.8%,这代直接到 89.2%,涨了 4 倍多。不是渐进式提升,是跳跃。
🟡 真话二:中文回答比我预期好,但有个坑
Gemma 系列一直有个印象:英文好,中文一般。这次 Gemma 4 原生支持 140+ 种语言,官方也重点提了中文优化。
实测结果:中文流畅度明显提升,做技术问答、写文档摘要都没问题。但有一个坑——Prompt 格式必须按官方规范来,要用标准的模板标签,随意发消息容易出现奇怪的重复和幻觉。
Ollama 和 LM Studio 已经自动处理了这个问题,直接用工具跑没这个烦恼。但如果你想直接调 API,这个细节要注意。
🔴 真话三:和 Claude 的差距依然在,但变窄了
这是最多人想知道的。我做了同一套任务的对比:需求分析、代码生成、技术文档写作。
坦率说:Claude 在长文档理解和多轮推理上还是明显更强。Gemma 4 的弱项是:给的 context 越长,它越容易漂移,忘了前面说了什么。
但单次任务?短上下文对话?Gemma 4 已经追到了 Claude Sonnet 级别的体感,而且完全本地运行,零 API 费用,隐私数据不出机器。
🔧 原理说白了
为什么 MoE 版本推理速度那么快?
说白了就是:26B MoE 模型是"分工专家组"——26B参数分成了多个小专家,每次只叫3.8B出来干活,其他的在休息。干活的人少了,速度自然快。
而且实测这 3.8B 激活参数的质量很高,因为每个专家都被训练得很专精。在 RTX 3090 上,MoE 版本比 31B Dense 版本快 2.3 倍,但效果差距不到 5%。
PART 03:反直觉发现——架构没变,为什么性能飞了
这是我觉得 Gemma 4 最值得说的一个点。
AI 圈大神 Sebastian Raschka 拆解了 Gemma 4 的架构,结论是:架构几乎没变——还是 Pre/Post-norm + 混合注意力 + GQA,跟 Gemma 3 基本一样。
但性能直接翻倍。AIME 数学题从 20.8% → 89.2%,不是改架构搞的,大概率是训练数据和训练配方升级的结果。
💡 这意味着什么? 现在 AI 进步的核心变量,可能已经从"架构创新"转向了"数据质量和训练策略"。这对于大多数企业来说其实是好消息——不需要等架构革命,用好现有模型+优质数据,就能跑出很好的效果。
Gemma 4 vs Qwen3.5 对比
| 能力维度 | Gemma 4 31B | Qwen3.5 27B |
|---|---|---|
| 数学/代码基准 | ⚠️ 略低 | ✅ 更强 |
| 多语言理解 | ✅ 更强(140语言) | 中文优先 |
| 推理 Token 效率 | ✅ 更少 Token | 略多 |
| 开源协议 | ✅ Apache 2.0 | ⚠️ 自定义协议 |
| 人类偏好评分 | Arena AI 第3 | 差距不大 |
选哪个? 要商用无障碍、多语言场景强,选 Gemma 4;要数学/代码极致、中文更顺,选 Qwen3.5。两者都很强,没有绝对输赢。
PART 04:到底要不要折腾本地模型
这才是最想说的。
很多人看到 Gemma 4 发布,第一反应是:要不要换过去?其实这个问题背后有个更根本的问题:你为什么需要本地模型?
- 有代码/数据隐私需求 → 本地模型值得配 → Gemma 4 MoE 是目前最好的选择之一
- API 费用是主要痛点 → 算算账,本地显卡+电费 vs 每月 API 支出,算清楚再说
- 只是想玩一下,没有明确需求 → 先用 Google AI Studio 的免费 API 接口,零门槛测
⚠️ 实用建议: 如果你没有现成的GPU,现在不需要买。先用 Google AI Studio 的 Gemma 4 免费额度玩熟,等一个月后看社区测评沉淀——真实生产环境踩过的坑、优化过的配置,比发布当天的评测靠谱得多。
✅ 如果你要上,这是最省事的路径
- Mac 用户:MLX + TurboQuant,31B 在 128K 上下文下 KV 缓存只要 4.9GB(原来 13.3GB),M3 Max/M4 Pro 就够跑
- Linux/Windows GPU:Ollama 拉
gemma4:26b,Q4_K_M 量化,18GB 显存搞定 - 验证步骤别省:跑起来后先测你真实业务场景,别被基准跑分迷惑

本期结论
Gemma 4 是开源模型真正够用的一代,MoE 版本尤其划算。但值不值得折腾,取决于你有没有明确的本地运行需求,而不是因为跑分好看就搞。
Apache 2.0 协议升级是最低调却最重要的改变——这才是对企业开发者真正友好的信号。
📢 原文作者: 数据虾农(Data+AI每日技术速递) | 欢迎关注原作者公众号
📌 更多教程请访问: AiTimes 智能时代