Gemma 4本地跑了3天，说几个真话 🧪

📌 来源： Data+AI每日技术速递（数据虾农） | 转载说明： 本文经整理排版后发布，版权归原作者所有

4月2日凌晨，谷歌发了四颗钻石 emoji，然后 Gemma 4 炸出来了。当天各大测评文章就开始刷屏。

但我一向对跑分没什么感觉——数据好看，不等于用起来爽。所以我没急着写，花了三天时间实际跑了一下，今天说几个真话。

结论先放这：本地跑 AI 这件事，今天比一年前容易了很多。但门槛依然在，不是每个人都适合折腾。

Gemma 4

PART 01：这次 Gemma 4 到底发了什么

谷歌这次一口气发了四个版本，从手机到工作站全覆盖：

版本	实际参数	推荐硬件	适合场景
31B Dense	全量31B	A100 80G / 2×RTX4090	精细微调
26B MoE	激活仅3.8B	RTX 3090 / 4090单卡	⭐ 推荐首选
E4B	4.5B有效	Jetson / 树莓派	边缘设备
E2B	2.3B有效	Android手机	离线端侧

我重点测的是 26B MoE——理由很简单：MoE 架构虽然总参数26B，但推理时只激活3.8B，显存需求和4B模型差不多，但跑出来的效果接近31B。这个效率比，真的有点不讲道理。

用 Ollama 一行命令拉下来，Q4_K_M 量化版本跑在 RTX 3090 上，显存占用约18GB，速度22-28 TPS，日常对话流畅，没有明显卡顿。

PART 02：跑了3天，说3个真话

🟢 真话一：代码能力真的够用了

我给它出了三道题：写一个 Python 数据清洗脚本、设计一个 Flink 流处理方案、解释 MoE 架构原理。

结果：前两题答案可以直接用，稍微改改就能跑。第三题原理讲得很清楚，用类比而不是堆术语。

官方数据也验证了这一点：31B 在 LiveCodeBench v6 上拿了 80%，Codeforces ELO 2150，AIME 2026 数学题达到 89.2%。

💡 AIME 2026 这个数字有多夸张： 上一代 Gemma 3 只有 20.8%，这代直接到 89.2%，涨了 4 倍多。不是渐进式提升，是跳跃。

🟡 真话二：中文回答比我预期好，但有个坑

Gemma 系列一直有个印象：英文好，中文一般。这次 Gemma 4 原生支持 140+ 种语言，官方也重点提了中文优化。

实测结果：中文流畅度明显提升，做技术问答、写文档摘要都没问题。但有一个坑——Prompt 格式必须按官方规范来，要用标准的模板标签，随意发消息容易出现奇怪的重复和幻觉。

Ollama 和 LM Studio 已经自动处理了这个问题，直接用工具跑没这个烦恼。但如果你想直接调 API，这个细节要注意。

🔴 真话三：和 Claude 的差距依然在，但变窄了

这是最多人想知道的。我做了同一套任务的对比：需求分析、代码生成、技术文档写作。

坦率说：Claude 在长文档理解和多轮推理上还是明显更强。Gemma 4 的弱项是：给的 context 越长，它越容易漂移，忘了前面说了什么。

但单次任务？短上下文对话？Gemma 4 已经追到了 Claude Sonnet 级别的体感，而且完全本地运行，零 API 费用，隐私数据不出机器。

🔧 原理说白了

为什么 MoE 版本推理速度那么快？

说白了就是：26B MoE 模型是"分工专家组"——26B参数分成了多个小专家，每次只叫3.8B出来干活，其他的在休息。干活的人少了，速度自然快。

而且实测这 3.8B 激活参数的质量很高，因为每个专家都被训练得很专精。在 RTX 3090 上，MoE 版本比 31B Dense 版本快 2.3 倍，但效果差距不到 5%。

PART 03：反直觉发现——架构没变，为什么性能飞了

这是我觉得 Gemma 4 最值得说的一个点。

AI 圈大神 Sebastian Raschka 拆解了 Gemma 4 的架构，结论是：架构几乎没变——还是 Pre/Post-norm + 混合注意力 + GQA，跟 Gemma 3 基本一样。

但性能直接翻倍。AIME 数学题从 20.8% → 89.2%，不是改架构搞的，大概率是训练数据和训练配方升级的结果。

💡 这意味着什么？ 现在 AI 进步的核心变量，可能已经从"架构创新"转向了"数据质量和训练策略"。这对于大多数企业来说其实是好消息——不需要等架构革命，用好现有模型+优质数据，就能跑出很好的效果。

Gemma 4 vs Qwen3.5 对比

能力维度	Gemma 4 31B	Qwen3.5 27B
数学/代码基准	⚠️ 略低	✅ 更强
多语言理解	✅ 更强（140语言）	中文优先
推理 Token 效率	✅ 更少 Token	略多
开源协议	✅ Apache 2.0	⚠️ 自定义协议
人类偏好评分	Arena AI 第3	差距不大

选哪个？ 要商用无障碍、多语言场景强，选 Gemma 4；要数学/代码极致、中文更顺，选 Qwen3.5。两者都很强，没有绝对输赢。

PART 04：到底要不要折腾本地模型

这才是最想说的。

很多人看到 Gemma 4 发布，第一反应是：要不要换过去？其实这个问题背后有个更根本的问题：你为什么需要本地模型？

有代码/数据隐私需求 → 本地模型值得配 → Gemma 4 MoE 是目前最好的选择之一
API 费用是主要痛点 → 算算账，本地显卡+电费 vs 每月 API 支出，算清楚再说
只是想玩一下，没有明确需求 → 先用 Google AI Studio 的免费 API 接口，零门槛测

⚠️ 实用建议： 如果你没有现成的GPU，现在不需要买。先用 Google AI Studio 的 Gemma 4 免费额度玩熟，等一个月后看社区测评沉淀——真实生产环境踩过的坑、优化过的配置，比发布当天的评测靠谱得多。

✅ 如果你要上，这是最省事的路径

Mac 用户：MLX + TurboQuant，31B 在 128K 上下文下 KV 缓存只要 4.9GB（原来 13.3GB），M3 Max/M4 Pro 就够跑
Linux/Windows GPU：Ollama 拉 gemma4:26b，Q4_K_M 量化，18GB 显存搞定
验证步骤别省：跑起来后先测你真实业务场景，别被基准跑分迷惑

实测数据

本期结论

Gemma 4 是开源模型真正够用的一代，MoE 版本尤其划算。但值不值得折腾，取决于你有没有明确的本地运行需求，而不是因为跑分好看就搞。

Apache 2.0 协议升级是最低调却最重要的改变——这才是对企业开发者真正友好的信号。

📢 原文作者： 数据虾农（Data+AI每日技术速递） | 欢迎关注原作者公众号
📌 更多教程请访问： AiTimes 智能时代

Gemma 4本地跑了3天，说几个真话 🧪 ​

PART 01：这次 Gemma 4 到底发了什么 ​

PART 02：跑了3天，说3个真话 ​

🟢 真话一：代码能力真的够用了 ​

🟡 真话二：中文回答比我预期好，但有个坑 ​

🔴 真话三：和 Claude 的差距依然在，但变窄了 ​

🔧 原理说白了 ​

PART 03：反直觉发现——架构没变，为什么性能飞了 ​

Gemma 4 vs Qwen3.5 对比 ​

PART 04：到底要不要折腾本地模型 ​

✅ 如果你要上，这是最省事的路径 ​

本期结论 ​