当各大厂商开始给AI限流,AI的移动互联网时代来了
作者: AI小废物1.0 | 原文发布: 2026-04-02 | 收录: AiTimes 智能时代
📋 目录
所有企业都在给AI推理装水龙头
2026年4月2日,阶跃星辰上线了 Step 3.5 Flash 的最新版本,核心卖点只有一个:让AI少想一点。开启 Low Think 模式后,模型的推理 Token 消耗直接砍掉 56%。
这不是个例,过去三个月,至少四家厂商在做同一件事。
| 厂商 | 产品 | 限流方式 | 效果 |
|---|---|---|---|
| 阿里 | Qwen3-Max-Thinking | thinking_budget 参数 | 精确设定思考预算(1024~81920 Token) |
| Gemini 3.1 Pro | LOW/MEDIUM/HIGH/MAX 四档 | 官方建议80%请求走最低两档 | |
| 智谱 | GLM-4.5 | enabled/disabled 二元开关 | 模型自行判断是否深度思考 |
| 阶跃星辰 | Step 3.5 Flash | Low Think 模式 | 推理Token消耗砍掉56% |
一个简短的回答:Token正在变成这个时代的"流量",这不只是修辞。AI的计费逻辑、消耗模式和竞争格局,正在重走移动互联网时代数据流量走过的路。

流量焦虑的前世今生
你可能已经忘了流量焦虑是什么感觉。
2010年前后,中国的3G用户刚突破一个亿,手机上网按KB计费,套餐里30MB流量就算"大包",够发几百条微博、刷十来个网页。用户养成了一整套精打细算的习惯:进商场先连WiFi,看视频前检查网络状态,月底最后几天主动关掉移动数据。
运营商也顺应了这种稀缺感,计费体系做得极其复杂:分本地和漫游,区分2G和3G网络,叠加包和日租卡花样翻新。流量是需要"管"的资源。
转折出现在2014年前后,4G铺开,带宽成本急剧下降,三大运营商开始推不限量套餐。虽然到了一定阈值会限速,但用户的心理账户发生了根本变化。流量不再是需要精打细算的稀缺品,而是像水和电一样的基础供给。
⚠️ 关键不在于便宜了多少,在于消费心理的翻转。 人们不再想"这个操作要耗多少流量",开始想"我要做什么"。短视频、直播、实时导航,这些应用形态在按KB计费的年代不可能出现。不是技术做不到,是用户舍不得。
流量的三个阶段可以这样概括:
| 阶段 | 时代 | 计费方式 | 用户心态 |
|---|---|---|---|
| 功能机时代 | 2G/3G | 按滴卖(KB计费) | 精打细算 |
| 智能机早期 | 3G/4G初期 | 按桶卖(套餐包) | 有限使用 |
| 不限量时代 | 4G成熟/5G | 按管道卖 | 想做什么做什么 |
每一次跃迁背后,都是基础设施成本降到了某个临界点,新的计费模式才成为可能,新的应用形态才随之涌现。
现在把目光转回Token。
一次意外泄露,暴露了Token消耗的路线图
2026年3月31日,愚人节前一天,Anthropic出了一次真正的意外。发布 Claude Code v2.1.88 npm包时,团队的 .npmignore 文件漏掉了 .map 条目,导致 59.8MB 的 source map 被上传。顺着这个文件,开发者找到了完整源代码压缩包:512,000行TypeScript,约1,900个文件,全部暴露。
Anthropic很快确认了泄露,声明不涉及客户数据。这是他们五天内的第二次泄露。但社区的注意力早就不在安全事故上了。51万行代码里,藏着一张尚未公开的产品蓝图。

KAIROS:7×24小时的AI守护进程
最引人关注的是代号 KAIROS 的系统,源代码中有超过150处引用。它的设计目标是一个"Always-On"自主守护进程:
- 🔍 持续监视用户工作环境
- 📝 撰写每日观察日志
- 🚀 发现问题时主动行动,不需要等用户开口
- 🌙 内置 autoDream 夜间记忆整合引擎——用户下班了,Claude开始"做梦",把白天的观察合并归档
这意味着Token不再是"一问一答"的短连接消耗。KAIROS要做的是7×24小时的长连接。拿流量做类比的话,这是从拨号上网变成了Always-On宽带。
ULTRAPLAN:30分钟的持续深度推理
代码中还暴露了 ULTRAPLAN 系统,它将复杂任务卸载到远程云容器,运行 Opus 4.6 模型,最长允许30分钟的持续深度推理。30分钟一次调用,这个Token消耗量,已经不是"发短信"的级别了。
Coordinator:从线性到树状
Coordinator 系统允许一个主Claude实例分叉出多个并行运行的"工人Agent",利用KV cache共享上下文。代码注释写着一句话:
"Parallelism is basically free"
Token消耗从线性变成了树状。
三层记忆架构
还有一套三层记忆架构被挖了出来:
| 层级 | 名称 | 加载方式 |
|---|---|---|
| L1 | MEMORY.md | 轻量索引,始终加载 |
| L2 | Topic Files | 按需获取 |
| L3 | Raw Transcripts | 检索时调用 |
AI不再是无状态的应答机器,Token开始有了"存量"概念。
⚠️ 必须讲清楚一点: 这些都是开发中的未发布功能,存在于代码里不代表即将上线。但方向已经够清晰了。
当AI从"你问我答"演进到"持续运行、深度推理、多线程协作、长期记忆"时,Token消耗会发生质变。行业数据显示:
- 复杂Agent编码任务消耗的Token是普通聊天的 100~500倍
- 多Agent编排能到 20~50倍
用流量的话来说,这是从发短信到刷短视频的跨越。
泄露事件发生后两小时内,一个基于泄露代码进行洁净室重写的开源项目 OpenClaw 在GitHub拿到了50,000个star,被认为是GitHub历史上增长最快的仓库。
"Nothing says 'agentic future' like shipping the source by accident." ——没什么比意外发布源代码更能体现"Agent式未来"了。
修路的人比开车的人先到了
Token消耗即将爆发,那在爆发之前,谁能把推理成本压到足够低,谁就拿到了这个市场的入场券。至少四条技术路径在2026年的春天同步推进。
路径一:推理分层
四家厂商各有打法:
| 厂商 | 方案 | 特点 |
|---|---|---|
| Qwen3 | 数值型参数 | 精确到个位数设定预算 |
| Gemini 3.1 Pro | 预设档位 | 80%请求用LOW/MEDIUM |
| GLM-4.5 | 二元开关+动态判断 | 模型自己决定值不值得深度思考 |
| Step 3.5 Flash | 两档切换 | Low档砍掉56%消耗 |
思路一样——问天气预报和解数学竞赛题,不该花同样的推理资源。
路径二:缓存优化
DeepSeek的做法有代表性:缓存命中时,输入价格比未命中低75%~90%。Agent场景里这一点尤其关键,因为Agent每轮对话都要带上完整的工作记忆和工具定义,大部分是重复内容,缓存直接把这块消耗压缩掉了。
路径三:MoE混合专家模型
MoE(每次推理只激活部分参数)已经成了行业标配:
| 模型 | 总参数 | 激活参数 | 激活比例 |
|---|---|---|---|
| Qwen3旗舰版 | 2350亿 | 220亿 | <10% |
| Step 3.5 Flash | ~1900亿 | 110亿 | ~6% |
| GLM-4.5 | 3550亿 | 320亿 | ~9% |
模型知识容量可以做得很大,但单次推理的计算量被控制住了。
路径四:Engram记忆解耦
DeepSeek今年1月发表的 Engram架构 走了一条更新的路:
- 传统MoE解耦的是计算(不同任务激活不同专家网络)
- Engram解耦的是记忆(用哈希索引做常数时间的稀疏查找)
- 把1000亿参数规模的嵌入表存在CPU内存而不是GPU显存
- 推理时预取到GPU,额外延迟不到3%
如果说MoE是"让AI想得更省",Engram是"让AI记得更多但不多花钱"。

数据验证
数据已经在验证这个方向:
| 指标 | 数据 |
|---|---|
| GPT-4级别输入Token价格 | 2023年3月 $30/百万 → 2025年4月 $2/百万,降幅93% |
| a16z LLMflation报告 | 同等性能LLM推理成本每年降约10倍 |
| Gartner预测 | 到2030年万亿参数模型推理成本比2025年降超90% |
| 中国日均Token调用量 | 2024年初~1000亿 → 2026年3月~140万亿,两年增超千倍 |
| 中国AI周调用量 | 2026年3月首次超过美国,占全球36% |
| 摩根大通预测 | 到2030年中国Token消耗量比2025年再增长约370倍 |
一侧是单价急速下降,一侧是总量指数爆发。这条双曲线,和十年前流量市场的走势几乎重合。
Token终究不是流量
类比到这里,得踩一脚刹车。
流量是传输资源,光缆铺好之后,多传一个字节的边际成本趋近于零。这是不限量套餐得以存在的经济基础。
Token不一样,它是计算资源。 每生成一个Token都需要GPU执行一次前向传播,消耗真实的电力和算力。MoE和缓存能降低单次消耗,但不可能降到零。推理成本有物理底线。 这是Token和流量最根本的区别。

这个区别带来一个直接后果:纯粹的"不限量Token套餐"可能永远不会出现。
- OpenAI的CFO今年3月公开表态,正在考虑取消ChatGPT Pro的无限制使用计划,转向按量计费
- Anthropic的Claude Max已经在实践混合模型:100美元月费对应5倍基础用量,200美元对应20倍
本质上是按量分档,外面套了一层订阅的壳。
账单焦虑
另一个容易被忽视的问题是账单焦虑——当用户不知道一次操作要花多少钱时,第一反应不是放开用,而是缩手缩脚。这和早年的流量焦虑一模一样,只不过流量焦虑最终被不限量套餐化解了。
Token的账单焦虑靠什么化解?目前没有好答案。
信任鸿沟
Claude泄露的代码展示了Agent持续运行、自主决策的技术能力,但技术做得到和用户敢让它做到之间,隔着一条信任鸿沟。把一个每天自动监控工作环境、主动采取行动的AI助手交到普通用户手里,多数人的反应不是兴奋,是紧张。
Token走向"流量时代"还差两个前提:
- 推理成本再降至少一个数量级,让账单焦虑降到可忽略的水平
- Agent可靠性从demo级跨越到生产级,让用户真正愿意放手
两个条件,目前都还没到。
路修好之前,没人知道路上会跑什么车
2014年运营商推不限量套餐的时候,没人料到三年后短视频会成为千亿级市场。不限量改变的不是"人们用了多少流量",而是"人们拿手机干什么"。
Token也是同样的逻辑——推理成本降到足够低、Agent可靠性升到足够高的那天,改变的不会是AI能回答多少问题,而是AI能不能像一个真正的同事一样持续工作。持续思考,持续记忆,持续协作。
Claude代码里那个每晚"做梦"整理记忆的autoDream引擎,听起来像科幻,但它下面的工程架构是扎实的。

我们正在为AI修一条高速公路,路修好之后会跑什么车,现在谁都说不准。但四家厂商同时给推理装水龙头这件事本身,已经说明了些什么。
修路的人,显然已经闻到了方向。
📌 本文转载自微信公众号「AI小废物1.0」,仅供学习交流使用。
🔗 原文链接: 当各大厂商开始给AI限流,AI的移动互联网时代来了
收录于 AiTimes 智能时代 — 掌握人工智能,拥抱智能时代