当各大厂商开始给AI限流，AI的移动互联网时代来了

作者： AI小废物1.0 | 原文发布： 2026-04-02 | 收录： AiTimes 智能时代

📋 目录

所有企业都在给AI推理装水龙头
流量焦虑的前世今生
一次意外泄露，暴露了Token消耗的路线图
修路的人比开车的人先到了
Token终究不是流量
路修好之前，没人知道路上会跑什么车

所有企业都在给AI推理装水龙头

2026年4月2日，阶跃星辰上线了 Step 3.5 Flash 的最新版本，核心卖点只有一个：让AI少想一点。开启 Low Think 模式后，模型的推理 Token 消耗直接砍掉 56%。

这不是个例，过去三个月，至少四家厂商在做同一件事。

厂商	产品	限流方式	效果
阿里	Qwen3-Max-Thinking	thinking_budget 参数	精确设定思考预算（1024~81920 Token）
Google	Gemini 3.1 Pro	LOW/MEDIUM/HIGH/MAX 四档	官方建议80%请求走最低两档
智谱	GLM-4.5	enabled/disabled 二元开关	模型自行判断是否深度思考
阶跃星辰	Step 3.5 Flash	Low Think 模式	推理Token消耗砍掉56%

一个简短的回答：Token正在变成这个时代的"流量"，这不只是修辞。AI的计费逻辑、消耗模式和竞争格局，正在重走移动互联网时代数据流量走过的路。

AI推理限流趋势

流量焦虑的前世今生

你可能已经忘了流量焦虑是什么感觉。

2010年前后，中国的3G用户刚突破一个亿，手机上网按KB计费，套餐里30MB流量就算"大包"，够发几百条微博、刷十来个网页。用户养成了一整套精打细算的习惯：进商场先连WiFi，看视频前检查网络状态，月底最后几天主动关掉移动数据。

运营商也顺应了这种稀缺感，计费体系做得极其复杂：分本地和漫游，区分2G和3G网络，叠加包和日租卡花样翻新。流量是需要"管"的资源。

转折出现在2014年前后，4G铺开，带宽成本急剧下降，三大运营商开始推不限量套餐。虽然到了一定阈值会限速，但用户的心理账户发生了根本变化。流量不再是需要精打细算的稀缺品，而是像水和电一样的基础供给。

⚠️ 关键不在于便宜了多少，在于消费心理的翻转。 人们不再想"这个操作要耗多少流量"，开始想"我要做什么"。短视频、直播、实时导航，这些应用形态在按KB计费的年代不可能出现。不是技术做不到，是用户舍不得。

流量的三个阶段可以这样概括：

阶段	时代	计费方式	用户心态
功能机时代	2G/3G	按滴卖（KB计费）	精打细算
智能机早期	3G/4G初期	按桶卖（套餐包）	有限使用
不限量时代	4G成熟/5G	按管道卖	想做什么做什么

每一次跃迁背后，都是基础设施成本降到了某个临界点，新的计费模式才成为可能，新的应用形态才随之涌现。

现在把目光转回Token。

一次意外泄露，暴露了Token消耗的路线图

2026年3月31日，愚人节前一天，Anthropic出了一次真正的意外。发布 Claude Code v2.1.88 npm包时，团队的 .npmignore 文件漏掉了 .map 条目，导致 59.8MB 的 source map 被上传。顺着这个文件，开发者找到了完整源代码压缩包：512,000行TypeScript，约1,900个文件，全部暴露。

Anthropic很快确认了泄露，声明不涉及客户数据。这是他们五天内的第二次泄露。但社区的注意力早就不在安全事故上了。51万行代码里，藏着一张尚未公开的产品蓝图。

Anthropic代码泄露事件

KAIROS：7×24小时的AI守护进程

最引人关注的是代号 KAIROS 的系统，源代码中有超过150处引用。它的设计目标是一个"Always-On"自主守护进程：

🔍 持续监视用户工作环境
📝 撰写每日观察日志
🚀 发现问题时主动行动，不需要等用户开口
🌙 内置 autoDream 夜间记忆整合引擎——用户下班了，Claude开始"做梦"，把白天的观察合并归档

这意味着Token不再是"一问一答"的短连接消耗。KAIROS要做的是7×24小时的长连接。拿流量做类比的话，这是从拨号上网变成了Always-On宽带。

ULTRAPLAN：30分钟的持续深度推理

代码中还暴露了 ULTRAPLAN 系统，它将复杂任务卸载到远程云容器，运行 Opus 4.6 模型，最长允许30分钟的持续深度推理。30分钟一次调用，这个Token消耗量，已经不是"发短信"的级别了。

Coordinator：从线性到树状

Coordinator 系统允许一个主Claude实例分叉出多个并行运行的"工人Agent"，利用KV cache共享上下文。代码注释写着一句话：

"Parallelism is basically free"

Token消耗从线性变成了树状。

三层记忆架构

还有一套三层记忆架构被挖了出来：

层级	名称	加载方式
L1	MEMORY.md	轻量索引，始终加载
L2	Topic Files	按需获取
L3	Raw Transcripts	检索时调用

AI不再是无状态的应答机器，Token开始有了"存量"概念。

⚠️ 必须讲清楚一点： 这些都是开发中的未发布功能，存在于代码里不代表即将上线。但方向已经够清晰了。

当AI从"你问我答"演进到"持续运行、深度推理、多线程协作、长期记忆"时，Token消耗会发生质变。行业数据显示：

复杂Agent编码任务消耗的Token是普通聊天的 100~500倍
多Agent编排能到 20~50倍

用流量的话来说，这是从发短信到刷短视频的跨越。

泄露事件发生后两小时内，一个基于泄露代码进行洁净室重写的开源项目 OpenClaw 在GitHub拿到了50,000个star，被认为是GitHub历史上增长最快的仓库。

"Nothing says 'agentic future' like shipping the source by accident." ——没什么比意外发布源代码更能体现"Agent式未来"了。

修路的人比开车的人先到了

Token消耗即将爆发，那在爆发之前，谁能把推理成本压到足够低，谁就拿到了这个市场的入场券。至少四条技术路径在2026年的春天同步推进。

路径一：推理分层

四家厂商各有打法：

厂商	方案	特点
Qwen3	数值型参数	精确到个位数设定预算
Gemini 3.1 Pro	预设档位	80%请求用LOW/MEDIUM
GLM-4.5	二元开关+动态判断	模型自己决定值不值得深度思考
Step 3.5 Flash	两档切换	Low档砍掉56%消耗

思路一样——问天气预报和解数学竞赛题，不该花同样的推理资源。

路径二：缓存优化

DeepSeek的做法有代表性：缓存命中时，输入价格比未命中低75%~90%。Agent场景里这一点尤其关键，因为Agent每轮对话都要带上完整的工作记忆和工具定义，大部分是重复内容，缓存直接把这块消耗压缩掉了。

路径三：MoE混合专家模型

MoE（每次推理只激活部分参数）已经成了行业标配：

模型	总参数	激活参数	激活比例
Qwen3旗舰版	2350亿	220亿	<10%
Step 3.5 Flash	~1900亿	110亿	~6%
GLM-4.5	3550亿	320亿	~9%

模型知识容量可以做得很大，但单次推理的计算量被控制住了。

路径四：Engram记忆解耦

DeepSeek今年1月发表的 Engram架构 走了一条更新的路：

传统MoE解耦的是计算（不同任务激活不同专家网络）
Engram解耦的是记忆（用哈希索引做常数时间的稀疏查找）
把1000亿参数规模的嵌入表存在CPU内存而不是GPU显存
推理时预取到GPU，额外延迟不到3%

如果说MoE是"让AI想得更省"，Engram是"让AI记得更多但不多花钱"。

推理成本下降趋势

数据验证

数据已经在验证这个方向：

指标	数据
GPT-4级别输入Token价格	2023年3月 $30/百万 → 2025年4月 $2/百万，降幅93%
a16z LLMflation报告	同等性能LLM推理成本每年降约10倍
Gartner预测	到2030年万亿参数模型推理成本比2025年降超90%
中国日均Token调用量	2024年初~1000亿 → 2026年3月~140万亿，两年增超千倍
中国AI周调用量	2026年3月首次超过美国，占全球36%
摩根大通预测	到2030年中国Token消耗量比2025年再增长约370倍

一侧是单价急速下降，一侧是总量指数爆发。这条双曲线，和十年前流量市场的走势几乎重合。

Token终究不是流量

类比到这里，得踩一脚刹车。

流量是传输资源，光缆铺好之后，多传一个字节的边际成本趋近于零。这是不限量套餐得以存在的经济基础。

Token不一样，它是计算资源。 每生成一个Token都需要GPU执行一次前向传播，消耗真实的电力和算力。MoE和缓存能降低单次消耗，但不可能降到零。推理成本有物理底线。 这是Token和流量最根本的区别。

Token与流量的本质区别

这个区别带来一个直接后果：纯粹的"不限量Token套餐"可能永远不会出现。

OpenAI的CFO今年3月公开表态，正在考虑取消ChatGPT Pro的无限制使用计划，转向按量计费
Anthropic的Claude Max已经在实践混合模型：100美元月费对应5倍基础用量，200美元对应20倍

本质上是按量分档，外面套了一层订阅的壳。

账单焦虑

另一个容易被忽视的问题是账单焦虑——当用户不知道一次操作要花多少钱时，第一反应不是放开用，而是缩手缩脚。这和早年的流量焦虑一模一样，只不过流量焦虑最终被不限量套餐化解了。

Token的账单焦虑靠什么化解？目前没有好答案。

信任鸿沟

Claude泄露的代码展示了Agent持续运行、自主决策的技术能力，但技术做得到和用户敢让它做到之间，隔着一条信任鸿沟。把一个每天自动监控工作环境、主动采取行动的AI助手交到普通用户手里，多数人的反应不是兴奋，是紧张。

Token走向"流量时代"还差两个前提：
推理成本再降至少一个数量级，让账单焦虑降到可忽略的水平
Agent可靠性从demo级跨越到生产级，让用户真正愿意放手
两个条件，目前都还没到。

路修好之前，没人知道路上会跑什么车

2014年运营商推不限量套餐的时候，没人料到三年后短视频会成为千亿级市场。不限量改变的不是"人们用了多少流量"，而是"人们拿手机干什么"。

Token也是同样的逻辑——推理成本降到足够低、Agent可靠性升到足够高的那天，改变的不会是AI能回答多少问题，而是AI能不能像一个真正的同事一样持续工作。持续思考，持续记忆，持续协作。

Claude代码里那个每晚"做梦"整理记忆的autoDream引擎，听起来像科幻，但它下面的工程架构是扎实的。

AI的未来：持续运行的智能体

我们正在为AI修一条高速公路，路修好之后会跑什么车，现在谁都说不准。但四家厂商同时给推理装水龙头这件事本身，已经说明了些什么。

修路的人，显然已经闻到了方向。

📌 本文转载自微信公众号「AI小废物1.0」，仅供学习交流使用。
🔗 原文链接： 当各大厂商开始给AI限流，AI的移动互联网时代来了

收录于 AiTimes 智能时代 — 掌握人工智能，拥抱智能时代

当各大厂商开始给AI限流，AI的移动互联网时代来了 ​

📋 目录 ​

所有企业都在给AI推理装水龙头 ​

流量焦虑的前世今生 ​

一次意外泄露，暴露了Token消耗的路线图 ​

KAIROS：7×24小时的AI守护进程 ​

ULTRAPLAN：30分钟的持续深度推理 ​

Coordinator：从线性到树状 ​

三层记忆架构 ​

修路的人比开车的人先到了 ​

路径一：推理分层 ​

路径二：缓存优化 ​

路径三：MoE混合专家模型 ​

路径四：Engram记忆解耦 ​

数据验证 ​

Token终究不是流量 ​

账单焦虑 ​

信任鸿沟 ​

路修好之前，没人知道路上会跑什么车 ​