Skip to content

Qwen3.5-9B Opus V2 蒸馏版本地部署实测

作者: 寂寞的熊猫
发布时间: 2026-03-28
原文链接: https://mp.weixin.qq.com/s/GuqSJpbEbpHVCd88e6xtMQ


📖 目录

  1. 省流版结论
  2. Opus V2 蒸馏做了什么?
  3. [实测数据:跑满 262K 上下文](#03-实测数据跑满 262k 上下文)
  4. 接入 OpenClaw:9B 做本地龙虾
  5. 9B vs 27B:本地龙虾怎么选
  6. 写在最后

大家好,我是寂寞的熊猫。

之前我前后写了几篇:

如果我显存没那么大,只能用 9B,那么实际跑起来怎么样?

今天看看 Qwen3.5-9B opus V2 蒸馏版。


01. 省流版结论

  • opus V2 蒸馏的核心改进是"想得少但想得准"。推理链缩短 22%,HumanEval+ 正确率反而涨了 2.44 个百分点。

  • 跑满 262K 上下文,Q4_K_M 量化总共吃了约 10.9GB 显存。模型本身只有 5.2GB,大头是 KV cache。缩短上下文到 8K-16K,8GB 显卡就能跑。

  • 推理速度有两条线:thinking 模式约 50 tok/s,关掉 thinking 约 115 tok/s。对 OpenClaw 场景很重要——agentic 工作流里 thinking 有时候反而拖节奏。


02. Opus V2 蒸馏做了什么?

之前 Qwen3.5-27B 登顶 PinchBench,同时 Opus V2 蒸馏版发布,本地部署实测 已经详细讲过,这里简短说。

opus V2 蒸馏版核心变化:用 14,000+ 条 Claude Opus 风格推理数据训练,推理链更短,但正确率不降反升。

指标Qwen3.5-9B 基座9B V2 蒸馏版变化
HumanEval pass@181.71%82.32%+0.61pp
HumanEval+ pass@176.22%78.66%+2.44pp
平均推理链长度(字符)22841778-22.2%
推理效率(每万字正确解数)4.05.0+25.9%

打个比方:以前模型解题的时候,会在草稿纸上写满三页推导过程。现在只写两页,答案还更准了——不是偷懒,是真的想明白了。


03. 实测数据:跑满 262K 上下文

测试环境

  • 模型: Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF
  • 量化: Q4_K_M(文件 5.23 GiB,约 5.02 BPW)
  • 多模态权重: mmproj-BF16.gguf(878.99 MiB)
  • 推理引擎: llama-server(llama.cpp)
  • 上下文长度: 262,144(262K 全开)
  • 32 层全部卸载到 GPU
项目显存占用
模型本身~5,230 MiB
KV cache (262K)~4,352 MiB
mmproj~879 MiB
合计~10,901 MiB(约 10.6 GB)

模型本身只有 5.2GB。吃显存的大头是 KV cache——262K 上下文的 KV cache 占了 4.4GB。

这意味着上下文越短,显存需求越低。按比例估算:

目标上下文KV cache(估算)总显存(估算)能跑的显卡
8K~130 MiB~6.7 GBRTX 3060/4060 8GB
16K~260 MiB~6.8 GB8GB 显卡稳跑
32K~530 MiB~7.1 GB8-12GB 显卡
128K~2,100 MiB~8.7 GB12GB 显卡
262K4,352 MiB~10.9 GB16GB 显卡

(估算不含 mmproj;如果不需要多模态,可以省掉 879 MiB)

一句话:不需要 262K 那么长上下文的话,8GB 显卡完全能跑。

推理速度

实测的多轮对话的 token 速度记录:

纯文本对话:

场景Prompt 处理生成速度备注
长 prompt(4831 tokens)1,699 tok/s51.67 tok/sthinking 模式
中等 prompt(5388 tokens)1,680 tok/s50.14 tok/sthinking 模式
短 prompt(526 tokens)3,110 tok/s116.87 tok/s非 thinking
中等 prompt(1211 tokens)3,321 tok/s116.22 tok/s非 thinking
长 prompt(3892 tokens)3,544 tok/s113.54 tok/s非 thinking
短 prompt(280 tokens)2,865 tok/s116.43 tok/s非 thinking

多模态对话(含图像):

场景Prompt 处理生成速度备注
首次含图(4116 tokens)1,011 tok/s114.13 tok/s图像编码 3.9 秒
后续含图(965 tokens)1,805 tok/s115.66 tok/s图像编码 0.5 秒

生成速度有两个方面:

  • Thinking 模式:约 50 tok/s — 模型在"写草稿",生成大量推理 token
  • 非 Thinking 模式:约 113-116 tok/s — 直接输出,速度翻倍

这不是 bug,是 9B V2 的设计特点。如果你不需要看推理过程,关掉 thinking,速度直接翻一倍。

Prompt 处理也很亮眼:短 prompt 能到 3000+ tok/s。在 OpenClaw 里,工具调用的响应延迟不会成为瓶颈。

和 27B 对比

之前测 27B opus V2(Q8_0,24GB 显卡)的数据:

  • Prompt 处理:约 1,052 tok/s
  • 生成:约 30 tok/s

9B opus V2(Q4_K_M):

  • Prompt 处理:1,700-3,500 tok/s(快 2-3 倍
  • 生成:50-116 tok/s(快 1.7-3.9 倍

9B 的优势很清楚:牺牲一点推理质量,换来速度和资源的大幅改善。


04. 接入 OpenClaw:9B 做本地龙虾

测完了速度,关键问题是:9B V2 接到 OpenClaw 里实际体验怎么样?

llama-server 启动参数

实际测试用的启动命令(从日志里直接拉的):

bash
llama-server \
  -m Qwen3.5-9B.Q4_K_M.gguf \
  --mmproj mmproj-BF16.gguf \
  --batch-size 1024 --ubatch-size 512 \
  -c 262144 \
  --cache-type-k q8_0 \
  --cache-type-v q8_0 \
  -ngl 99 \
  -np 1 \
  --flash-attn on \
  --port 8197 --host 0.0.0.0 \
  --temp 1.0 --top-p 0.95 --top-k 20 \
  --cont-batching \
  -t 16 -tb 32

几个关键参数:

  • -c 262144:满上下文。大家根据自己资源调整。
  • --cache-type-k q8_0 --cache-type-v q8_0:这边是为了拉高上下文做了 KV 量化
  • -ngl 99:所有层卸载到 GPU
  • --flash-attn on:Flash Attention,加速注意力计算
  • --cont-batching:连续批处理,OpenClaw 多轮调用时有用

显卡 8-12GB 的,把 -c 改成 8192 就行,其他参数不用动。

不需要多模态的话,去掉 --mmproj 那一行,还能省 879 MiB 显存。

OpenClaw 配置

~/.openclaw/openclaw.json 里加本地 provider:

json
{
  "models": {
    "mode": "merge",
    "providers": {
      "llamacpp": {
        "baseUrl": "http://127.0.0.1:8197/v1",
        "apiKey": "no-key-required",
        "api": "openai-completions",
        "models": [
          {
            "id": "qwen35-opus-distilled-v2",
            "name": "Qwen3.5-9B",
            "reasoning": true,
            "input": ["text", "image"],
            "cost": {"input": 0, "output": 0},
            "contextWindow": 262144,
            "maxTokens": 8192
          }
        ]
      }
    }
  }
}

然后把 Agent 模型指向这个 provider 就行了。

实际使用体验

从日志看,OpenClaw 的 ReAct 循环(观察→推理→行动)在 9B V2 上跑得很流畅:

  • 单轮工具调用延迟在 1-3 秒
  • 思维标签解析正常,没出现 V1 的闭合失败问题
  • prompt cache 命中率高,同 session 后续请求几乎不需要重新处理

但有一个实际体验上的问题:thinking 模式在 agentic 工作流里有时候是多余的。

ReAct 循环本身就是"思考→行动→观察"了。再叠加一层推理链,等于在想之前先想一遍要不要想——效率上不划算。

建议:

  • 简单工具调用:关掉 thinking(--reasoning-budget 0),直接跑
  • 复杂推理(代码生成、规划):开启 thinking,让模型想清楚再输出

05. 9B vs 27B:本地龙虾怎么选

最后聊很多人关心的问题:9B 和 27B,在 OpenClaw 场景下怎么选?

不用参数表,用场景说话。

显卡决定起点

显卡推荐模型上下文体验
8GB(RTX 3060/4060)9B Q4_K_M8K-16K够用,工具调用流畅
12GB(RTX 3060 12GB)9B Q4_K_M32K-64K舒适,日常主力
16GB(RTX 4070 Ti/5060 Ti)9B Q8_0 或 27B Q48K-32K两个都能跑
24GB(RTX 3090/4090)27B Q8_016K-128K最佳体验

8GB 显卡,9B 是比较合适的选择。

一句话:资源有限时,9B opus V2 是本地龙虾的最佳入口。资源充足时,27B 是更全面的选择。


06. 写在最后

这篇文章的观点不是"9B 与 27B 的对比"——它们根本不是一个价位的选手。

我想说的是:对于大多数只有消费级显卡的人来说,9B V2 蒸馏版可能是目前本地龙虾最现实的起点。

从数据上看:

  • 50 tok/s 的 thinking 速度,9B 级别里已经很不错
  • 关掉 thinking 后 115 tok/s,日常使用没有"慢"的感觉
  • 5.2GB 的模型大小,8GB 显卡就能跑
  • 接 OpenClaw 的链路已经打通,实际体验流畅

当然,9B 也有局限:ToolCall 不如 27B,复杂推理不如 27B。如果你的显卡够大(24GB),27B 依然是更好的选择。

但如果你的显卡是 8GB 或 12GB——别等了,9B V2 已经够用了。


如果对 AI 个人提效,以及副业感兴趣,而不只是围观,也推荐加入 IDO 老徐 的知识星球:AI 落地实战 · DeepSeek · OpenClaw

里面会持续分享 OpenClaw 相关内容、AI 工作流搭建、商业化落地和各种实战避坑经验。


我是寂寞的熊猫,程序员,职场努力升职,业余时间探索副业,寻找第二曲线,聚焦 AI 绘画、AI 编程、智能体方向副业探索与变现。

Released under the MIT License.