魔塔+Ollama 搭建本地大模型给 OpenClaw 使用
📌 背景:OpenClaw 用量不足
自从用上 OpenClaw 框架后,AI 任务的效果和自动化能力都有明显提升。但 OpenClaw 对 token 消耗相对大,日常使用中很容易遇到商用模型的额度问题:
- Kimi、GLM、Minimax 等低价包月套餐,token 有限,高频使用很快见底
- 高阶套餐价格偏高,个人 / 小团队长期使用成本不低
刚好有一张 A40 显卡可以利用,于是我打算用魔塔(ModelScope)+ Ollama搭建一套国内可稳定使用、无限量调用的本地大模型,专门给 OpenClaw 使用。
⚙️ 魔塔+Ollama+OpenClaw 部署过程
1. 国内优先:用魔塔下载 Ollama
我先去的 ollama 官网:https://ollama.com,根据提示使用命令下载 ollama
curl -fsSL https://ollama.com/install.sh | sh发现下载中途卡住不动了,看 log 发现从 github 下载包卡住了,网络的问题。
查了一下资料,为保证国内环境顺畅下载,直接通过魔塔工具获取 Ollama:
# 使用命令行前,请确保已经通过 pip install modelscope 安装 ModelScope
modelscope download --model=modelscope/ollama-linux --local_dir ./ollama-linux --revision v0.17.3然后进行安装:
# 运行 ollama 安装脚本
cd ollama-linux
sudo chmod 777 ./ollama-modelscope-install.sh
./ollama-modelscope-install.sh想了解具体细节的,可以参考下面的链接:
https://www.modelscope.cn/models/modelscope/ollama-linux
过程中出现的 pkg_resources 为正常兼容提示,不影响使用。
2. 启动服务与加载模型
然后去选择模型:
看了一下模型和热度和 GPU 占用,选了 qwen3.5:35b
ollama run qwen3.5:35b启动 Ollama 服务后,加载 qwen3.5:35b 模型。
3. 配置 Ollama,支持内网服务
启动后只能本地使用,要想局域网使用,还得进行配置:
sudo vim /etc/systemd/system/ollama.service内容如下:
[Unit]
Description=Ollama Service
After=network.target
[Service]
Type=simple
User=root # 可改为你的用户名,比如 ubuntu
Group=root
# 核心:在这里配置所有环境变量
Environment="OLLAMA_HOST=0.0.0.0" # 局域网可访问
Environment="OLLAMA_KEEP_ALIVE=1h" # 保活 1 小时
Environment="OLLAMA_NUM_CTX=24576"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OLLAMA_NUM_PARALLEL=2"
Environment="NVIDIA_VISIBLE_DEVICES=all"
Environment="CUDA_VISIBLE_DEVICES=0"
# Ollama 启动命令
ExecStart=/usr/local/bin/ollama start
# 停止命令
ExecStop=/usr/local/bin/ollama stop
Restart=always
RestartSec=5
[Install]
WantedBy=multi-user.target可以用下面的脚本测试一下是否访问成功:
import requests
import json
url = "http://你的 ip:11434/api/generate"
data = {
"model": "qwen3.5:35b",
"prompt": "写首诗",
"stream": True
}
response = requests.post(url, json=data, stream=True)
for line in response.iter_lines():
if line:
res = json.loads(line)
if "response" in res:
print(res["response"], end="", flush=True) # 实时打印
if res.get("done"):
break4. OpenClaw 增加 Ollama 模型
修改 openclaw.json,可以参考手把手教你配置 OpenCode 自定义 Provider,下面单给出 ollama 部分配置内容:
"ollama": {
"baseUrl": "http://你的 ip:11434",
"apiKey": "ollama-local",
"api": "ollama",
"models": [
{
"id": "qwen3.5:35b",
"name": "Qwen3.5 35B",
"reasoning": false,
"input": ["text", "image"],
"cost": {
"input": 0,
"output": 0,
"cacheRead": 0,
"cacheWrite": 0
},
"contextWindow": 200000,
"maxTokens": 8192
}
]
}默认的模型设置为 "ollama/qwen3.5:35b" 这个就可以用了。
注: ollama 没配置 apiKey,写任意内容都可以。
📊 真实资源占用:不止吃 GPU,CPU 同样高压
从运行截图可以直观看到:
- GPU: 显存占用约 25GB,利用率高,是推理核心负载
- CPU: 多个推理进程占用极高,远超普通应用
大模型部署不只是显卡竞赛,CPU 资源同样至关重要,这也是很多人本地部署时容易忽略的点。
✅ 这套方案的实际价值
- 国内可稳定部署,全程魔塔,无外部网络问题
- 本地运行,无 token 限制,OpenClaw 可放心使用
- 数据在本地,隐私与安全性更高
- 有闲置显卡前提下,长期成本远低于商用套餐
如果你也有闲置 GPU,又受够了商用模型的额度限制,这套 OpenClaw + 魔塔 + Ollama 的组合,非常值得一试。