原文链接:https://mp.weixin.qq.com/s/9efgd77KPoTJAOWC33ygag
本文为原文内容的精炼总结,旨在快速传递核心观点。
本地微调大模型入门:用自己的数据训练专属 AI
来源:人工智能与数据分析
微调到底是干嘛的
先说清楚一个概念:微调不是"往模型脑子里塞知识"。
很多人以为微调就是把公司文档喂给模型,让它记住。这是误解。微调改变的是模型的行为模式和表达风格,而不是它的知识库。
打个比方:预训练好的大模型像一个读完整个图书馆的通才,微调就是专门培训他做你们公司的客服——不是让他多背几本书,而是让他学会用你们的语气、按你们的流程说话。
那"塞知识"该用什么?答案是 RAG(检索增强生成)。RAG 是给模型外挂一个知识库,问到相关问题时实时检索答案。
RAG vs 微调:什么时候用哪个?
| 场景 | 方案 | 核心需求 |
|---|---|---|
| 产品FAQ问答、文档搜索、实时信息查询 | RAG | "知道什么" |
| 学公司说话方式、掌握特定任务流程、输出固定格式 | 微调 | "怎么说、怎么做" |
两者不冲突,很多实际场景是微调 + RAG 组合使用。
工具怎么选:两个主流方案
LLaMA-Factory:入门首选
目前社区最火的微调框架,ACL 2024 论文项目,GitHub 上支持 100+ 个大模型。
最大优势:有可视化 Web UI,不用写代码。
安装命令:
pip install llamafactory
llamafactory-cli webui打开浏览器,选模型、传数据、点开始,就这么简单。
显存要求(QLoRA 模式):
| 模型 | 显存 | 显卡级别 |
|---|---|---|
| Qwen3-4B | 约 6GB | GTX 1060 |
| Qwen3-8B | 约 12GB | RTX 3060 |
| Qwen3-14B | 约 16GB | RTX 4080 |
显存不够?支持直接在 Google Colab 免费版上训练。
Unsloth:Mac 用户和零代码党的福音
核心卖点:
- 100% 离线运行,Mac 和 Windows 都支持
- No-code 训练:直接上传 PDF、CSV、JSON,自动转成训练数据
- 训练速度比普通方式快 2 倍
- 导出 GGUF 格式,直接丢给 Ollama 用
建议:
- 有技术基础 → LLaMA-Factory(可控性更强)
- 纯运营背景、不想碰终端 → Unsloth(体验更丝滑)
最小可行路径:Qwen3-4B + QLoRA 微调实战
以 LLaMA-Factory + Qwen3-4B 为例,走一遍完整流程。
第一步:准备训练数据
格式:JSONL 文件,每行一条对话:
{"instruction": "客户问能不能退货", "input": "", "output": "您好,我们支持7天无理由退换。请您提供订单编号,我这边为您处理。"}
{"instruction": "客户投诉物流慢", "input": "", "output": "非常抱歉给您带来不好的体验。我已帮您催促物流,预计明天送达,届时请留意签收。"}关键提醒:数据质量 > 数据数量
1000 条精心标注的高质量对话,效果远好于 1 万条随手复制的噪音数据。建议先从 200-500 条开始。
第二步:启动训练
在 LLaMA-Factory 的 Web UI 里:
- 选择基础模型:Qwen3-4B
- 上传数据集
- 训练方式选 QLoRA(省显存的核心)
- epoch 设 1-3,先跑一轮看效果
本地显卡不够?用 Google Colab 免费版或阿里云 PAI-DSW。
第三步:导出 + 部署到 Ollama
训练完成后,导出为 GGUF 格式:
ollama create my-custom-model -f Modelfile
ollama run my-custom-model完整链路:
准备数据 → LLaMA-Factory 训练 → 导出 GGUF → Ollama 加载使用
注意:Ollama 是推理平台,不做训练。训练用 LLaMA-Factory 或 Unsloth,部署用 Ollama。
QLoRA 到底做了什么
很多人被"训练大模型"吓退了,觉得没有几万块显卡别想。
但 QLoRA 改变了游戏规则:
- 不动原始模型的大部分参数
- 只训练一小部分"适配层"
- 把模型量化到 4bit 省显存
效果:4B 模型只需要 6GB 显存,一张入门级显卡就能跑。
云端方案:
| 方案 | 费用 | 显存 |
|---|---|---|
| Google Colab 免费版 | 免费 | T4 约 12GB |
| 阿里云 PAI-DSW | 免费试用 | GPU 可选 |
什么场景值得微调
实测下来,这几个方向效果最明显:
- 企业客服:让 AI 学会公司标准话术和处理流程
- 垂直行业写作:法律合同、金融报告、医疗文书
- 个人品牌 AI:用你过去的文章训练,模仿你的写作风格
- 内部代码助手:针对公司技术栈和代码规范优化
三个新手最容易踩的坑
1. 把微调当知识库用
微调学的是"怎么说",不是"知道什么"。想让模型记住产品信息,用 RAG。想让它用公司口吻回答,用微调。
2. 一上来就追求完美
第一次训练效果不好很正常。微调是迭代过程:
训练 → 测试 → 调数据 → 再训练
3. 疯狂堆数据量
有人花两周爬了 10 万条数据来训练,效果还不如别人手工标注的 2000 条。
原因:噪音数据会让模型学到错误的模式。先保证质量,再考虑数量。
到底值不值得学
不是所有人都需要微调。
不需要微调的场景:
- 问答类的知识检索 → RAG 就够了
- 改改输出格式 → 调 Prompt 就够了
- 偶尔用用,没有固定场景 → 没必要
需要微调的场景:
- 需要模型持续以特定风格/流程工作
- 在垂直行业,通用模型总是"差那么点意思"
- 想在本地跑一个真正属于自己的专属模型
现在门槛已经低到:一台普通电脑 + 半天时间 + 几百条数据,就能跑通完整流程。
相关链接
- LLaMA-Factory:https://github.com/hiyouga/LLaMA-Factory
- Unsloth:https://github.com/unslothai/unsloth
- Ollama:https://ollama.ai