Skip to content

原文链接https://mp.weixin.qq.com/s/9efgd77KPoTJAOWC33ygag

本文为原文内容的精炼总结,旨在快速传递核心观点。

本地微调大模型入门:用自己的数据训练专属 AI

来源:人工智能与数据分析


微调到底是干嘛的

先说清楚一个概念:微调不是"往模型脑子里塞知识"

很多人以为微调就是把公司文档喂给模型,让它记住。这是误解。微调改变的是模型的行为模式和表达风格,而不是它的知识库。

打个比方:预训练好的大模型像一个读完整个图书馆的通才,微调就是专门培训他做你们公司的客服——不是让他多背几本书,而是让他学会用你们的语气、按你们的流程说话。

那"塞知识"该用什么?答案是 RAG(检索增强生成)。RAG 是给模型外挂一个知识库,问到相关问题时实时检索答案。


RAG vs 微调:什么时候用哪个?

场景方案核心需求
产品FAQ问答、文档搜索、实时信息查询RAG"知道什么"
学公司说话方式、掌握特定任务流程、输出固定格式微调"怎么说、怎么做"

两者不冲突,很多实际场景是微调 + RAG 组合使用


工具怎么选:两个主流方案

LLaMA-Factory:入门首选

目前社区最火的微调框架,ACL 2024 论文项目,GitHub 上支持 100+ 个大模型。

最大优势:有可视化 Web UI,不用写代码。

安装命令:

bash
pip install llamafactory
llamafactory-cli webui

打开浏览器,选模型、传数据、点开始,就这么简单。

显存要求(QLoRA 模式):

模型显存显卡级别
Qwen3-4B约 6GBGTX 1060
Qwen3-8B约 12GBRTX 3060
Qwen3-14B约 16GBRTX 4080

显存不够?支持直接在 Google Colab 免费版上训练。

Unsloth:Mac 用户和零代码党的福音

核心卖点:

  • 100% 离线运行,Mac 和 Windows 都支持
  • No-code 训练:直接上传 PDF、CSV、JSON,自动转成训练数据
  • 训练速度比普通方式快 2 倍
  • 导出 GGUF 格式,直接丢给 Ollama 用

建议:

  • 有技术基础 → LLaMA-Factory(可控性更强)
  • 纯运营背景、不想碰终端 → Unsloth(体验更丝滑)

最小可行路径:Qwen3-4B + QLoRA 微调实战

以 LLaMA-Factory + Qwen3-4B 为例,走一遍完整流程。

第一步:准备训练数据

格式:JSONL 文件,每行一条对话:

json
{"instruction": "客户问能不能退货", "input": "", "output": "您好,我们支持7天无理由退换。请您提供订单编号,我这边为您处理。"}
{"instruction": "客户投诉物流慢", "input": "", "output": "非常抱歉给您带来不好的体验。我已帮您催促物流,预计明天送达,届时请留意签收。"}

关键提醒:数据质量 > 数据数量

1000 条精心标注的高质量对话,效果远好于 1 万条随手复制的噪音数据。建议先从 200-500 条开始。

第二步:启动训练

在 LLaMA-Factory 的 Web UI 里:

  1. 选择基础模型:Qwen3-4B
  2. 上传数据集
  3. 训练方式选 QLoRA(省显存的核心)
  4. epoch 设 1-3,先跑一轮看效果

本地显卡不够?用 Google Colab 免费版或阿里云 PAI-DSW。

第三步:导出 + 部署到 Ollama

训练完成后,导出为 GGUF 格式:

bash
ollama create my-custom-model -f Modelfile
ollama run my-custom-model

完整链路:

准备数据 → LLaMA-Factory 训练 → 导出 GGUF → Ollama 加载使用

注意:Ollama 是推理平台,不做训练。训练用 LLaMA-Factory 或 Unsloth,部署用 Ollama。


QLoRA 到底做了什么

很多人被"训练大模型"吓退了,觉得没有几万块显卡别想。

但 QLoRA 改变了游戏规则:

  • 不动原始模型的大部分参数
  • 只训练一小部分"适配层"
  • 把模型量化到 4bit 省显存

效果:4B 模型只需要 6GB 显存,一张入门级显卡就能跑。

云端方案:

方案费用显存
Google Colab 免费版免费T4 约 12GB
阿里云 PAI-DSW免费试用GPU 可选

什么场景值得微调

实测下来,这几个方向效果最明显:

  • 企业客服:让 AI 学会公司标准话术和处理流程
  • 垂直行业写作:法律合同、金融报告、医疗文书
  • 个人品牌 AI:用你过去的文章训练,模仿你的写作风格
  • 内部代码助手:针对公司技术栈和代码规范优化

三个新手最容易踩的坑

1. 把微调当知识库用

微调学的是"怎么说",不是"知道什么"。想让模型记住产品信息,用 RAG。想让它用公司口吻回答,用微调。

2. 一上来就追求完美

第一次训练效果不好很正常。微调是迭代过程:

训练 → 测试 → 调数据 → 再训练

3. 疯狂堆数据量

有人花两周爬了 10 万条数据来训练,效果还不如别人手工标注的 2000 条。

原因:噪音数据会让模型学到错误的模式。先保证质量,再考虑数量。


到底值不值得学

不是所有人都需要微调。

不需要微调的场景

  • 问答类的知识检索 → RAG 就够了
  • 改改输出格式 → 调 Prompt 就够了
  • 偶尔用用,没有固定场景 → 没必要

需要微调的场景

  • 需要模型持续以特定风格/流程工作
  • 在垂直行业,通用模型总是"差那么点意思"
  • 想在本地跑一个真正属于自己的专属模型

现在门槛已经低到:一台普通电脑 + 半天时间 + 几百条数据,就能跑通完整流程。


相关链接

Released under the MIT License.