原文链接：https://mp.weixin.qq.com/s/9efgd77KPoTJAOWC33ygag
本文为原文内容的精炼总结，旨在快速传递核心观点。

本地微调大模型入门：用自己的数据训练专属 AI

来源：人工智能与数据分析

微调到底是干嘛的

先说清楚一个概念：微调不是"往模型脑子里塞知识"。

很多人以为微调就是把公司文档喂给模型，让它记住。这是误解。微调改变的是模型的行为模式和表达风格，而不是它的知识库。

打个比方：预训练好的大模型像一个读完整个图书馆的通才，微调就是专门培训他做你们公司的客服——不是让他多背几本书，而是让他学会用你们的语气、按你们的流程说话。

那"塞知识"该用什么？答案是 RAG（检索增强生成）。RAG 是给模型外挂一个知识库，问到相关问题时实时检索答案。

RAG vs 微调：什么时候用哪个？

场景	方案	核心需求
产品FAQ问答、文档搜索、实时信息查询	RAG	"知道什么"
学公司说话方式、掌握特定任务流程、输出固定格式	微调	"怎么说、怎么做"

两者不冲突，很多实际场景是微调 + RAG 组合使用。

工具怎么选：两个主流方案

LLaMA-Factory：入门首选

目前社区最火的微调框架，ACL 2024 论文项目，GitHub 上支持 100+ 个大模型。

最大优势：有可视化 Web UI，不用写代码。

安装命令：

bash

pip install llamafactory
llamafactory-cli webui

打开浏览器，选模型、传数据、点开始，就这么简单。

显存要求（QLoRA 模式）：

模型	显存	显卡级别
Qwen3-4B	约 6GB	GTX 1060
Qwen3-8B	约 12GB	RTX 3060
Qwen3-14B	约 16GB	RTX 4080

显存不够？支持直接在 Google Colab 免费版上训练。

Unsloth：Mac 用户和零代码党的福音

核心卖点：

100% 离线运行，Mac 和 Windows 都支持
No-code 训练：直接上传 PDF、CSV、JSON，自动转成训练数据
训练速度比普通方式快 2 倍
导出 GGUF 格式，直接丢给 Ollama 用

建议：

有技术基础 → LLaMA-Factory（可控性更强）
纯运营背景、不想碰终端 → Unsloth（体验更丝滑）

最小可行路径：Qwen3-4B + QLoRA 微调实战

以 LLaMA-Factory + Qwen3-4B 为例，走一遍完整流程。

第一步：准备训练数据

格式：JSONL 文件，每行一条对话：

json

{"instruction": "客户问能不能退货", "input": "", "output": "您好，我们支持7天无理由退换。请您提供订单编号，我这边为您处理。"}
{"instruction": "客户投诉物流慢", "input": "", "output": "非常抱歉给您带来不好的体验。我已帮您催促物流，预计明天送达，届时请留意签收。"}

关键提醒：数据质量 > 数据数量

1000 条精心标注的高质量对话，效果远好于 1 万条随手复制的噪音数据。建议先从 200-500 条开始。

第二步：启动训练

在 LLaMA-Factory 的 Web UI 里：

选择基础模型：Qwen3-4B
上传数据集
训练方式选 QLoRA（省显存的核心）
epoch 设 1-3，先跑一轮看效果

本地显卡不够？用 Google Colab 免费版或阿里云 PAI-DSW。

第三步：导出 + 部署到 Ollama

训练完成后，导出为 GGUF 格式：

bash

ollama create my-custom-model -f Modelfile
ollama run my-custom-model

完整链路：

准备数据 → LLaMA-Factory 训练 → 导出 GGUF → Ollama 加载使用

注意：Ollama 是推理平台，不做训练。训练用 LLaMA-Factory 或 Unsloth，部署用 Ollama。

QLoRA 到底做了什么

很多人被"训练大模型"吓退了，觉得没有几万块显卡别想。

但 QLoRA 改变了游戏规则：

不动原始模型的大部分参数
只训练一小部分"适配层"
把模型量化到 4bit 省显存

效果：4B 模型只需要 6GB 显存，一张入门级显卡就能跑。

云端方案：

方案	费用	显存
Google Colab 免费版	免费	T4 约 12GB
阿里云 PAI-DSW	免费试用	GPU 可选

什么场景值得微调

实测下来，这几个方向效果最明显：

企业客服：让 AI 学会公司标准话术和处理流程
垂直行业写作：法律合同、金融报告、医疗文书
个人品牌 AI：用你过去的文章训练，模仿你的写作风格
内部代码助手：针对公司技术栈和代码规范优化

三个新手最容易踩的坑

1. 把微调当知识库用

微调学的是"怎么说"，不是"知道什么"。想让模型记住产品信息，用 RAG。想让它用公司口吻回答，用微调。

2. 一上来就追求完美

第一次训练效果不好很正常。微调是迭代过程：

训练 → 测试 → 调数据 → 再训练

3. 疯狂堆数据量

有人花两周爬了 10 万条数据来训练，效果还不如别人手工标注的 2000 条。

原因：噪音数据会让模型学到错误的模式。先保证质量，再考虑数量。

到底值不值得学

不是所有人都需要微调。

不需要微调的场景：

问答类的知识检索 → RAG 就够了
改改输出格式 → 调 Prompt 就够了
偶尔用用，没有固定场景 → 没必要

需要微调的场景：

需要模型持续以特定风格/流程工作
在垂直行业，通用模型总是"差那么点意思"
想在本地跑一个真正属于自己的专属模型

现在门槛已经低到：一台普通电脑 + 半天时间 + 几百条数据，就能跑通完整流程。

本地微调大模型入门：用自己的数据训练专属 AI ​

微调到底是干嘛的 ​

RAG vs 微调：什么时候用哪个？ ​

工具怎么选：两个主流方案 ​

LLaMA-Factory：入门首选 ​

Unsloth：Mac 用户和零代码党的福音 ​

最小可行路径：Qwen3-4B + QLoRA 微调实战 ​

第一步：准备训练数据 ​

第二步：启动训练 ​

第三步：导出 + 部署到 Ollama ​

QLoRA 到底做了什么 ​

什么场景值得微调 ​

三个新手最容易踩的坑 ​

1. 把微调当知识库用 ​

2. 一上来就追求完美 ​

3. 疯狂堆数据量 ​

到底值不值得学 ​

相关链接 ​