llama.cpp 官方预编译包来了！Windows 用户也能轻松跑大模型

来源：微信公众号【AI达人圈】
原文链接：https://mp.weixin.qq.com/s/f3QainW5HW4HEu5dbZgULA
版权归原作者所有，仅供学习分享

概述

给大家说一个好消息，等了很久的 llama.cpp 官方预编译包终于来了，Windows 本地跑 AI 的最后一条路，终于被填平了！

先说说为什么之前那么难。说实话，以前有人问我"Windows 怎么本地跑大模型"，我都替他们捏把汗。不是技术本身有多难，而是环境配置太搞心态了。

去 GitHub 克隆代码，CMake 编译满屏红字；装个 CUDA，版本和驱动死活对不上；好不容易跟着教程走，结果发现教程是给 Mac 写的……更别提什么 DLL 缺失、环境变量配错，每一个坑都能把人的热情按在地上摩擦。

在 Linux 下一行 apt install 搞定，在 Mac 上 Apple Silicon 的 Metal 支持稳如老狗。唯独 Windows 用户，仿佛成了后娘养的——N 卡要配 CUDA，A 卡要搞 ROCm，I 卡还要看 oneAPI 的脸色。

不过，这一切终于翻篇了。最近 llama.cpp 官方终于在 GitHub Release 页面放出了 Windows 预编译包。

以前我们的流程是： 装环境 → CMake 配置 → 选后端 → 编译 → 报错 → 查资料 → 重新编译……

现在的流程只有三步： 下载 → 解压 → 双击运行。

不用你再碰代码，也不用跟编译器死磕了。

你的电脑该下哪个包？

官方这次把主流硬件方案全包圆了，下载地址如下：https://github.com/ggml-org/llama.cpp/releases/tag/b9245

大家对号入座就行：

llama.cpp GitHub Release 下载页面

NVIDIA 显卡（RTX 30/40 系列）

直接下 CUDA 12.4 或 13.1 包。CUDA 依然是性能最优的解，配合 -ngl 999 把模型全塞进显存，速度起飞。

AMD 显卡（RX 系列）

建议选 Vulkan 包。虽然也有 HIP 后端，但 Vulkan 不用装额外 SDK，稳定省心。实测 RX 7900 XTX 跑 7B 模型能到 70+ tokens/s。

Intel 核显 / Arc 独显

选 Vulkan 或 SYCL 包。尤其是 Arc A770（16G 显存），跑大模型简直是千元级神卡，14B 模型全塞显存毫无压力。

纯 CPU 党

下 Windows x64 CPU 包。3B~7B 的小模型跑个 5-15 tokens/s，写文案做翻译完全够用。

Windows ARM 平板

选 Windows ARM64 CPU 包。

每个包都是独立互不干扰的，解压即用，你甚至可以在电脑里存几个不同后端的版本，对比着玩。

三步上手，有手就行

第一步：下载解压

去 llama.cpp 的 GitHub Release 页面把对应的压缩包下回来，解压到一个顺眼的目录，比如 D:\llama.cpp\。

第二步：备好模型

在目录里新建个 models 文件夹。去 Hugging Face 逛逛，找 GGUF 格式的模型下载。

新手推荐这几个：

Qwen2.5-7B-Instruct（约 4.5GB）—— 中文小王子，对话写作都不错
DeepSeek-Coder-V2-Lite（约 3GB）—— 写代码、改 Bug 利器
Gemma-3-12B（约 8GB）—— Google 出品，通用能力在线

第三步：启动

在解压目录打开命令行，输入：

llama-server.exe -m models\你的模型.gguf -ngl 999

看到控制台输出端口信息后，浏览器打开 http://127.0.0.1:8080，一个原生的聊天界面就出来了。

进阶玩法

让 AI 能"看图"

现在的 llama.cpp 早就不是纯文本工具了，多模态视觉模型也能跑。

比如你想让 AI 帮你翻译菜单、分析网页截图、或者 OCR 提取文字，可以试试 Qwen2.5-VL-7B。

需要下两个文件：主模型（约 4.7GB）和视觉投影文件 mmproj-BF16.gguf（约 1.3GB），放同一目录就行。

启动命令稍微加个参数：

llama-server.exe -m "models\Qwen2.5-VL-7B.gguf" --mmproj "models\mmproj-BF16.gguf" -ngl 999

懒人福音：多模型一键切换脚本

下了好几个模型，每次都要敲一长串命令确实烦。建一个文本文档，把下面这段代码粘进去，另存为 选择模型.bat（编码记得选 UTF-8）：

bat

@echo off
chcp 65001 >nul
cd /d D:\llama.cpp
echo 请选择模型：
echo 1. Gemma 31B
echo 2. Qwen VL 多模态
echo 3. DeepSeek
set /p choice=输入数字：
if "%choice%"=="1" llama-server.exe -m "models\gemma-4-31b-Q4_K_M.gguf" -ngl 999
if "%choice%"=="2" llama-server.exe -m "models\Qwen2.5-VL-7B-Instruct-Q4_K_M.gguf" --mmproj "models\mmproj-BF16.gguf" -ngl 999
if "%choice%"=="3" llama-server.exe -m "models\deepseek.gguf" -ngl 999
pause

以后双击这个 bat 文件，输入数字就能直接切换，省心到家。

隐藏菜单：无审查模型推荐

如果你搞本地 AI 是为了搞创意写作、角色扮演，或者不想被"对不起，我无法回答"恶心到，可以关注一下社区里的无审查版本：

Llama3-8B-DarkIdol —— 回复自然，不说教，不拒答，非常适合 RPG
Gemma-4-31B-jang-crack —— 越狱版 31B 大模型，MoE 架构，数学代码能力扎实，支持 128K 长上下文，直接把整个代码库喂进去都行

FAQ

问：我的显卡是 RTX 4060，该下哪个包？

答：选 CUDA 12.4 或 13.1 的包，性能最好。

问：下载模型太慢怎么办？

答：可以考虑使用国内镜像站，或者在魔搭社区（ModelScope）上搜索 GGUF 格式模型。

问：运行时报错"找不到 DLL"怎么办？

答：预编译包通常自带所需 DLL。如果仍然报错，尝试安装 Visual C++ Redistributable 运行时。

问：能不能同时跑多个模型？

答：理论上可以，但显存/内存有限。建议先跑一个模型测试性能再决定。

问：GGUF 格式是什么？

答：GGUF 是 llama.cpp 推荐的模型格式，全称 GGML Universal File，支持量化、多模态等特性，是目前本地跑模型最主流的选择。

写在最后

回看两三年前，本地跑大模型还得是极客的专属——得有顶级显卡，懂 Linux，还会徒手编译。

现在呢？千元显卡能跑，下载解压能用，中文模型、多模态甚至无审查版本应有尽有。最关键的是，数据全在本地，隐私拉满，不用网也能跑。

llama.cpp 这次更新，算是把 Windows 本地 AI 的最后一道门槛给彻底拆了。如果你之前因为折腾环境半途而废，现在真的可以再试一次了。

下载解压，双击运行，你的电脑，就是你的 AI。

参考资料

llama.cpp GitHub Releases：https://github.com/ggml-org/llama.cpp/releases
原文来源：微信公众号【AI达人圈】
原文链接：https://mp.weixin.qq.com/s/f3QainW5HW4HEu5dbZgULA

llama.cpp 官方预编译包来了！Windows 用户也能轻松跑大模型 ​

概述 ​

你的电脑该下哪个包？ ​

NVIDIA 显卡（RTX 30/40 系列） ​

AMD 显卡（RX 系列） ​

Intel 核显 / Arc 独显 ​

纯 CPU 党 ​

Windows ARM 平板 ​

三步上手，有手就行 ​

第一步：下载解压 ​

第二步：备好模型 ​

第三步：启动 ​

进阶玩法 ​

让 AI 能"看图" ​

懒人福音：多模型一键切换脚本 ​

隐藏菜单：无审查模型推荐 ​

FAQ ​

问：我的显卡是 RTX 4060，该下哪个包？ ​

问：下载模型太慢怎么办？ ​

问：运行时报错"找不到 DLL"怎么办？ ​

问：能不能同时跑多个模型？ ​

问：GGUF 格式是什么？ ​

写在最后 ​

参考资料 ​