Skip to content

llama.cpp 官方预编译包来了!Windows 用户也能轻松跑大模型

来源:微信公众号【AI达人圈】
原文链接:https://mp.weixin.qq.com/s/f3QainW5HW4HEu5dbZgULA
版权归原作者所有,仅供学习分享

概述

给大家说一个好消息,等了很久的 llama.cpp 官方预编译包终于来了,Windows 本地跑 AI 的最后一条路,终于被填平了!

先说说为什么之前那么难。说实话,以前有人问我"Windows 怎么本地跑大模型",我都替他们捏把汗。不是技术本身有多难,而是环境配置太搞心态了。

去 GitHub 克隆代码,CMake 编译满屏红字;装个 CUDA,版本和驱动死活对不上;好不容易跟着教程走,结果发现教程是给 Mac 写的……更别提什么 DLL 缺失、环境变量配错,每一个坑都能把人的热情按在地上摩擦。

在 Linux 下一行 apt install 搞定,在 Mac 上 Apple Silicon 的 Metal 支持稳如老狗。唯独 Windows 用户,仿佛成了后娘养的——N 卡要配 CUDA,A 卡要搞 ROCm,I 卡还要看 oneAPI 的脸色。

不过,这一切终于翻篇了。最近 llama.cpp 官方终于在 GitHub Release 页面放出了 Windows 预编译包。

以前我们的流程是: 装环境 → CMake 配置 → 选后端 → 编译 → 报错 → 查资料 → 重新编译……

现在的流程只有三步: 下载 → 解压 → 双击运行。

不用你再碰代码,也不用跟编译器死磕了。

你的电脑该下哪个包?

官方这次把主流硬件方案全包圆了,下载地址如下:https://github.com/ggml-org/llama.cpp/releases/tag/b9245

大家对号入座就行:

llama.cpp GitHub Release 下载页面

NVIDIA 显卡(RTX 30/40 系列)

直接下 CUDA 12.4 或 13.1 包。CUDA 依然是性能最优的解,配合 -ngl 999 把模型全塞进显存,速度起飞。

AMD 显卡(RX 系列)

建议选 Vulkan 包。虽然也有 HIP 后端,但 Vulkan 不用装额外 SDK,稳定省心。实测 RX 7900 XTX 跑 7B 模型能到 70+ tokens/s。

Intel 核显 / Arc 独显

选 Vulkan 或 SYCL 包。尤其是 Arc A770(16G 显存),跑大模型简直是千元级神卡,14B 模型全塞显存毫无压力。

纯 CPU 党

下 Windows x64 CPU 包。3B~7B 的小模型跑个 5-15 tokens/s,写文案做翻译完全够用。

Windows ARM 平板

选 Windows ARM64 CPU 包。

每个包都是独立互不干扰的,解压即用,你甚至可以在电脑里存几个不同后端的版本,对比着玩。

三步上手,有手就行

第一步:下载解压

去 llama.cpp 的 GitHub Release 页面把对应的压缩包下回来,解压到一个顺眼的目录,比如 D:\llama.cpp\

第二步:备好模型

在目录里新建个 models 文件夹。去 Hugging Face 逛逛,找 GGUF 格式的模型下载。

新手推荐这几个:

  • Qwen2.5-7B-Instruct(约 4.5GB)—— 中文小王子,对话写作都不错
  • DeepSeek-Coder-V2-Lite(约 3GB)—— 写代码、改 Bug 利器
  • Gemma-3-12B(约 8GB)—— Google 出品,通用能力在线

第三步:启动

在解压目录打开命令行,输入:

llama-server.exe -m models\你的模型.gguf -ngl 999

看到控制台输出端口信息后,浏览器打开 http://127.0.0.1:8080,一个原生的聊天界面就出来了。

进阶玩法

让 AI 能"看图"

现在的 llama.cpp 早就不是纯文本工具了,多模态视觉模型也能跑。

比如你想让 AI 帮你翻译菜单、分析网页截图、或者 OCR 提取文字,可以试试 Qwen2.5-VL-7B。

需要下两个文件:主模型(约 4.7GB)和视觉投影文件 mmproj-BF16.gguf(约 1.3GB),放同一目录就行。

启动命令稍微加个参数:

llama-server.exe -m "models\Qwen2.5-VL-7B.gguf" --mmproj "models\mmproj-BF16.gguf" -ngl 999

懒人福音:多模型一键切换脚本

下了好几个模型,每次都要敲一长串命令确实烦。建一个文本文档,把下面这段代码粘进去,另存为 选择模型.bat(编码记得选 UTF-8):

bat
@echo off
chcp 65001 >nul
cd /d D:\llama.cpp
echo 请选择模型:
echo 1. Gemma 31B
echo 2. Qwen VL 多模态
echo 3. DeepSeek
set /p choice=输入数字:
if "%choice%"=="1" llama-server.exe -m "models\gemma-4-31b-Q4_K_M.gguf" -ngl 999
if "%choice%"=="2" llama-server.exe -m "models\Qwen2.5-VL-7B-Instruct-Q4_K_M.gguf" --mmproj "models\mmproj-BF16.gguf" -ngl 999
if "%choice%"=="3" llama-server.exe -m "models\deepseek.gguf" -ngl 999
pause

以后双击这个 bat 文件,输入数字就能直接切换,省心到家。

隐藏菜单:无审查模型推荐

如果你搞本地 AI 是为了搞创意写作、角色扮演,或者不想被"对不起,我无法回答"恶心到,可以关注一下社区里的无审查版本:

  • Llama3-8B-DarkIdol —— 回复自然,不说教,不拒答,非常适合 RPG
  • Gemma-4-31B-jang-crack —— 越狱版 31B 大模型,MoE 架构,数学代码能力扎实,支持 128K 长上下文,直接把整个代码库喂进去都行

FAQ

问:我的显卡是 RTX 4060,该下哪个包?

答:选 CUDA 12.4 或 13.1 的包,性能最好。

问:下载模型太慢怎么办?

答:可以考虑使用国内镜像站,或者在魔搭社区(ModelScope)上搜索 GGUF 格式模型。

问:运行时报错"找不到 DLL"怎么办?

答:预编译包通常自带所需 DLL。如果仍然报错,尝试安装 Visual C++ Redistributable 运行时。

问:能不能同时跑多个模型?

答:理论上可以,但显存/内存有限。建议先跑一个模型测试性能再决定。

问:GGUF 格式是什么?

答:GGUF 是 llama.cpp 推荐的模型格式,全称 GGML Universal File,支持量化、多模态等特性,是目前本地跑模型最主流的选择。

写在最后

回看两三年前,本地跑大模型还得是极客的专属——得有顶级显卡,懂 Linux,还会徒手编译。

现在呢?千元显卡能跑,下载解压能用,中文模型、多模态甚至无审查版本应有尽有。最关键的是,数据全在本地,隐私拉满,不用网也能跑。

llama.cpp 这次更新,算是把 Windows 本地 AI 的最后一道门槛给彻底拆了。如果你之前因为折腾环境半途而废,现在真的可以再试一次了。

下载解压,双击运行,你的电脑,就是你的 AI。

参考资料


版权声明:本文内容版权归原作者所有,AiTimes.net 仅做技术分享转载。