如果现在让我推荐一套最适合普通用户跑本地模型 + Agent 的方案,我会毫不犹豫地选择:Hermes + Qwen3.6。这套组合最大的优势就是——免费、好用、灵活,非常适合日常使用。

无论你是想让 AI 帮你处理自动化任务、辅助代码编写、中文理解还是逻辑推理,Qwen3.6 都已经能满足大多数人的日常需求。相比那些需要订阅或充值 Token 的在线 AI 服务,本地部署最大的好处就是:真正做到 Token 自由。
不用担心每次对话消耗额度,不用每月支付会员费。模型跑在自己电脑上,数据不上传第三方,隐私完全掌握在自己手里。而 Hermes Agent 的加入,则让整套方案更加实用。

部署完成后,你可以把它变成一个真正属于自己的 AI 助手:支持手机随时对话,支持开机自动启动,也可以长时间保持在线。无论是写代码、查资料、整理内容,还是执行自动化操作,它都是你电脑上的 24 小时 AI 助理。

简单来说:Hermes 负责 Agent 能力,Qwen3.6 负责大模型能力。两者结合,就能在本地打造一套免费、私有、可长期使用的 AI 工作流。对于想体验本地 AI、又不想被 Token 限制的朋友来说,这套方案非常值得一试。

接下来,我会从零开始带大家一步一步把 Hermes + Qwen3.6 部署到自己的电脑上。
以管理员身份打开 PowerShell,执行以下命令安装 WSL 并设置默认版本:
# PowerShell 管理员运行
wsl --install
wsl --set-default-version 2
重启电脑后,安装 Ubuntu 24.04:
wsl --install -d Ubuntu-24.04
安装完成后会弹出 Ubuntu 窗口,按提示设置用户名和密码(随意填写,记住即可)。
Ubuntu 登录成功后,验证 GPU 直通是否正常:
nvidia-smi

sudo apt update && sudo apt install -y python3-pip python3-venv
如果出现下方错误提示,说明显卡驱动版本过旧,需要先更新驱动。

前往 NVIDIA 官网 下载 Windows 最新驱动并安装,WSL2 会自动继承更新后的驱动。

考虑到很多用户显存有限,这里我们选用 llama.cpp 方案,比 vllm/DFlash 更稳定、更省显存。
sudo apt install -y cmake build-essential git
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)
如果出现 CUDA 相关错误,说明 CUDA Toolkit 未安装,在 WSL2 中需要单独安装:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install -y cuda-toolkit-12-8
下载包体约 2GB,耐心等待完成。安装后设置环境变量并重新编译:
export PATH=/usr/local/cuda-12.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH
echo 'export PATH=/usr/local/cuda-12.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
cd ~/llama.cpp
rm -rf build
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)
编译约需 5~10 分钟。编译成功后,下载模型:
hf download unsloth/Qwen3.6-27B-GGUF \
Qwen3.6-27B-UD-Q4_K_XL.gguf \
--local-dir ~/models/
⚠️ 文件约 17GB,下载较慢请耐心等待。如速度过慢,可切换 ModelScope 国内镜像。
显存不足 24G 的用户,建议选择 Qwen3.5 或更小尺寸的模型。

下载完成后,启动模型服务(注意将模型名称替换为你自己下载的文件名):
~/llama.cpp/build/bin/llama-server \
--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
--n-gpu-layers 99 \
--ctx-size 32768 \
--flash-attn on \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--presence-penalty 1.5 \
--port 8080
🎉 看到成功提示后,在 Windows 浏览器中访问 http://localhost:8080,就能看到内置聊天界面,直接和 Qwen3.6-27B 对话了。



默认会开启深度思考(Thinking)模式。如需关闭,先 Ctrl+C 停止服务,然后加上以下参数重新启动:
~/llama.cpp/build/bin/llama-server \
--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
--n-gpu-layers 99 \
--ctx-size 32768 \
--flash-attn on \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--presence-penalty 1.5 \
--chat-template-kwargs '{"enable_thinking":false}' \
--port 8080
| 模式 | 速度 | 适合场景 |
|---|---|---|
| 关闭 Thinking | 快 20~30% | 简单问答、写作、代码补全、代码解释 |
| 开启 Thinking | 较慢,推理质量更高 | 复杂编程、多步骤逻辑、需要深度思考的任务 |
保持 llama-server 在 8080 端口运行,新开一个 WSL2 终端窗口,执行以下命令安装 Hermes Agent:
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
安装程序会自动处理所有依赖(Python、Node.js、ripgrep、ffmpeg),只需要有 git 即可。
安装完成后,选择 Custom endpoint (enter URL manually),填入以下信息:
http://localhost:8080/v112345678
接下来按提示配置第三方聊天工具,例如 Telegram、微信、QQ、Discord 等。

配置完成后,你就可以在任何地方通过 Telegram(或其他平台)调用本地的 Hermes Agent,执行自动化任务、编写代码、撰写文章——它就是你 24 小时免费待命的 AI 助手!

最后,创建一个启动脚本,让 llama-server 在每次打开 WSL2 时自动运行,不再需要手动输入命令。
创建脚本文件:
cat > ~/start-llm.sh << 'EOF'
#!/bin/bash
echo "Starting Qwen3.6-27B llama-server..."
~/llama.cpp/build/bin/llama-server \
--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
--n-gpu-layers 99 \
--ctx-size 65536 \
--flash-attn on \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--presence-penalty 1.5 \
--port 8080 \
--host 0.0.0.0 &
echo "llama-server started, PID: $!"
echo "API: http://localhost:8080/v1"
echo "Chat UI: http://localhost:8080"
EOF
chmod +x ~/start-llm.sh
将自动启动逻辑写入 .bashrc:
echo '# Auto-start llama-server' >> ~/.bashrc
echo 'if ! pgrep -f "llama-server" > /dev/null 2>&1; then' >> ~/.bashrc
echo ' ~/start-llm.sh' >> ~/.bashrc
echo 'fi' >> ~/.bashrc
这样每次打开 WSL2 终端,如果 llama-server 未在运行就自动启动;已经在运行则跳过,不会重复启动。至此,整套本地 AI 助手已经全部部署完成 🎉