🔥 痛点:显存满了,却找不到是谁在用?
对于搞 AI 训练或做 GPU 运维的兄弟们来说,最头疼的莫过于:显存被莫名其妙占满,或者跑了个死循环任务,想停都停不掉。
通常我们得用 nvidia-smi 查 PID,再手动 Kill,还得担心手滑误删了别人的训练任务。
一句话推荐:
今天要推的 GPU Kill,就是一把运维界的“瑞士军刀”。它能一键跨平台管理(N卡/A卡/M芯片),甚至能结合 AI 帮你自动清理僵尸进程。
在 AI 基础设施管理场景中,GPU Kill 可以作为轻量级算力监控与资源调度工具:显存爆满、任务卡死、异常进程这种“日常事故”,它能用统一命令快速定位并处理。
它的野心很大,试图做一个“大一统”的管理接口。无论你是 Linux 服务器还是 Mac 开发机,命令完全一致。

这是最惊喜的功能。以前 Mac 用 Activity Monitor,Linux 用 nvidia-smi。现在,一个 gpukill 命令全搞定。无论是查看显存、温度还是功耗,体验完全一致。
很多时候 GPU 变慢是因为有“幽灵进程”。它内置了审计模式 (--audit),能扫描显卡上是否有疑似高负载计算的特征行为(比如实验室里偷偷跑的未授权任务),一键抓出资源刺客。
这个功能非常前卫。 它内置了 MCP (Model Context Protocol) Server。
这意味着你可以把它连接到 Claude Desktop。然后直接用自然语言说:“帮我看看 GPU 0 为什么卡住了,把占用最高的非系统进程清理掉。” AI 就会自动调用工具执行。这才是未来运维该有的样子。
| 工具 | 支持平台 | 核心能力 | 推荐指数 |
|---|---|---|---|
| GPU Kill | NVIDIA / AMD / Mac | 监控 + 清理 + AI 交互 | ⭐⭐⭐⭐⭐ |
| nvidia-smi | 仅 NVIDIA | 基础监控 / 状态查询 | ⭐⭐⭐ |
| nvtop | 多平台 | 可视化监控 (只看不杀) | ⭐⭐⭐⭐ |
🚀极速安装 (含安全提示):
虽然支持一键安装,但作为运维规范,建议先下载脚本审查内容,确认无误后再执行:
# macOS/Linux 一键安装
curl -fsSL https://gpukill.com/install | sh
# Windows (PowerShell)
irm https://gpukill.com/install-windows | iex
gpukill watch:像 top 一样实时监控 GPU。gpukill --list:列出所有显卡及当前状态。gpukill --audit --rogue:扫描异常占用和资源异常模式。⚠️ 避坑指南 (FAQ):
--kill --gpu X 威力很大,会清除该卡上所有进程。在多用户环境(如学校实验室),务必配合 --pid 参数精准点杀。