Auto-Subs：达芬奇工作流绝配，用本地显卡跑 Whisper 字幕

发布时间: 2026-02-03 分类: 共享资源/Free 热度: 7021

如果你平时主要在推特发视频，或者是习惯用达芬奇（DaVinci Resolve）剪辑的 Indie Hacker，在做字幕这件事上，估计都有过这种“想骂人”的时刻：

用剪映？ 识别是很准，但要把字幕无损同步回达芬奇，那流程繁琐得能劝退一半人。
用 Otter 或 Descript？ 体验确实好，但每个月动辄 $20 美元的订阅费，加上时长限制，对于我们这种高频创作者来说，这笔“SaaS 税”交得有点肉疼。

最近在 GitHub 挖到了一个很符合“极客精神”的开源项目：Auto-Subs。

它不是什么花里胡哨的新概念，就是简单粗暴地解决了一个问题：把那个大家都知道很准的 Whisper 模型，塞进你的达芬奇里，用你自己的显卡跑字幕。

简单说：不用云端 API 计费、不限时长、也不用担心隐私泄露。

试用了两周，我觉得它能替代市面上大部分收费工具。不是因为它“免费”，而是因为它的工作流（Workflow）真的很顺手：

这是我最看重的一点。市面上很多开源工具只能给你吐一个 SRT 文件，你还得手动拖进时间轴、费劲对齐，很断节奏。

Auto-Subs 是直接作为脚本插件嵌入到 DaVinci Resolve 内部的。你在剪辑软件里点一下“生成”，字幕就会自动出现在时间轴上，时间码卡得非常准。对于剪辑流来说，这才是真正的省时间。

Auto-Subs：达芬奇工作流绝配，用本地显卡跑 Whisper 字幕

有些访谈素材或者内部演示，其实并不适合上传到第三方云端服务器（毕竟谁也不知道这些数据会被怎么用）。

我自己就是那种：能本地跑的东西，尽量不传云端的人。

这个工具是完全离线 (On-Device) 运行的。从语音识别到字幕生成，所有数据都不出你的本地显卡。对于比较介意数据隐私的朋友，这是目前最稳妥的方案。

既然我们为了剪视频都买了不错的显卡，为什么还要去买云端的算力？只要你的显卡跑得动，想转多少小时都可以，这才是“一次性投入”的正确用法。

它的核心是 Whisper 模型，准确率大家心里都有数，基本是目前开源界的第一梯队。

部署逻辑其实很简单，不用怕全是代码：

直接去 GitHub 的 Releases 页面下对应的安装包（Windows / macOS / Linux）。开发者对 Mac 的 Apple Silicon (M1/M2) 芯片也做了优化，甚至比 PC 还快。

独立模式 (Standalone)： 如果你不用达芬奇，直接拖视频进去，它能吐出 SRT/VTT 文件。
达芬奇模式 (Resolve Mode)： （强烈推荐） 安装后，在 DaVinci Resolve 的 Workspace -> Scripts 菜单下就能找到它。选中时间轴上的音频，一键生成。

💡 硬件小建议：

因为是本地跑 AI 模型，建议你的电脑至少有一张 NVIDIA 显卡 (建议 4GB+ 显存)。首次运行建议选 “Small” 或 “Medium” 模型，这就够用了。”Large” 模型虽然最准，但对显存要求高，速度也会慢很多。

在 AI 时代，我们看过太多包装精美但核心只是套壳 API 的收费工具。Auto-Subs 是那种典型的“Indie Hacker 风格”产物——不玩虚的，直接解决问题。

如果你手头有硬件，完全没必要为基础的字幕识别持续付费。把这个工具加入你的工作流，既能省下订阅费，又能把数据的控制权拿回自己手里，哪怕你一个月只剪几条视频，用它都比交订阅费划算。

如果你对这个项目感兴趣，或者在使用过程中遇到问题，建议直接访问官方渠道获取最新版本和详细文档：