折腾了两个月，写了个本地跑的 AI 短视频生成工具，聊聊踩的坑-李逍遥说说

这两个月业余时间在写一个本地运行的 AI 视频生成工具，从最初两天攒出来的丑陋原型，到现在能基本自动跑完整条流水线。过程里踩了不少坑，记录一下，也顺便求点反馈。

起因

今年 3 月看到同事在做一种很「拼装」的内容流程：用扣子生成播客语音、豆包生成图片，再手动丢进剪映拼字幕导出。内容和图都是 AI 出的，他只负责最后合成。我当时的第一反应不是「这能涨粉」，而是「这几步明明可以全自动，为什么还要人肉拼」。于是动了自己写一个的念头。

第一版（两天）

4 月底试了下新出的 DeepSeek V4 的 flash 模型，速度和价格都到了我能接受的程度，就趁着这股劲把脑子里的流程实现了一版。第一版很糙，但跑通了「输入一段文字 → 自动出成片」这条主线。

整条流水线现在大概是这样：

中间的字幕对齐、多角色音色分配、图片和台词的时间轴对应，是最磨人的几块。

踩过的坑（挑几个）

目前状态 / 还很不足的地方

现在能基本「点一下、等一会」跑完一条片子，但远谈不上完善：异常恢复、长文稿的稳定性、画面风格的可控性都还在改。我基本每天根据自己和试用者的反馈在迭代。另外目前只有 Windows 版，macOS 大概要往后排到下个月才能动。这个是软件当前形态：

想求点反馈

主要想问问做过类似东西的朋友：

如果想直接看看长什么样，我整理了文档和下载：https://avm.brightguo.com。能给点拍砖意见就更感激了。

折腾了两个月，写了个本地跑的 AI 短视频生成工具，聊聊踩的坑