欢迎光临
我们一直在努力

折腾了两个月,写了个本地跑的 AI 短视频生成工具,聊聊踩的坑

这两个月业余时间在写一个本地运行的 AI 视频生成工具,从最初两天攒出来的丑陋原型,到现在能基本自动跑完整条流水线。过程里踩了不少坑,记录一下,也顺便求点反馈。

起因

今年 3 月看到同事在做一种很「拼装」的内容流程:用扣子生成播客语音、豆包生成图片,再手动丢进剪映拼字幕导出。内容和图都是 AI 出的,他只负责最后合成。我当时的第一反应不是「这能涨粉」,而是「这几步明明可以全自动,为什么还要人肉拼」。于是动了自己写一个的念头。

第一版(两天)

4 月底试了下新出的 DeepSeek V4 的 flash 模型,速度和价格都到了我能接受的程度,就趁着这股劲把脑子里的流程实现了一版。第一版很糙,但跑通了「输入一段文字 → 自动出成片」这条主线。

整条流水线现在大概是这样:

  1. 把一段几千字的文稿输入软件;
  2. 调 DeepSeek,按预设的频道设定生成对话脚本 + 配图提示词;
  3. 调豆包播客模型生成多角色对话语音;
  4. 调 Seedream 按提示词出图;
  5. 用 ffmpeg 把音频、图片、字幕合成 MP4。

中间的字幕对齐、多角色音色分配、图片和台词的时间轴对应,是最磨人的几块。

踩过的坑(挑几个)

  • 音字对齐:配音时长和字幕、画面切换怎么对齐,最早全靠估,效果很飘,后来才老老实实按音频时间轴去切。
  • ffmpeg 合成:滤镜链、分辨率、编码参数一堆隐性坑,子进程报错信息还经常被吞,调试体验很差。
  • 成本控制:一开始没注意 token 用量,跑几条就肉疼;现在一条 5 分钟左右的片子模型成本压到一两块。
  • 本地化:密钥、素材、产物我都坚持只存本地,不上云,这样自己用着也踏实,但也因此放弃了一些云端能做的优化。

目前状态 / 还很不足的地方

现在能基本「点一下、等一会」跑完一条片子,但远谈不上完善:异常恢复、长文稿的稳定性、画面风格的可控性都还在改。我基本每天根据自己和试用者的反馈在迭代。另外目前只有 Windows 版,macOS 大概要往后排到下个月才能动。这个是软件当前形态:

想求点反馈

主要想问问做过类似东西的朋友:

  • 音视频对齐这块有没有更省事的方案(除了硬切时间轴)?
  • ffmpeg 合成这种重子进程的场景,你们怎么做错误捕获和重试的?
  • 激活授权我现在用的是机器码 + 非对称密钥,有没有更轻量又不容易被破的思路?

如果想直接看看长什么样,我整理了文档和下载:https://avm.brightguo.com。能给点拍砖意见就更感激了。

赞(0)
未经允许不得转载:李逍遥说说 » 折腾了两个月,写了个本地跑的 AI 短视频生成工具,聊聊踩的坑

评论 抢沙发