UMU AI 辅助视频生产管线技术拆解
这不是一个单条 AI 视频生成案例,而是我在真实课程视频生产中搭建的工作流:把脚本、课件、配音、数字人、字幕、时间线、渲染和质检拆成可复用、可调度、可审查的节点。
核心链路
Script / PPT / DOCX
从课程脚本、课件或文档进入流程,先确认内容结构、讲师信息、语言版本和交付规格。
MiniMax TTS / HeyGen
将文本转成可用于课程视频的语音节点,并衔接数字人口型视频,减少重复录制和基础对齐工作。
ASR & Subtitle QC
通过 ASR 生成字幕,再按语言、断句、长度、字体和烧录规范做基础检查。
Timeline JSON
把视频拆成可审查的时间线结构,明确素材、字幕、讲师画面、Deck 页面和包装组件的对应关系。
Remotion Render
用模板化渲染承接品牌包装、字幕、人名条、Logo 水印和课程画面布局。
VLM QC Report
对画面、字幕和脚本意图做自动化检查,输出可复核的问题报告,辅助人工复审和返修。
我的角色
- 明确真实视频生产需求,并把制作流程拆成可执行节点。
- 判断每个节点的输入、输出、失败情况和人工确认点。
- 借助 Claude Code / Codex / Cursor 完成原型、控制台、渲染模板和质检报告的迭代。
- 负责调试验收、流程联调和生产接入,判断结果是否符合实际交付标准。
四阶段运行时
Intake 解析脚本与视觉意图,Materialization 并发生产素材,Assembly 衔接 ASR 字幕,最后沉淀可复核的项目快照。
三套快照持久化
用 scene-sequence、artifact-manifest、timeline-project 分别记录媒体路径、资产清单和前端渲染依赖,降低返修时的信息丢失。
多语言字幕 QC
基于 Whisper / SRT / 规则配置处理中英日字幕差异,包括断句、时间轴偏移、日语敬体和助词高频错误。
可插拔质检框架
将 Visual、Audio、Subtitle、ScriptIntent 拆成可组合 Checker,并按内容类型选择 transitions、full frames 或 script-driven 审查深度。
时间线控制台
Web 控制台包含项目启动器、课程运行时工作台、时间线编辑器和运行历史,用非线编思维组织 AI 视频生产状态。
人工确认边界
将纯本地操作、等待确认操作、涉及费用或外部生成的操作分级处理,平衡自动化效率和人工监督。
运行时拆解
Intake
读取课程脚本和课件结构,识别讲师出镜、Deck、屏幕实操等视觉段落。
Materialization
并发处理 TTS、数字人、素材生成等外部任务;失败时保留节点信息,避免整条链路失控。
Assembly + ASR
组装音频、画面和字幕,处理 Whisper 识别、断句、时间轴对齐与多语言显示规范。
Snapshots
保存媒体路径、资产清单和时间线图谱,让前端预览、返修和质检都有共同依据。
关键产物
- scene-sequence.json:记录媒体路径和片段顺序,支撑后续返修与复核。
- artifact-manifest.json:整理素材清单、生成产物和版本线索。
- timeline-project.json:作为前端预览、时间线编辑和渲染的共同依据。
- VLM QC Report:把画面、字幕、脚本意图等检查结果沉淀为可复核报告。