课程视频生产链路 · 技术要点

UMU AI 辅助视频生产管线技术拆解

这不是一个单条 AI 视频生成案例，而是我在真实课程视频生产中搭建的工作流：把脚本、课件、配音、数字人、字幕、时间线、渲染和质检拆成可复用、可调度、可审查的节点。

核心链路

Script / PPT / DOCX

从课程脚本、课件或文档进入流程，先确认内容结构、讲师信息、语言版本和交付规格。

MiniMax TTS / HeyGen

将文本转成可用于课程视频的语音节点，并衔接数字人口型视频，减少重复录制和基础对齐工作。

ASR & Subtitle QC

通过 ASR 生成字幕，再按语言、断句、长度、字体和烧录规范做基础检查。

Timeline JSON

把视频拆成可审查的时间线结构，明确素材、字幕、讲师画面、Deck 页面和包装组件的对应关系。

Remotion Render

用模板化渲染承接品牌包装、字幕、人名条、Logo 水印和课程画面布局。

VLM QC Report

对画面、字幕和脚本意图做自动化检查，输出可复核的问题报告，辅助人工复审和返修。

我的角色

明确真实视频生产需求，并把制作流程拆成可执行节点。
判断每个节点的输入、输出、失败情况和人工确认点。
借助 Claude Code / Codex / Cursor 完成原型、控制台、渲染模板和质检报告的迭代。
负责调试验收、流程联调和生产接入，判断结果是否符合实际交付标准。

四阶段运行时

Intake 解析脚本与视觉意图，Materialization 并发生产素材，Assembly 衔接 ASR 字幕，最后沉淀可复核的项目快照。

三套快照持久化

用 scene-sequence、artifact-manifest、timeline-project 分别记录媒体路径、资产清单和前端渲染依赖，降低返修时的信息丢失。

多语言字幕 QC

基于 Whisper / SRT / 规则配置处理中英日字幕差异，包括断句、时间轴偏移、日语敬体和助词高频错误。

可插拔质检框架

将 Visual、Audio、Subtitle、ScriptIntent 拆成可组合 Checker，并按内容类型选择 transitions、full frames 或 script-driven 审查深度。

时间线控制台

Web 控制台包含项目启动器、课程运行时工作台、时间线编辑器和运行历史，用非线编思维组织 AI 视频生产状态。

人工确认边界

将纯本地操作、等待确认操作、涉及费用或外部生成的操作分级处理，平衡自动化效率和人工监督。

运行时拆解

Intake

读取课程脚本和课件结构，识别讲师出镜、Deck、屏幕实操等视觉段落。

Materialization

并发处理 TTS、数字人、素材生成等外部任务；失败时保留节点信息，避免整条链路失控。

Assembly + ASR

组装音频、画面和字幕，处理 Whisper 识别、断句、时间轴对齐与多语言显示规范。

Snapshots

保存媒体路径、资产清单和时间线图谱，让前端预览、返修和质检都有共同依据。

关键产物

scene-sequence.json：记录媒体路径和片段顺序，支撑后续返修与复核。
artifact-manifest.json：整理素材清单、生成产物和版本线索。
timeline-project.json：作为前端预览、时间线编辑和渲染的共同依据。
VLM QC Report：把画面、字幕、脚本意图等检查结果沉淀为可复核报告。

从生产问题反推产品功能

生产问题

产品建议

生成结果随机，难以复用

参数 / Prompt / 参考图版本管理

某一段失败但整体可用

局部重试、失败片段重生成

多条视频需要同一风格

模板化风格包和镜头语言预设

生成后难以判断是否可交付

画面、字幕、音频、动作一致性的自动 QC

创作者需要批量试方向

批量任务、对比视图和结果打分