课程视频生产链路 · 技术要点

UMU AI 辅助视频生产管线技术拆解

这不是一个单条 AI 视频生成案例,而是我在真实课程视频生产中搭建的工作流:把脚本、课件、配音、数字人、字幕、时间线、渲染和质检拆成可复用、可调度、可审查的节点。

核心链路

01

Script / PPT / DOCX

从课程脚本、课件或文档进入流程,先确认内容结构、讲师信息、语言版本和交付规格。

02

MiniMax TTS / HeyGen

将文本转成可用于课程视频的语音节点,并衔接数字人口型视频,减少重复录制和基础对齐工作。

03

ASR & Subtitle QC

通过 ASR 生成字幕,再按语言、断句、长度、字体和烧录规范做基础检查。

04

Timeline JSON

把视频拆成可审查的时间线结构,明确素材、字幕、讲师画面、Deck 页面和包装组件的对应关系。

05

Remotion Render

用模板化渲染承接品牌包装、字幕、人名条、Logo 水印和课程画面布局。

06

VLM QC Report

对画面、字幕和脚本意图做自动化检查,输出可复核的问题报告,辅助人工复审和返修。

我的角色

  • 明确真实视频生产需求,并把制作流程拆成可执行节点。
  • 判断每个节点的输入、输出、失败情况和人工确认点。
  • 借助 Claude Code / Codex / Cursor 完成原型、控制台、渲染模板和质检报告的迭代。
  • 负责调试验收、流程联调和生产接入,判断结果是否符合实际交付标准。

四阶段运行时

Intake 解析脚本与视觉意图,Materialization 并发生产素材,Assembly 衔接 ASR 字幕,最后沉淀可复核的项目快照。

三套快照持久化

用 scene-sequence、artifact-manifest、timeline-project 分别记录媒体路径、资产清单和前端渲染依赖,降低返修时的信息丢失。

多语言字幕 QC

基于 Whisper / SRT / 规则配置处理中英日字幕差异,包括断句、时间轴偏移、日语敬体和助词高频错误。

可插拔质检框架

将 Visual、Audio、Subtitle、ScriptIntent 拆成可组合 Checker,并按内容类型选择 transitions、full frames 或 script-driven 审查深度。

时间线控制台

Web 控制台包含项目启动器、课程运行时工作台、时间线编辑器和运行历史,用非线编思维组织 AI 视频生产状态。

人工确认边界

将纯本地操作、等待确认操作、涉及费用或外部生成的操作分级处理,平衡自动化效率和人工监督。

运行时拆解

Intake

读取课程脚本和课件结构,识别讲师出镜、Deck、屏幕实操等视觉段落。

Materialization

并发处理 TTS、数字人、素材生成等外部任务;失败时保留节点信息,避免整条链路失控。

Assembly + ASR

组装音频、画面和字幕,处理 Whisper 识别、断句、时间轴对齐与多语言显示规范。

Snapshots

保存媒体路径、资产清单和时间线图谱,让前端预览、返修和质检都有共同依据。

关键产物

  • scene-sequence.json:记录媒体路径和片段顺序,支撑后续返修与复核。
  • artifact-manifest.json:整理素材清单、生成产物和版本线索。
  • timeline-project.json:作为前端预览、时间线编辑和渲染的共同依据。
  • VLM QC Report:把画面、字幕、脚本意图等检查结果沉淀为可复核报告。

从生产问题反推产品功能

生产问题
产品建议
生成结果随机,难以复用
参数 / Prompt / 参考图版本管理
某一段失败但整体可用
局部重试、失败片段重生成
多条视频需要同一风格
模板化风格包和镜头语言预设
生成后难以判断是否可交付
画面、字幕、音频、动作一致性的自动 QC
创作者需要批量试方向
批量任务、对比视图和结果打分