vlog_workflow

Vlog节目录制剪辑自动化流程，协调手写稿→PPT→口播稿→录制→剪辑→字幕的完整流程

theoneLee 0 Updated 5mo ago

Resources

GitHub

Install

npx skillscat add theonelee/theone-claude-skill/vlog-workflow

Install via the SkillsCat registry.

SKILL.md

Vlog Workflow Skill

本 Skill 协调 vlog 节目的完整制作流程。可以从任意步骤开始执行。

前置依赖

执行任何步骤前，先检查以下依赖：

# 1. Docker（speaches 语音识别服务需要）
docker --version

# 2. ffmpeg（视频剪辑和字幕烧录需要）
ffmpeg -version

# 3. python-pptx（PPT 生成需要）
pip show python-pptx || pip install python-pptx

工作目录约定

所有项目文件统一放在 ~/vlog_projects/{project_name}/ 下：

~/vlog_projects/{project_name}/
├── draft.md          # 用户手写稿
├── speech.md         # AI 生成的口播稿
├── slides.pptx       # AI 生成的 PPT
├── raw.mp4           # 用户录制的原始视频
├── transcript.json   # Whisper 语音识别结果
├── cut_plan.json     # 剪辑方案（保留区间列表）
├── edited.mp4        # 剪辑后的视频
├── subtitle.srt      # 字幕文件
└── final.mp4         # 最终带字幕的视频

完整流程

Step 1: 收集手写稿

询问用户本期 vlog 的主题/项目名称
创建工作目录：mkdir -p ~/vlog_projects/{project_name}
询问用户手写稿内容，保存为 draft.md

Step 2: 生成 PPT

调用 script_to_ppt 子 skill：

输入：draft.md
输出：slides.pptx
用户确认 PPT 内容后进入下一步

Step 3: 生成口播稿

调用 script_to_speech 子 skill：

输入：draft.md
输出：speech.md（含 PPT 页码对应关系）
用户确认口播稿后进入下一步

Step 4: 用户录制视频

告知用户使用口播稿配合 PPT 进行录制
向用户展示以下录制技巧：
- 🎯 说错后停 2-3 秒再重来：停顿产生静音区，AI 能精确识别"重来点"
- 🎯 重说时从整句开头重来：不要只重说错的几个字，整段替换拼接更自然
- 💡 可以拍桌子/打响指标记错误：音频尖峰帮助 AI 定位剪辑点
- 💡 章节切换时说一句"下一页"：帮助 AI 对齐内容和 PPT 页码
- 💡 保持身体位置一致：重说时不要大幅移动，避免画面跳跃
- 💡 开头结尾各多录 5 秒：预留剪辑缓冲空间
提示：录制时不必追求一遍过，说错/卡壳可以重来，后续 AI 会自动剪辑
等待用户提供录制好的视频文件，复制或移动到 raw.mp4

Step 5: 视频剪辑

调用 video_edit 子 skill：

输入：raw.mp4 + speech.md（口播稿作为参考）
流程：语音识别 → AI 标记剪辑点 → 用户确认 → 执行剪辑
输出：edited.mp4

Step 6: 字幕配置

调用 subtitle 子 skill：

输入：edited.mp4
流程：语音识别 → 生成 SRT → 可选烧录到视频
输出：subtitle.srt + final.mp4

启动 Whisper 语音识别服务

Step 5 和 Step 6 依赖 speaches（faster-whisper Docker 服务）。

首次执行时询问用户：你希望使用 CPU 模式（M1 Mac）还是 GPU 模式（AMD RX 7600）？

CPU 模式：在 M1 Mac 本地运行，速度较慢但无需额外配置
GPU 模式：通过 AMD RX 7600 + ROCm 加速，速度提升 3-5 倍，需要在装有显卡的机器上运行 Docker

CPU 模式（M1 Mac）

docker compose -f /path/to/vlog_workflow/docker-compose.yml --profile cpu up -d

GPU 模式（AMD RX 7600 / ROCm）

docker compose -f /path/to/vlog_workflow/docker-compose.yml --profile gpu up -d

服务启动后可通过 http://localhost:8000 访问 OpenAI 兼容 API。

Sub Skills

Skill	功能	入口
script_to_ppt	手写稿 → PPT	`script_to_ppt/SKILL.md`
script_to_speech	手写稿 → 口播稿	`script_to_speech/SKILL.md`
video_edit	视频剪辑	`video_edit/SKILL.md`
subtitle	字幕配置	`subtitle/SKILL.md`

重要提示

每个步骤都需要用户确认后再进行下一步
可以通过指定步骤编号从任意步骤开始（如"从 Step 5 开始"）
视频文件较大，确保磁盘空间充足
剪辑和字幕都依赖 speaches 服务，首次使用需要下载模型（约 3GB）

vlog_workflow

Resources

Install

Vlog Workflow Skill

前置依赖

工作目录约定

完整流程

Step 1: 收集手写稿

Step 2: 生成 PPT

Step 3: 生成口播稿

Step 4: 用户录制视频

Step 5: 视频剪辑

Step 6: 字幕配置

启动 Whisper 语音识别服务

CPU 模式（M1 Mac）

GPU 模式（AMD RX 7600 / ROCm）

Sub Skills

重要提示

Categories

Install

Recommended Skills