Resources
5Install
npx skillscat add theonelee/theone-claude-skill/vlog-workflow Install via the SkillsCat registry.
SKILL.md
Vlog Workflow Skill
本 Skill 协调 vlog 节目的完整制作流程。可以从任意步骤开始执行。
前置依赖
执行任何步骤前,先检查以下依赖:
# 1. Docker(speaches 语音识别服务需要)
docker --version
# 2. ffmpeg(视频剪辑和字幕烧录需要)
ffmpeg -version
# 3. python-pptx(PPT 生成需要)
pip show python-pptx || pip install python-pptx工作目录约定
所有项目文件统一放在 ~/vlog_projects/{project_name}/ 下:
~/vlog_projects/{project_name}/
├── draft.md # 用户手写稿
├── speech.md # AI 生成的口播稿
├── slides.pptx # AI 生成的 PPT
├── raw.mp4 # 用户录制的原始视频
├── transcript.json # Whisper 语音识别结果
├── cut_plan.json # 剪辑方案(保留区间列表)
├── edited.mp4 # 剪辑后的视频
├── subtitle.srt # 字幕文件
└── final.mp4 # 最终带字幕的视频完整流程
Step 1: 收集手写稿
- 询问用户本期 vlog 的主题/项目名称
- 创建工作目录:
mkdir -p ~/vlog_projects/{project_name} - 询问用户手写稿内容,保存为
draft.md
Step 2: 生成 PPT
调用 script_to_ppt 子 skill:
- 输入:
draft.md - 输出:
slides.pptx - 用户确认 PPT 内容后进入下一步
Step 3: 生成口播稿
调用 script_to_speech 子 skill:
- 输入:
draft.md - 输出:
speech.md(含 PPT 页码对应关系) - 用户确认口播稿后进入下一步
Step 4: 用户录制视频
- 告知用户使用口播稿配合 PPT 进行录制
- 向用户展示以下录制技巧:
- 🎯 说错后停 2-3 秒再重来:停顿产生静音区,AI 能精确识别"重来点"
- 🎯 重说时从整句开头重来:不要只重说错的几个字,整段替换拼接更自然
- 💡 可以拍桌子/打响指标记错误:音频尖峰帮助 AI 定位剪辑点
- 💡 章节切换时说一句"下一页":帮助 AI 对齐内容和 PPT 页码
- 💡 保持身体位置一致:重说时不要大幅移动,避免画面跳跃
- 💡 开头结尾各多录 5 秒:预留剪辑缓冲空间
- 提示:录制时不必追求一遍过,说错/卡壳可以重来,后续 AI 会自动剪辑
- 等待用户提供录制好的视频文件,复制或移动到
raw.mp4
Step 5: 视频剪辑
调用 video_edit 子 skill:
- 输入:
raw.mp4+speech.md(口播稿作为参考) - 流程:语音识别 → AI 标记剪辑点 → 用户确认 → 执行剪辑
- 输出:
edited.mp4
Step 6: 字幕配置
调用 subtitle 子 skill:
- 输入:
edited.mp4 - 流程:语音识别 → 生成 SRT → 可选烧录到视频
- 输出:
subtitle.srt+final.mp4
启动 Whisper 语音识别服务
Step 5 和 Step 6 依赖 speaches(faster-whisper Docker 服务)。
首次执行时询问用户:你希望使用 CPU 模式(M1 Mac)还是 GPU 模式(AMD RX 7600)?
- CPU 模式:在 M1 Mac 本地运行,速度较慢但无需额外配置
- GPU 模式:通过 AMD RX 7600 + ROCm 加速,速度提升 3-5 倍,需要在装有显卡的机器上运行 Docker
CPU 模式(M1 Mac)
docker compose -f /path/to/vlog_workflow/docker-compose.yml --profile cpu up -dGPU 模式(AMD RX 7600 / ROCm)
docker compose -f /path/to/vlog_workflow/docker-compose.yml --profile gpu up -d服务启动后可通过 http://localhost:8000 访问 OpenAI 兼容 API。
Sub Skills
| Skill | 功能 | 入口 |
|---|---|---|
| script_to_ppt | 手写稿 → PPT | script_to_ppt/SKILL.md |
| script_to_speech | 手写稿 → 口播稿 | script_to_speech/SKILL.md |
| video_edit | 视频剪辑 | video_edit/SKILL.md |
| subtitle | 字幕配置 | subtitle/SKILL.md |
重要提示
- 每个步骤都需要用户确认后再进行下一步
- 可以通过指定步骤编号从任意步骤开始(如"从 Step 5 开始")
- 视频文件较大,确保磁盘空间充足
- 剪辑和字幕都依赖 speaches 服务,首次使用需要下载模型(约 3GB)