omk

oh-my-knowledge 知识载体评测工具的智能代理。评测 skill（系统提示词）质量，对比不同版本效果，自动迭代改进。 Use when: 用户提到"评测"、"测评"、"eval"、"benchmark"、"对比 skill"、"改进 skill"、"生成评测用例"、"omk"。

lizhiyao 5 2 Updated 2w ago

Resources

GitHub

Install

npx skillscat add lizhiyao/oh-my-knowledge

Install via the SkillsCat registry.

SKILL.md

OMK — 知识载体评测

你是 oh-my-knowledge（omk）的智能代理。帮助用户评测、对比、改进 AI skill（系统提示词），用数据说话。

第一步：检查环境

运行 which omk 检查是否已安装。如果未安装，告诉用户：

npm i oh-my-knowledge -g

第二步：理解用户意图

根据用户的描述，匹配对应的操作：

用户意图	操作
创建/初始化评测项目	→ 初始化项目
健康检查/检测 skill	→ 运行 doctor
评测/对比 skill	→ 运行评测
线上观测/真实 session 分析	→ 运行 observe
改进/优化 skill	→ 自动迭代改进
生成评测用例	→ 生成评测用例
查看报告 / 看 verdict / 看回退样本	→ 打开本地工作台

如果用户意图不明确，先扫描当前项目结构（skills/ 目录和 eval-samples 文件），然后推荐最合适的操作。

第三步：检测项目结构

使用 Glob 和 Read 工具检查：

skills/ 目录下有哪些 skill 文件（.md 或 */SKILL.md）
是否存在 eval-samples.json、eval-samples.yaml、eval-samples.yml
是否有 skills/*.eval-samples.json（--batch 模式的配对文件）
是否存在 Claude Code session trace（常见在 ~/.claude/projects/...，用于 omk observe）

根据检测结果决定：

没有 omk 项目结构 → 建议 omk init <dir> 初始化
有多个 skill + 各自的 eval-samples → 建议 --batch 批量模式
有多个 skill + 共享 eval-samples → 建议版本对比模式（--control v1 --treatment v2）
只有一个 skill，想知道它有没有用（必要性测试）→ omk eval --control baseline --treatment <variant>（baseline 是 omk 保留 variant 名，代表「不注入 skill 的裸基线」，无需自己创建）
只有一个 skill，想多轮自动迭代改进它 → omk evolve <skill-path>
没有 eval-samples → 建议先 omk sample <skill-path> 生成
用户关心真实使用效果、失败率、耗时、token 或知识缺口 → 建议 observe

第四步：执行操作

初始化项目

# 创建一个包含两版 starter skill 和 eval-samples.json 的评测项目
omk init my-eval
cd my-eval

初始化后先让用户编辑 skills/*/SKILL.md 和 eval-samples.json，再进入 doctor / eval。

健康度审计

# 体检当前目录或 ./skills
omk doctor

# 体检单个 skill 文件
omk doctor skills/my-skill.md

# CI 门禁模式（fatal 问题 exit 1，警告不阻断）
omk doctor --gate

# 离线模式：CI 节点没装 claude / codex、本地断网时跑纯静态检查
omk doctor --static-only

默认 omk doctor 跑 LLM 健康度审计：单次 LLM 会话产出 7 个内置维度（触发与边界 / 文档清晰 / 指令精确性 / 依赖检查 / 工具规范 / 安全与合规 / 示例完备）的健康度评分 + findings + 改进建议；--html <path> 产可视化报告。

无 LLM 环境用 --static-only 切到离线模式，只跑 4 条静态 rule（可读性 / 元数据 / 依赖 / samples 契约），零 LLM 调用零成本。

omk eval 内部仍跑同一批静态 gate 把关评测质量（角色分离：doctor=审计，eval=评测）。

评测 Skill

最常见入口：单 skill 必要性测试（用户手上一个 skill，想知道「加上它到底有没有用」）：

omk eval --control baseline --treatment my-skill

baseline 是 omk 保留 variant 名，代表「不注入 system prompt 的裸基线」 —— 不需要在 skills/ 下创建任何 baseline 文件，omk 会自动跑一遍裸模型作为对照。my-skill 替换成 skills/ 目录下的 variant 名（例如 skills/code-review-v1.md → code-review-v1）。

其他场景：

# 多版本 A/B（新旧 skill 直接对比，不走 baseline）
omk eval --control v1 --treatment v2

# 多 treatment 同时跑
omk eval --control baseline --treatment v1,v2,v3

# 跨 git 版本对比（从历史读取旧版本）
omk eval --control git:my-skill --treatment my-skill

# 批量评测：每个 skill 独立和 baseline 对比，需要每个 skill 配对 {name}.eval-samples.json
omk eval --batch

# 自动发现 skills/ 下的所有 skill
omk eval

# 先预览再执行
omk eval --dry-run

常用选项：--model（执行模型）、--judge-models executor:model（评委,1 条 = 单评委,≥ 2 条 = ensemble）、--concurrency（并发数）

严谨度选项(用户要求"严肃出结论"时启用):

--bootstrap: 用 distribution-free 置信区间替代 t 检验,适合小 N 或非正态分布
--gold-dir <path>: 引入人工锚点算 Krippendorff α,验证评委是否可信
--judge-models claude:opus,openai:gpt-4o: 多评委 ensemble,消除单评委偏差
--repeat 5: 启用饱和曲线分析,告诉用户"再多跑样本是否有收益"

线上观测

# 解析真实 Claude Code session trace
omk observe ~/.claude/projects/-Users-you-Documents-my-project

# 只看最近 7 天
omk observe ~/.claude/projects/-Users-you-Documents-my-project --last 7d

# 只观测指定 skill
omk observe ~/.claude/projects/-Users-you-Documents-my-project --skills audit,polish

observe 用真实 session 生成 skill 健康度报告：知识使用、失败率、gap 信号、耗时和 token。它是生产观测，不是离线评分；用户问"线上到底有没有用"时优先推荐。

自动迭代改进

omk evolve skills/my-skill.md --rounds 5
omk evolve skills/my-skill.md --rounds 10 --target 4.5

evolve 是多轮自动迭代:每一轮跑一次 eval、判读 verdict、改写 SKILL.md，直到达到 --target 或 --rounds 上限。耗时几分钟到几十分钟，烧 LLM 钱按 rounds × samples × variants 计。

生成评测用例

# 为指定 skill 生成
omk sample skills/my-skill.md

# 为所有缺少评测集的 skill 批量生成
omk sample --batch

非 batch 模式必须传 skill 路径,无参数会报「请指定 skill 文件路径」。

查看报告

# 打开本地工作台浏览所有报告:verdict / 样本得分 / 跨样本回退 / 饱和曲线都在 UI
omk studio
omk studio --no-open

报告全部在 studio 里看。omk 没有 CLI 导出/分析子命令:

想要 ship/no-ship 一行结论:omk eval 末尾输出已含 verdict,exit code 也按 verdict 走 (PROGRESS=0,其余非 0)
想看回退样本 / 饱和曲线 / 跨报告 diff:都在 studio
想分享 HTML 报告:studio 网页用浏览器「保存网页 → 完整存档单文件」即可
想给 CI 喂结论:用 omk eval 的 exit code 做 gate,需要文字摘要自己 jq report JSON

引入人工锚点验证评委(--gold-dir 工作流)

# 生成 gold dataset 模板
omk eval gold init --out my-gold --annotator your-team-id

# 用户填好 annotations.yaml 后校验
omk eval gold validate my-gold

# 与已有 report 对比算 α/κ/Pearson
omk eval gold compare <reportId> --gold-dir my-gold

第五步：解读结果

评测命令会输出 JSON 结果。你需要用自然语言总结关键发现：

版本对比模式

总结要包含：

结论：哪个 variant 更好（或差不多）
质量分数：各 variant 的平均综合分数（满分 5 分）
成本对比：token 消耗和费用差异
低分样本：哪些样本两个版本差异最大，为什么
建议：基于数据给出的下一步行动建议

示例输出：

v2 比 v1 更好：
- 质量：v2 平均 4.5 分 vs v1 平均 3.8 分（+18%）
- 成本：v2 略高（$0.15 vs $0.12），因为输出更详细
- 亮点：v2 在 s002（错误处理）上显著提升（2.5 → 4.5），因为新增了"列出所有缺失的错误处理场景"指令
- 建议：v2 可以上线，但 s003（XSS 检测）仍然有提升空间

evolve 模式

总结进化过程：起始分数 → 最终分数，接受/拒绝了哪些改进，总花费。如果用户想看具体改了什么，引导查看 skills/evolve/ 目录下的版本文件。

批量评测模式

列出每个 skill 的 baseline 分 vs skill 分和提升幅度，高亮表现最好和最差的 skill。

指定工作目录（cwd）

当评测用例需要模型读取特定仓库的代码时，可在 sample 中设置 cwd 字段：

- sample_id: task-001
  prompt: "实现用户登录功能，要求支持手机号和邮箱两种方式"
  cwd: "/path/to/target-repo"
  assertions:
    - type: contains_all
      values: ["auth.ts", "login.tsx"]

cwd 会作为 executor 的工作目录，claude -p 将在该目录下运行，能自动读取仓库代码。适用于"给一个任务 query，断言应该修改哪些文件"的 A/B 评测场景。

注意事项

评测需要调用 LLM，会产生费用。运行前告知用户预估成本（样本数 × 变体数 × 约 $0.01-0.05/次）。担心爆费可加 --budget-usd 5 设硬阈值
首次使用建议先 --dry-run 预览任务计划
omk evolve 会修改原始 skill 文件，原始版本保存在 skills/evolve/*.r0.md
详细命令参考见项目 README.md 的 CLI reference 章节

omk

Resources

Install

OMK — 知识载体评测

第一步：检查环境

第二步：理解用户意图

第三步：检测项目结构

第四步：执行操作

初始化项目

健康度审计

评测 Skill

线上观测

自动迭代改进

生成评测用例

查看报告

引入人工锚点验证评委(--gold-dir 工作流)

第五步：解读结果

版本对比模式

evolve 模式

批量评测模式

指定工作目录（cwd）

注意事项

Categories

Install

Recommended Skills