12 Skill-Creator

Estimated reading: 2 minutes 41 views

12

CREATE

Skill-Creator

~12 分钟 · 评估驱动的技能开发框架

“不再凭感觉改技能——用数据说话,用评估驱动迭代。”

核心理念

Skill-Creator 从一个简单的创建指南,进化成了完整的技能开发框架。核心理念:评估驱动开发——写完技能不是终点,跑测试、量化对比、人工评审、迭代优化才是正经事。

技能地址:github.com/anthropics/skills/tree/main/skills/skill-creator

12.1

新版 vs 旧版:核心变化

2 min

维度旧版新版
定位简单的技能创建指南完整的技能开发框架
流程写 SKILL.md → init → validate → package6 步评估驱动循环
测试自动化 eval + 量化打分
对比with-skill vs baseline 盲测
评审手动试几次凭感觉浏览器端 eval-viewer
Description 优化自动化 train-test split 循环
迭代反馈 → 改进 → 重跑 → 循环

12.2

技能创建流程(6 步循环)

3 min

完整工作流

1. 明确意图 → 2. 写 SKILL.md 草稿 → 3. 创建测试用例
       ↑                                                    ↓
6. 优化 description ← 5. 迭代改进 ← 4. 运行 + 评估

  • Step 1:明确意图(Capture Intent)
    技能做什么?何时触发?输出格式?是否需要测试用例?
    主动询问边界情况、输入输出格式、依赖项
  • Step 2:写 SKILL.md
    frontmatter:name + description(触发机制的关键)
    body:指令、示例、输出格式
    可选:scripts/references/assets/ 目录
    description 要写得”有点激进”,鼓励触发而非欠触发
  • Step 3:创建测试用例
    写 2-3 个真实用户会说的 prompt,保存到 evals/evals.json
    先不写断言(assertions),让用户确认 prompt 是否合理
  • Step 4:运行 + 评估(核心创新)
    并行启动两组 subagent:
    · with-skill:带技能跑 prompt
    · baseline:不带技能(新建)或旧版技能(改进)跑同一 prompt
    然后:Grader agent 打分 → aggregate_benchmark.py 汇总统计(pass_rate、时间、tokens,含 mean ± stddev)→ Analyzer agent 分析模式 → generate_review.py 启动浏览器评审界面
  • Step 5:人工评审 + 迭代改进
    在 eval-viewer 中逐个查看输出、写反馈 → 反馈保存为 feedback.json
    Claude 读取反馈 → 改进技能 → 重新跑全部测试 → 新一轮评审
    循环直到满意
  • Step 6:Description 优化(自动化)
    专门针对”技能何时被触发”做优化:
    1. 生成 20 个 eval 查询(10 个应触发 + 10 个不应触发,含边界情况)
    2. 用户在 HTML 界面审核并编辑
    3. run_loop.py 自动循环:60/40 train-test split → 跑 3 次取平均 → Claude 提改进 → 最多 5 轮
    4. 选 test score 最高的 description(避免过拟合)

12.3

关键组件详解

3 min

3 个 Agent(agents/ 目录)

Agent角色说明
Grader评分员给每个 eval run 打分(pass/fail + 证据),量化技能效果
Analyzer分析师分析模式:哪些断言总是通过/失败、高方差 eval,找出改进方向
Comparator对比员盲测对比新旧版技能,不知道哪个是”新”哪个是”旧”,避免偏见

核心脚本(scripts/ 目录)

脚本功能
run_eval.py并行跑 with-skill / baseline 两组测试,调用 claude -p CLI
aggregate_benchmark.py汇总统计:pass_rate、时间、tokens(含 mean ± stddev)
generate_review.py生成浏览器端评审界面(eval-viewer)
run_loop.pyDescription 优化自动循环:train-test split → 跑 3 次取平均 → 最多 5 轮
init_skill.py初始化技能目录结构
quick_validate.py快速校验 SKILL.md 格式
package_skill.py打包技能准备发布

Eval Viewer(eval-viewer/ 目录)

浏览器端评审界面,两个 tab:

Outputs tab:逐个查看测试结果,写反馈,支持文本/图片内联预览

Benchmark tab:量化对比(pass rate、时间、tokens),含 per-eval 明细

12.4

对我们的实际价值

2 min

创建新技能时

以前:写完 SKILL.md → 手动试几次 → 凭感觉改

现在:写完 → 自动跑测试 → 量化对比有没有技能的差异 → 看评审界面 → 精确改进 → 循环

改进现有技能时

可以 A/B 对比旧版 vs 新版(盲测,Comparator agent)

量化看改进幅度(pass_rate delta),避免”改了但不确定是不是更好”

优化触发准确性

Description 优化循环是全自动

解决”技能存在但不触发”的问题(Claude 的 undertrigger 倾向

用 test split 防止过拟合,确保 description 泛化能力

12.5

使用限制

1 min

环境依赖

run_eval.py 和 run_loop.py 依赖 claude -p CLI,只能在 Claude Code 中用

盲测对比

Comparator agent 需要 subagent 支持,确保 Claude Code 版本足够新。

评审界面

eval-viewer 需要浏览器环境。无头环境(服务器/CI)可用 --static 导出 HTML。

我们的环境

macOS + Claude Code = 可完整使用所有功能,无限制。

留下回复

您的邮箱地址不会被公开。 必填项已用 * 标注

分享此文档

12 Skill-Creator

复制链接

目录