skill-evaluator
NewEvaluate any skill before installing. Run security gate, score trigger precision, execution quality, and cost efficiency. Get a yes/no recommendation. Use when users find a new skill and ask "这个技能值不值得装?" v3.1: 脚本计数精度+信息密度阈值+脚本完整性检查
Overview
技能评估器
评估一个技能是否值得安装。两步走:安全门禁 → 类型评分。
铁律
- 安全门禁不通过,不得评分。 直接否决。
- 得分 ≤ 50,建议"不安装"。 除非用户明确说"我知道、我接受"。
- 不确定技能类型,先问用户。 不替用户做假设。
流程
步骤 0:确定技能位置
用户没给路径 → 问文件路径或 .skill 文件位置。
步骤 1:安全门禁
使用 scripts/evaluate.sh --security <path> 自动扫描。如果 Bash 不可用(如 Claude.ai),逐项手动检查:
| # | 检查项 | 手动方法 |
|---|---|---|
| 1 | 脚本可读 | 打开 scripts/ 下所有文件看是否可读 |
| 2 | 网络外呼 | 全文搜索 curl/wget/fetch 等函数调用 |
| 3 | 凭证采集 | 搜索 api.key/token/secret/password |
| 4 | 远程代码 | 搜索 curl/wget 管道到 bash/sh |
| 5 | 安全绕过 | 搜索"自动批准/关掉权限" |
输出格式统一: ✅ 或 ❌ 逐项列出,任意 ❌ 则终止,输出"高风险"。
步骤 2:确定技能类型
问用户:
"这是 普通技能(日常用)还是 元技能(用来创建/评估其他技能的)?"
用户不确定 → 看描述和目录结构辅助判断。
步骤 3:评分
自动检查优先,主观项问用户。
每个维度的评分流程:
- 先运行自动化检查(脚本/行数/grep)
- 能确定的直接打分
- 需要主观判断的(如触发精确度),简洁问 1-2 个问题后打分
- 记录每个维度的得分和理由
普通技能 → 读 references/consumer-card.md(v3.0),5 维度 元技能 → 读 references/meta-skill-card.md(v3.0),6 维度
重要评分原则:
- 来源权重最高 — 官方/可信来源的技能,自动获得可信高分(来源可靠本身就是最大的质量信号)
- 价值 > 合规 — 不要求"铁律表/验证步骤/Good-Bad示例"等格式;只看实际产出质量
- 脚本为王 — 有真实可执行脚本的技能价值远高于纯描述技能(实证:有脚本平均高出 19 分)
- 精炼加分 — ≤150 行的精炼技能获得经济性附加分;短而精确优于长而全
- 密度决定经济分 — 超过 50% 泛化内容的长技能(>500行)应受到信息密度扣分
步骤 4:输出最终报告
═══════════════════════════════════════════
技能评估报告
═══════════════════════════════════════════
技能:xxx.skill
类型:普通技能
安全:✅ 通过
┌─ 维度 得分 理由
├ 触发精确度 20/25 描述清晰无负例
├ 执行-完整 12/15 指令有少量缺口
├ 执行-知识 9/12 scripts/ 提供自动化
├ 执行-可靠 6/8 无已知问题
├ 经济性 16/20 450行, 中密度
├ 可信度 8/12 社区来源+脚本完整
├ 理解成本 8/8 结构清晰有示例
└───────────────────────────
总分:79/100
评定:✅ 推荐安装
一句话:触发精准、有脚本支撑,值得试用。
同类对比:无现存同类如果用户提到同类对比,末尾追加:
同类对比:
┌ 此技能 79/100 优势:有脚本 劣势:无负例
├ 对比项A 82/100 优势:有benchmark 劣势:偏长
└ 对比项B 65/100 优势:免费 劣势:触发模糊
建议:选此技能,但如果需要 benchmarks 可考虑 A平台适配
Claude Code(完整能力):
- •使用
scripts/evaluate.sh --all全自动 - •可 Launch Agent 并行评分
Claude.ai(受限能力):
- •无 Bash 环境,无需运行 evaluate.sh
- •纯手动按评分卡逐项检查
- •用 Read 工具读文件,Grep 不能用时手动扫描关键词
无头/Headless(中等能力):
- •可通过 Bash 运行 evaluate.sh
- •结果需内联输出,无法启动浏览器
边界
应触发: "评估这个技能"、"值不值得装"、"帮我看看这个技能"、"新技能判断"
不触发: 纯概念讨论技能是什么、在创建/修改技能(走 skill-creator)、技术细节讨论
偷懒预判
| 借口 | 真相 |
|---|---|
| "这个技能看起来很小,不用走门禁了吧" | 最小的技能可能藏最大的恶意。门禁不可跳过。 |
| "这是我写的技能,不用评了吧" | 自写技能更可能有盲点。评分能帮你客观审视。 |
| "先装再说,有问题再卸" | 恶意技能可能在第一次触发时就窃取数据。"先评再装"。 |
| "我只看触发描述就知道它好不好" | 触发描述好不代表执行力和安全性好。走完整流程。 |
| "这个分数还不到50但我觉得有用" | 铁律2允许用户坚持。但你知道风险了。 |
| "太长了不想读评分卡" | 所以我才先做自动检查。关键问题 1-2 个就好。 |
卡住时
| 问题 | 做法 |
|---|---|
| 不确定类型 | 问用户 |
| 文件不存在 | 问路径 |
| 用户不想回答评分问题 | 按最佳判断打分,标注"未确认" |
| 脚本没有 Bash 环境 | 手动逐项检查 |
| 恶意技能有加密/压缩脚本 | 判断为 ❌,不需进一步分析 |
Install & Usage
mkdir -p .claude/skillsmkdir -p .claude/skills && curl -o .claude/skills/skill-evaluator.md https://raw.githubusercontent.com/huajielong/skill-evaluator/main/SKILL.md/skill-evaluatorFrequently Asked Questions
What is skill-evaluator?
Evaluate any skill before installing. Run security gate, score trigger precision, execution quality, and cost efficiency. Get a yes/no recommendation. Use when users find a new skill and ask "这个技能值不值得装?" v3.1: 脚本计数精度+信息密度阈值+脚本完整性检查
How to install skill-evaluator?
To install skill-evaluator, create the .claude/skills directory in your project, then run the curl command to download the skill file. Once installed, invoke it in Claude Code with /skill-evaluator.
What is skill-evaluator best for?
skill-evaluator is a community categorized under General. It is designed for: security. Created by huajielong.