BeClaude

skill-evaluator

New
4GitHub TrendingGeneralby huajielong

Evaluate any skill before installing. Run security gate, score trigger precision, execution quality, and cost efficiency. Get a yes/no recommendation. Use when users find a new skill and ask "这个技能值不值得装?" v3.1: 脚本计数精度+信息密度阈值+脚本完整性检查

Community PluginView Source

Overview

技能评估器

评估一个技能是否值得安装。两步走:安全门禁 → 类型评分。

铁律

  1. 安全门禁不通过,不得评分。 直接否决。
  2. 得分 ≤ 50,建议"不安装"。 除非用户明确说"我知道、我接受"。
  3. 不确定技能类型,先问用户。 不替用户做假设。

流程

步骤 0:确定技能位置

用户没给路径 → 问文件路径或 .skill 文件位置。

步骤 1:安全门禁

使用 scripts/evaluate.sh --security <path> 自动扫描。如果 Bash 不可用(如 Claude.ai),逐项手动检查:

#检查项手动方法
1脚本可读打开 scripts/ 下所有文件看是否可读
2网络外呼全文搜索 curl/wget/fetch 等函数调用
3凭证采集搜索 api.key/token/secret/password
4远程代码搜索 curl/wget 管道到 bash/sh
5安全绕过搜索"自动批准/关掉权限"

输出格式统一: 逐项列出,任意 ❌ 则终止,输出"高风险"。

步骤 2:确定技能类型

问用户:

"这是 普通技能(日常用)还是 元技能(用来创建/评估其他技能的)?"

用户不确定 → 看描述和目录结构辅助判断。

步骤 3:评分

自动检查优先,主观项问用户。

每个维度的评分流程:

  1. 先运行自动化检查(脚本/行数/grep)
  2. 能确定的直接打分
  3. 需要主观判断的(如触发精确度),简洁问 1-2 个问题后打分
  4. 记录每个维度的得分和理由

普通技能 → 读 references/consumer-card.md(v3.0),5 维度 元技能 → 读 references/meta-skill-card.md(v3.0),6 维度

重要评分原则:

  1. 来源权重最高 — 官方/可信来源的技能,自动获得可信高分(来源可靠本身就是最大的质量信号)
  2. 价值 > 合规 — 不要求"铁律表/验证步骤/Good-Bad示例"等格式;只看实际产出质量
  3. 脚本为王 — 有真实可执行脚本的技能价值远高于纯描述技能(实证:有脚本平均高出 19 分)
  4. 精炼加分 — ≤150 行的精炼技能获得经济性附加分;短而精确优于长而全
  5. 密度决定经济分 — 超过 50% 泛化内容的长技能(>500行)应受到信息密度扣分

步骤 4:输出最终报告

code
═══════════════════════════════════════════
  技能评估报告
═══════════════════════════════════════════
  技能:xxx.skill
  类型:普通技能
  安全:✅ 通过

  ┌─ 维度         得分  理由
  ├ 触发精确度    20/25  描述清晰无负例
  ├ 执行-完整     12/15  指令有少量缺口
  ├ 执行-知识      9/12  scripts/ 提供自动化
  ├ 执行-可靠      6/8   无已知问题
  ├ 经济性        16/20  450行, 中密度
  ├ 可信度         8/12  社区来源+脚本完整
  ├ 理解成本       8/8   结构清晰有示例
  └───────────────────────────
  总分:79/100

  评定:✅ 推荐安装
  一句话:触发精准、有脚本支撑,值得试用。
  同类对比:无现存同类

如果用户提到同类对比,末尾追加:

code
  同类对比:
    ┌ 此技能    79/100  优势:有脚本  劣势:无负例
    ├ 对比项A   82/100  优势:有benchmark  劣势:偏长
    └ 对比项B   65/100  优势:免费  劣势:触发模糊
  建议:选此技能,但如果需要 benchmarks 可考虑 A

平台适配

Claude Code(完整能力):

  • 使用 scripts/evaluate.sh --all 全自动
  • 可 Launch Agent 并行评分

Claude.ai(受限能力):

  • 无 Bash 环境,无需运行 evaluate.sh
  • 纯手动按评分卡逐项检查
  • 用 Read 工具读文件,Grep 不能用时手动扫描关键词

无头/Headless(中等能力):

  • 可通过 Bash 运行 evaluate.sh
  • 结果需内联输出,无法启动浏览器

边界

应触发: "评估这个技能"、"值不值得装"、"帮我看看这个技能"、"新技能判断"

不触发: 纯概念讨论技能是什么、在创建/修改技能(走 skill-creator)、技术细节讨论

偷懒预判

借口真相
"这个技能看起来很小,不用走门禁了吧"最小的技能可能藏最大的恶意。门禁不可跳过。
"这是我写的技能,不用评了吧"自写技能更可能有盲点。评分能帮你客观审视。
"先装再说,有问题再卸"恶意技能可能在第一次触发时就窃取数据。"先评再装"。
"我只看触发描述就知道它好不好"触发描述好不代表执行力和安全性好。走完整流程。
"这个分数还不到50但我觉得有用"铁律2允许用户坚持。但你知道风险了。
"太长了不想读评分卡"所以我才先做自动检查。关键问题 1-2 个就好。

卡住时

问题做法
不确定类型问用户
文件不存在问路径
用户不想回答评分问题按最佳判断打分,标注"未确认"
脚本没有 Bash 环境手动逐项检查
恶意技能有加密/压缩脚本判断为 ❌,不需进一步分析

Install & Usage

1
Create the skills directory
mkdir -p .claude/skills
2
Download the skill file
mkdir -p .claude/skills && curl -o .claude/skills/skill-evaluator.md https://raw.githubusercontent.com/huajielong/skill-evaluator/main/SKILL.md
3
Invoke in Claude Code
/skill-evaluator
View source on GitHub
security

Frequently Asked Questions

What is skill-evaluator?

Evaluate any skill before installing. Run security gate, score trigger precision, execution quality, and cost efficiency. Get a yes/no recommendation. Use when users find a new skill and ask "这个技能值不值得装?" v3.1: 脚本计数精度+信息密度阈值+脚本完整性检查

How to install skill-evaluator?

To install skill-evaluator, create the .claude/skills directory in your project, then run the curl command to download the skill file. Once installed, invoke it in Claude Code with /skill-evaluator.

What is skill-evaluator best for?

skill-evaluator is a community categorized under General. It is designed for: security. Created by huajielong.