他教你把 Claude 技能做成“会进化的员工”：5 个反直觉步骤

AI PM 编辑部 · 2026年06月03日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

大多数人做 AI 技能，只是在“堆提示词”；Peter Yang 却在视频里给了一个更狠的结论：真正好用的技能，必须能被评测、能记忆、还能被人类反复审查。这不是教程，而是一套把 AI 当成长期同事来培养的方法论。

他教你把 Claude 技能做成“会进化的员工”：5 个反直觉步骤

大多数人做 AI 技能，只是在“堆提示词”；Peter Yang 却在视频里给了一个更狠的结论：真正好用的技能，必须能被评测、能记忆、还能被人类反复审查。这不是教程，而是一套把 AI 当成长期同事来培养的方法论。

最反直觉的一点：别先写提示词，先喂“你自己”

视频一开场，Peter Yang 就抛出一个很不“工程师”的观点：做技能的第一步，不是结构化指令，而是用你最好的真实示例和个人语境去定义技能。他用自己的 newsletter 举例——同一个主题，AI 之所以总是“写不对”，不是模型不行，而是它根本不知道你心中“好内容”的样子。

这里的关键不是多给样例，而是给经过你审美筛选的样例。换句话说，你不是在教 AI 怎么写，而是在告诉它：什么是你会点头的输出，什么是你会直接删掉的垃圾。这一步决定了技能的上限，也解释了为什么很多看似复杂的 prompt，最后还是产出平庸内容——因为起点就错了。

技能不是一直开着的：明确“什么时候该出手”

第二个技巧听起来简单，却是大多数人都会忽略的坑：明确 AI 什么时候应该触发这个技能，什么时候不该。Peter 直接点破一个常见失败场景——技能本身没问题，但因为触发条件模糊，AI 要么乱用，要么完全不用。

这一步的本质，是把“意图识别”前移到设计阶段。你需要清楚告诉 AI：在什么输入信号下，这个技能才是最优解。否则，技能越多，系统越混乱。这个思路和传统软件里的 if/else 不同，它更像是在训练一个判断力，而不是执行力。

真正拉开差距的地方：手动测试 + Evals

第三步开始进入高手区：手动测试技能，并为它建立 evals（评测）。Peter 强调，很多技能在“感觉上还行”，但一放到真实场景就翻车，原因在于你从未认真测试过它。

这里有个重要区分：不是所有东西都能用简单的 pass/fail 来评测。有些输出是模糊的、主观的，只能通过反复对比和人工判断来优化。这也是为什么他反复强调“手动”——evals 不是为了取代人，而是为了让人更高效地发现问题。

让技能“越用越聪明”的秘密：memory.md + 人类复审

第四步是给技能建立一个 memory.md，让它能记住长期有效的信息，并随着使用不断改进。Peter 说得很直白：技能应该随着时间变好，而不是每次从零开始。

最后一步则是一个 meta 级别的思考：建立一个“用来构建技能的技能”。但他同时泼了一盆冷水——不管自动化做得多好，每一个技能都需要人类定期复审。这不是对 AI 不信任，而是承认：判断“好不好用”，本身就是人类的核心价值。

总结

这支视频最有价值的地方，不在于某个具体技巧，而在于它重新定义了“AI 技能”的角色：不是一次性工具，而是可以被训练、被评测、被记忆、被管理的长期资产。对从业者来说，真正的行动建议只有一个——下次你再做技能，别问“prompt 怎么写”，而是问：我有没有样例？有没有触发边界？有没有评测？它会不会随着时间变好？如果这些问题你都答得上来，你已经超过了大多数人。

关键词： Claude 技能， AI Skill 设计， Evals 评测， Memory 机制，人类复审

事实核查备注：需要核查：视频具体时长；Peter Yang 是否明确使用“memory.md”这一文件名；视频中对 evals 的原始表述是否包含 pass/fail 的对比说明。

返回文章列表