他教你把 Claude 技能做成“会进化的员工”:5 个反直觉步骤

AI PM 编辑部 · 2026年06月03日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

大多数人做 AI 技能,只是在“堆提示词”;Peter Yang 却在视频里给了一个更狠的结论:真正好用的技能,必须能被评测、能记忆、还能被人类反复审查。这不是教程,而是一套把 AI 当成长期同事来培养的方法论。

他教你把 Claude 技能做成“会进化的员工”:5 个反直觉步骤

大多数人做 AI 技能,只是在“堆提示词”;Peter Yang 却在视频里给了一个更狠的结论:真正好用的技能,必须能被评测、能记忆、还能被人类反复审查。这不是教程,而是一套把 AI 当成长期同事来培养的方法论。

最反直觉的一点:别先写提示词,先喂“你自己”

视频一开场,Peter Yang 就抛出一个很不“工程师”的观点:做技能的第一步,不是结构化指令,而是用你最好的真实示例和个人语境去定义技能。他用自己的 newsletter 举例——同一个主题,AI 之所以总是“写不对”,不是模型不行,而是它根本不知道你心中“好内容”的样子。

这里的关键不是多给样例,而是给经过你审美筛选的样例。换句话说,你不是在教 AI 怎么写,而是在告诉它:什么是你会点头的输出,什么是你会直接删掉的垃圾。这一步决定了技能的上限,也解释了为什么很多看似复杂的 prompt,最后还是产出平庸内容——因为起点就错了。

技能不是一直开着的:明确“什么时候该出手”

第二个技巧听起来简单,却是大多数人都会忽略的坑:明确 AI 什么时候应该触发这个技能,什么时候不该。Peter 直接点破一个常见失败场景——技能本身没问题,但因为触发条件模糊,AI 要么乱用,要么完全不用。

这一步的本质,是把“意图识别”前移到设计阶段。你需要清楚告诉 AI:在什么输入信号下,这个技能才是最优解。否则,技能越多,系统越混乱。这个思路和传统软件里的 if/else 不同,它更像是在训练一个判断力,而不是执行力。

真正拉开差距的地方:手动测试 + Evals

第三步开始进入高手区:手动测试技能,并为它建立 evals(评测)。Peter 强调,很多技能在“感觉上还行”,但一放到真实场景就翻车,原因在于你从未认真测试过它。

这里有个重要区分:不是所有东西都能用简单的 pass/fail 来评测。有些输出是模糊的、主观的,只能通过反复对比和人工判断来优化。这也是为什么他反复强调“手动”——evals 不是为了取代人,而是为了让人更高效地发现问题。

让技能“越用越聪明”的秘密:memory.md + 人类复审

第四步是给技能建立一个 memory.md,让它能记住长期有效的信息,并随着使用不断改进。Peter 说得很直白:技能应该随着时间变好,而不是每次从零开始

最后一步则是一个 meta 级别的思考:建立一个“用来构建技能的技能”。但他同时泼了一盆冷水——不管自动化做得多好,每一个技能都需要人类定期复审。这不是对 AI 不信任,而是承认:判断“好不好用”,本身就是人类的核心价值。

总结

这支视频最有价值的地方,不在于某个具体技巧,而在于它重新定义了“AI 技能”的角色:不是一次性工具,而是可以被训练、被评测、被记忆、被管理的长期资产。对从业者来说,真正的行动建议只有一个——下次你再做技能,别问“prompt 怎么写”,而是问:我有没有样例?有没有触发边界?有没有评测?它会不会随着时间变好?如果这些问题你都答得上来,你已经超过了大多数人。


关键词: Claude 技能, AI Skill 设计, Evals 评测, Memory 机制, 人类复审

事实核查备注: 需要核查:视频具体时长;Peter Yang 是否明确使用“memory.md”这一文件名;视频中对 evals 的原始表述是否包含 pass/fail 的对比说明。