“提示工程已死”:一场由评估器驱动的反直觉实验

AI PM 编辑部 · 2025年06月27日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

Nir Gazit用一次真实的RAG机器人优化实验,挑战了“提示工程是一门手艺”的共识。他没有手工打磨prompt,而是用评估器和Agent把效果从0.4推到0.9,给出了一条更像工程、也更可扩展的路径。

“提示工程已死”:一场由评估器驱动的反直觉实验

Nir Gazit用一次真实的RAG机器人优化实验,挑战了“提示工程是一门手艺”的共识。他没有手工打磨prompt,而是用评估器和Agent把效果从0.4推到0.9,给出了一条更像工程、也更可扩展的路径。

为什么他说“提示工程从未真正存在”

“Prompt engineering is dead.”Nir Gazit一开场就抛出这句挑衅性的判断,随后又补了一刀:它“从来就没真正存在过”。在他看来,大多数所谓的提示工程,更像是在“求模型表现好一点”,而不是可复用、可验证、可迭代的工程方法。这个判断并非空谈,而是来自他亲手优化公司官网聊天机器人的经历。这个机器人非常简单:基于RAG(检索增强生成),只回答与Traceloop文档相关的问题。但初版效果“kind of okay”,错误多、跑题多、不可控。他的直觉反而不是继续改prompt,而是反问:为什么我要不停地手动迭代提示?为什么不能像训练模型一样,让系统自己学会变好?这也是整场演讲的核心转折——从“写更好的prompt”,转向“定义什么是好,然后自动逼近它”。

一个朴素RAG机器人,暴露了提示工程的极限

Nir的案例极其具体:一个最简单的RAG管线,Chroma向量数据库负责检索,OpenAI模型负责生成回答,目标是回答“如何开始使用Traceloop”这类文档问题。问题不在模型能力,而在系统行为:它会回答天气、会给出不完整甚至错误的建议。他最想要的不是“更花哨的prompt”,而是三个明确目标:只回答Traceloop相关问题、对用户真正有用、显著减少错误。但当他尝试通过提示工程解决时,很快陷入熟悉的困境——加规则、补说明、举例子,效果却不可预测。他直言:“Why do I even need to iterate on prompts?”这促使他设想一个“自动改进机器”,不靠灵感,而靠反馈回路。这一步,实际上把问题从“语言技巧”转成了“系统设计”。

评估器才是核心:用LM as a Judge定义“好答案”

真正的工程从评估开始。为了让系统知道自己是否在变好,Nir先构建了一个评估器。他选择了最务实的方案:LM as a Judge。具体做法是,手工整理20个典型问题,并为每个问题定义3个“答案必须包含的事实”。评估时,RAG生成答案,评估器逐条检查事实是否出现,输出布尔结果和原因,最终汇总成一个数值分数。总共60个事实点,让效果第一次变得“可量化”。初始得分只有0.4。这个设计非常关键,因为它让优化目标从“感觉更好”变成了“分数更高”。Nir也强调,评估可以发生在不同层级:只看检索质量、只看最终答案,或结合上下文整体判断。但无论哪种,没有评估,所谓提示工程都只是玄学。

Agent登场:像训练模型一样“训练prompt”

有了评分机制,最后一块拼图是Agent。Nir构建了一个研究型Agent,使用CrewAI实现:它会爬取网上的提示工程指南,生成初始prompt,跑评估器拿到分数和失败原因,再结合这些反馈生成新prompt,循环迭代。这一过程他形容为“classic machine learning training, but with a bit of vibes”。结果令人意外:只跑了两轮,prompt变得极其冗长、充满约束,像“一个资深提示工程师写的”,而分数从0.4跃升到0.9,意味着90%的事实校验通过。关键在于,他本人“didn't do any prompt engineering”。真正被工程化的,是评估和反馈,而不是语言本身。

总结

Nir在结尾也保持了诚实:这个方法会过拟合,20个样本远远不够,理想状态应像经典机器学习一样拆分训练集和测试集;而且他其实为Agent本身写了大量prompt,这是一种“元讽刺”。但即便如此,这个实验已经足够清晰地传达一个信号:未来决定效果上限的,不是你会不会写prompt,而是你是否能定义、测量并自动优化“好结果”。也许提示工程不会消失,但它正在从一门手艺,退化为系统中的一个可替换部件。


关键词: 提示工程, RAG, LM as a Judge, AI Agent, 自动评估

事实核查备注: 视频演讲者:Nir Gazit;公司:Traceloop;频道:AI Engineer;发布时间:2025-06-27;核心技术:RAG(检索增强生成)、Chroma向量数据库、OpenAI模型、LM as a Judge、CrewAI;关键数字:20个问题、每题3个事实、初始得分0.4、优化后0.9;核心原话包括“Prompt engineering is dead”“Why do I even need to iterate on prompts”“classic machine learning training, but with a bit of vibes”。