“提示工程已死”：一场由评估器驱动的反直觉实验

AI PM 编辑部 · 2025年06月27日 · 28 阅读 · AI/人工智能

机器学习对话AI 检索增强生成 AI Agent 提示工程向量数据库 Embedding 模型训练大语言模型 Chroma

正在加载视频...

视频章节

Nir Gazit用一次真实的RAG机器人优化实验，挑战了“提示工程是一门手艺”的共识。他没有手工打磨prompt，而是用评估器和Agent把效果从0.4推到0.9，给出了一条更像工程、也更可扩展的路径。

“提示工程已死”：一场由评估器驱动的反直觉实验

Nir Gazit用一次真实的RAG机器人优化实验，挑战了“提示工程是一门手艺”的共识。他没有手工打磨prompt，而是用评估器和Agent把效果从0.4推到0.9，给出了一条更像工程、也更可扩展的路径。

为什么他说“提示工程从未真正存在”

“Prompt engineering is dead.”Nir Gazit一开场就抛出这句挑衅性的判断，随后又补了一刀：它“从来就没真正存在过”。在他看来，大多数所谓的提示工程，更像是在“求模型表现好一点”，而不是可复用、可验证、可迭代的工程方法。这个判断并非空谈，而是来自他亲手优化公司官网聊天机器人的经历。这个机器人非常简单：基于RAG（检索增强生成），只回答与Traceloop文档相关的问题。但初版效果“kind of okay”，错误多、跑题多、不可控。他的直觉反而不是继续改prompt，而是反问：为什么我要不停地手动迭代提示？为什么不能像训练模型一样，让系统自己学会变好？这也是整场演讲的核心转折——从“写更好的prompt”，转向“定义什么是好，然后自动逼近它”。

一个朴素RAG机器人，暴露了提示工程的极限

Nir的案例极其具体：一个最简单的RAG管线，Chroma向量数据库负责检索，OpenAI模型负责生成回答，目标是回答“如何开始使用Traceloop”这类文档问题。问题不在模型能力，而在系统行为：它会回答天气、会给出不完整甚至错误的建议。他最想要的不是“更花哨的prompt”，而是三个明确目标：只回答Traceloop相关问题、对用户真正有用、显著减少错误。但当他尝试通过提示工程解决时，很快陷入熟悉的困境——加规则、补说明、举例子，效果却不可预测。他直言：“Why do I even need to iterate on prompts？”这促使他设想一个“自动改进机器”，不靠灵感，而靠反馈回路。这一步，实际上把问题从“语言技巧”转成了“系统设计”。

评估器才是核心：用LM as a Judge定义“好答案”

真正的工程从评估开始。为了让系统知道自己是否在变好，Nir先构建了一个评估器。他选择了最务实的方案：LM as a Judge。具体做法是，手工整理20个典型问题，并为每个问题定义3个“答案必须包含的事实”。评估时，RAG生成答案，评估器逐条检查事实是否出现，输出布尔结果和原因，最终汇总成一个数值分数。总共60个事实点，让效果第一次变得“可量化”。初始得分只有0.4。这个设计非常关键，因为它让优化目标从“感觉更好”变成了“分数更高”。Nir也强调，评估可以发生在不同层级：只看检索质量、只看最终答案，或结合上下文整体判断。但无论哪种，没有评估，所谓提示工程都只是玄学。

Agent登场：像训练模型一样“训练prompt”

有了评分机制，最后一块拼图是Agent。Nir构建了一个研究型Agent，使用CrewAI实现：它会爬取网上的提示工程指南，生成初始prompt，跑评估器拿到分数和失败原因，再结合这些反馈生成新prompt，循环迭代。这一过程他形容为“classic machine learning training， but with a bit of vibes”。结果令人意外：只跑了两轮，prompt变得极其冗长、充满约束，像“一个资深提示工程师写的”，而分数从0.4跃升到0.9，意味着90%的事实校验通过。关键在于，他本人“didn't do any prompt engineering”。真正被工程化的，是评估和反馈，而不是语言本身。

总结

Nir在结尾也保持了诚实：这个方法会过拟合，20个样本远远不够，理想状态应像经典机器学习一样拆分训练集和测试集；而且他其实为Agent本身写了大量prompt，这是一种“元讽刺”。但即便如此，这个实验已经足够清晰地传达一个信号：未来决定效果上限的，不是你会不会写prompt，而是你是否能定义、测量并自动优化“好结果”。也许提示工程不会消失，但它正在从一门手艺，退化为系统中的一个可替换部件。

关键词：提示工程， RAG， LM as a Judge， AI Agent，自动评估

事实核查备注：视频演讲者：Nir Gazit；公司：Traceloop；频道：AI Engineer；发布时间：2025-06-27；核心技术：RAG（检索增强生成）、Chroma向量数据库、OpenAI模型、LM as a Judge、CrewAI；关键数字：20个问题、每题3个事实、初始得分0.4、优化后0.9；核心原话包括“Prompt engineering is dead”“Why do I even need to iterate on prompts”“classic machine learning training， but with a bit of vibes”。

返回文章列表