模型没错,是你不会提问:一位AI工程师的提示工程真相

AI PM 编辑部 · 2025年02月22日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

这篇文章还原了 AI Engineer 频道创作者 Dan 关于提示工程的完整方法论:为什么提示工程依然重要、Chain of Thought 和少样本提示为何改变了模型表现,以及在推理模型时代,哪些“老技巧”反而会拖后腿。读完你将知道,问题不在模型,而在你如何与它对话。

模型没错,是你不会提问:一位AI工程师的提示工程真相

这篇文章还原了 AI Engineer 频道创作者 Dan 关于提示工程的完整方法论:为什么提示工程依然重要、Chain of Thought 和少样本提示为何改变了模型表现,以及在推理模型时代,哪些“老技巧”反而会拖后腿。读完你将知道,问题不在模型,而在你如何与它对话。

为什么“提示工程”远没有过时

几乎每一场关于大模型的分享,都会遇到同一个质疑:“现在的模型这么聪明,还需要提示工程吗?”Dan 在演讲一开始就直面了这个问题。他坦言,连他自己有时都会犹豫要不要再放一张解释提示工程价值的幻灯片,但最终还是选择保留。

原因很简单——“任何真正把 AI 功能上线过的人,都知道事情没那么简单。”Dan 说。理论上,所有人都能调用同样的模型,但真正拉开差距的,是你如何定义问题、如何设计提示、以及提示背后的系统架构。提示工程并不是魔法,而是目前成本最低、门槛最低、见效最快的性能提升手段。

他引用了 Anthropic 在其 AI Agent 博文中的一个核心观点:优先选择最简单的解决方案。很多团队在 LLM 项目中,一上来就尝试复杂的 RAG(检索增强生成)或多代理系统,却没有花哪怕一小时认真打磨提示。Dan 的经验是:如果一个问题能通过提示工程解决,那它在维护、稳定性和成本上,几乎一定优于复杂系统。

“在你宣判提示工程无解之前,至少先给它足够的时间。”这是他反复强调的第一原则。

Chain of Thought:让模型“先想清楚再回答”

在所有提示技巧中,Dan 认为最具革命性的,是 Chain of Thought(思维链)提示。它的核心很简单:在给出最终答案前,要求模型先展示推理过程,把复杂问题拆解成多个子问题。

他解释道,经典的零样本做法,只需要在提示中加一句类似“请一步一步思考”或“先推理,再回答”。这看似微小的改动,却能显著提升模型在数学、逻辑和复杂决策任务中的表现。更进一步,你还可以通过少样本方式,直接在提示中给模型一个“示范推理过程”,让它模仿这种思考路径。

Dan 分享了一个关键事实:Chain of Thought 已经不只是提示技巧,而是被直接写进了新一代推理模型的训练过程。比如 DeepSeek 在训练 R1 模型时,要求模型在 标签中生成完整思考过程,并用这些自动生成的推理链反向训练模型。

“这也是为什么现在很多推理模型,你甚至不需要再显式要求它思考。”Dan 说。但这并不意味着思维链过时,而是意味着——理解它,才能真正用好这些模型

少样本提示:一个例子,胜过十句说明

如果说 Chain of Thought 解决的是“怎么想”,那 Few-shot Prompting(少样本提示)解决的就是“想成什么样”。Dan 用内容生成的例子说明:与其花大量文字描述客户的语气、风格和偏好,不如直接给模型一组“输入 + 输出”的真实示例。

这种“Show, don’t tell”的方式,往往只需要一到两个例子,就能获得绝大部分性能提升。Dan 指出,几乎所有关于样本数量与效果的曲线图都呈现相同形态:前一两个样本带来巨大提升,之后收益迅速递减,甚至可能适得其反。

这对构建产品的团队尤其重要。你不需要准备一个庞大的示例库,只需要确保少量示例足够多样,覆盖模型可能遇到的主要输入类型即可。“多并不一定更好,”他说,“有时候反而会让模型困惑。”

这个结论,也为后面关于推理模型的讨论埋下了伏笔。

Meta Prompting:让模型帮你写提示

当提示本身变得复杂,Dan 给出的答案是:干脆让 LLM 参与进来。Meta Prompting 的本质,就是用模型来生成、优化和迭代提示。

他提到,目前很多平台都已经内置了这类工具,包括 Anthropic、OpenAI Playground,以及他们自己做的 PromptHub。PromptHub 的一个差异化设计在于:用户可以选择目标模型提供商,系统会根据 OpenAI 或 Anthropic 的模型特性,使用不同的元提示策略。

Dan 还介绍了一种“提示共创”的工作流:你运行提示、观察输出、给出反馈,再让模型根据反馈自动改写提示。这种方式非常接近开发者熟悉的 Copilot 或 Tech Graph 式体验。

“提示工程本身,就是最适合被自动化的一环。”他说。这也是为什么他们把大量模板和工具免费开放——因为真正的价值,在于理解这些模式背后的逻辑。

推理模型时代:少即是多

演讲中最反直觉的部分,来自 Dan 对新一代推理模型的总结。无论是 Microsoft 在 o1 模型上的 MedPrompt 研究,还是 DeepSeek 在 R1 训练中的发现,都指向同一个结论:在推理模型上,过多示例反而会降低性能

Microsoft 的研究显示,在 o1 上加入 few-shot 示例,会让表现变差;DeepSeek 团队也观察到类似现象。OpenAI 在 o1-preview 发布时同样提醒:额外上下文可能会“过度复杂化”问题。

相反,如果想榨出最后一点性能,更有效的方式是——让模型“多想一会儿”。研究发现,当模型的推理过程更长、更充分时,准确率也随之提升。这也是为什么随着训练推进,DeepSeek R1 的思考长度和整体性能一起增长。

Dan 给出的实践建议非常明确:使用推理模型时,尽量保持提示简洁、任务描述清晰;避免或极少使用少样本;不要再教模型怎么推理——“那已经内置在它里面了”。

总结

这场演讲传递的核心信息很直接:模型没有变“傻”,只是我们还没学会如何与它们高效协作。提示工程不是技巧堆砌,而是一种工程思维——从简单开始,逐步验证,再决定是否需要复杂系统。无论是 Chain of Thought、少样本,还是 Meta Prompting,本质都是在帮助模型更好地理解你的真实意图。在推理模型时代,真正的能力不在于写多复杂的提示,而在于知道什么时候该少说一点。


关键词: 提示工程, Chain of Thought, 少样本学习, 推理模型, Meta Prompting

事实核查备注: 视频作者 Dan,频道 AI Engineer;PromptHub 平台;Anthropic 关于 AI Agent 的博客观点;Chain of Thought、Few-shot Prompting、Meta Prompting 概念;DeepSeek R1 训练使用思维链;Microsoft 关于 o1 的 MedPrompt 研究;OpenAI o1-preview 提示建议。