真正能落地的AI Agent：一个CTO推翻产品后的9个教训

AI PM 编辑部 · 2025年02月22日 · 15 阅读 · AI/人工智能

Token 推理检索增强生成大语言模型 AI Agent 模型部署提示工程幻觉微调上下文窗口

正在加载视频...

视频章节

Patrick Dougherty在创业过程中推翻整套产品，转而用AI Agent重构系统。这次分享不是概念宣讲，而是来自真实生产环境的教训：什么才算Agent、为什么“会想”比“知道多”更重要，以及哪些常见做法其实在拖垮Agent表现。

真正能落地的AI Agent：一个CTO推翻产品后的9个教训

Patrick Dougherty在创业过程中推翻整套产品，转而用AI Agent重构系统。这次分享不是概念宣讲，而是来自真实生产环境的教训：什么才算Agent、为什么“会想”比“知道多”更重要，以及哪些常见做法其实在拖垮Agent表现。

什么才算AI Agent？先把概念说清楚

在Patrick看来，行业里对“AI Agent”的滥用已经到了需要重新下定义的程度。很多所谓的Agent，本质只是更复杂的prompt chain。他给出的定义非常严格，只有同时满足三个条件，才配被称为AI Agent。

第一，Agent必须能够接受一个明确的目标，可以来自人，也可以来自另一个Agent，但必须是一个整体目标，而不是一连串步骤。第二，它必须能调用至少一个外部工具，并拿到真实世界的反馈。第三，也是最关键的一点，它必须能“自主判断”什么时候、如何使用这些工具，而不是预先写死流程。

Patrick在视频里强调了一句话：“If it’s just a predefined sequence of tool calls， it’s not an agent.” 这背后其实是一个非常实用的分界线：一旦工具调用顺序写死，你面对的就不再是一个会思考的系统，而是一个脆弱的自动化脚本。

这个定义之所以重要，是因为它直接决定了后续所有工程决策：你是在设计一个“能推理的系统”，还是在堆叠prompt技巧。Patrick的团队正是因为一开始选错了方向，才在两年前选择“rip apart our entire product”，彻底推翻重来。

最大的转折：不要教Agent知识，而是给它思考的能力

这是整场分享中最反直觉、也最有价值的一点。Patrick坦承，他们一开始也走了业界最流行的路线：把尽可能多的知识塞进prompt里，用RAG（检索增强生成）提前喂给模型背景信息。

但在真实产品中，这条路很快撞墙。他们做的是一个让AI Agent查询企业数据仓库的产品，典型任务是：根据自然语言问题，自动生成SQL查询。问题出现在“好心办坏事”——当他们把所有表结构、所有字段一次性塞进上下文窗口，Agent反而更容易选错表、写出无法执行的SQL。

Patrick用一个非常具体的场景说明问题：当上下文里token数量过多时，模型会被信息淹没，推理能力下降。于是他们改变策略，不再把知识直接写进prompt，而是设计更小、更离散的工具调用，比如“搜索相关表”“获取表结构”“分析某一列的分布”。

Agent被迫一步步用这些工具去探索数据，而不是一次性‘背答案’。Patrick总结他们的转变时说：“We focused on enabling the agent to think， not on what the model already knows.” 这也是他们产品性能真正开始提升的转折点。

GPT-4o vs 推理模型：一个关于“该不该写SQL”的残酷案例

为了说明“推理能力”在生产环境中的差异，Patrick现场对比了GPT-4o和o1的表现。实验非常简单：给模型一份标准的Salesforce表结构，然后问一个看似合理的问题——“写一个查询，看看上个月有多少客户流失了”。

在GPT-4o上，结果几乎是灾难性的。即使表结构里根本没有定义“流失（churn）”所需的状态字段，GPT-4o依然会“非常积极地”编造一个SQL查询。Patrick直言，这种行为对分析师是致命的，因为“它看起来很专业，但答案是错的”。

而在同样的prompt下，o1的反应完全不同。它先分析问题所需的数据条件，然后明确指出：在当前schema下，根本无法计算客户是否流失。这个“不写SQL”的决定，反而是企业真正需要的答案。

Patrick用这组对比说明一个关键观点：不是所有模型都适合当Agent的大脑。如果你的系统奖励的是‘一定要给答案’，那模型就会不断编造。真正可用的Agent，必须被允许说‘我不知道’。

被低估的工程细节：ACI、模型选择与微调的误区

如果说“推理优先”是方法论，那么ACI（Agent Computer Interface）就是决定生死的工程细节。ACI指的是工具调用的具体接口设计，包括参数结构和返回格式。Patrick分享了一个非常现实的教训：哪怕只是把工具返回格式从Markdown改成JSON，都可能立刻解决GPT-4o的“上下文失明”问题。

更有意思的是，不同模型对格式的偏好完全不同。同样的工具接口，Claude在XML格式下表现更好。这意味着，Agent性能问题，很多时候并不是模型不行，而是你“说话的方式”不对。

在模型选择上，Patrick把模型比作Agent的“大脑”：负责决定下一步做什么的模型，必须足够聪明，哪怕其他子任务可以用更便宜的模型完成。他提到，Claude 3.5在速度、成本和决策质量之间取得了一个很好的平衡。

至于微调（fine-tuning），他们的结论非常直接：浪费时间。微调往往会固化模型行为，削弱推理能力。与其微调模型，不如反复打磨ACI。这一点，对很多还在大量投入微调的团队来说，是一次非常现实的提醒。

多Agent系统与真正的护城河在哪里

在多Agent设计上，Patrick并不推崇复杂的群体协作。他们的经验是：5到8个Agent最理想，再多就会引发无限循环和责任模糊。关键在于引入一个“Manager Agent”，对最终结果负责，而不是规定每一步该怎么做。

激励机制同样重要。Patrick建议奖励Manager Agent“是否达成目标”，而不是是否严格执行流程。这和前面强调的“允许思考”一脉相承。

在分享的最后，他给出了一个颇为冷静的结论：“Your agent is not your moat.” Prompt、Agent逻辑都不是核心壁垒。真正消耗时间、也真正构成护城河的，是周边系统：权限、安全、审计、以及与真实业务流程的深度集成。

这也是为什么很多Demo级Agent看起来惊艳，却很难进入生产环境。Agent本身只是开始，真正困难的，是让它在现实世界里安全、可靠地工作。

总结

Patrick Dougherty的分享之所以珍贵，是因为它来自一次“推翻重来”的真实代价。核心启发很清晰：别把Agent当成更聪明的搜索引擎，而要把它当成一个需要被允许思考、被正确约束的系统。少塞知识，多给工具；少微调模型，多打磨接口；Demo可以追求炫技，但生产环境必须尊重现实复杂度。这些教训，几乎无法只靠论文或博客获得。

关键词： AI Agent，推理模型， GPT-4o， Claude，检索增强生成

事实核查备注：人物：Patrick Dougherty（Rosco联合创始人兼CTO）；视频标题《How to Build AI Agents that Actually Work》；发布时间2025-02-22；产品与模型：GPT-4o、o1、Claude 3.5；关键概念：AI Agent三要素、ACI（Agent Computer Interface）、RAG、上下文窗口、Token、微调对推理的影响；案例：Salesforce表结构下计算churn的SQL示例。

返回文章列表