把AI Agent“折腾坏”:Aparna谈自我改进式评估栈

AI PM 编辑部 · 2025年06月10日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

这场演讲不是在教你如何“再写一个更聪明的Agent”,而是在回答一个更现实的问题:当Agent已经复杂到不可控时,团队该如何判断它到底哪里坏了、又该先修哪里。Aparna分享了一套从工具调用到多轮对话、再到自我改进的评估方法论。

把AI Agent“折腾坏”:Aparna谈自我改进式评估栈

这场演讲不是在教你如何“再写一个更聪明的Agent”,而是在回答一个更现实的问题:当Agent已经复杂到不可控时,团队该如何判断它到底哪里坏了、又该先修哪里。Aparna分享了一套从工具调用到多轮对话、再到自我改进的评估方法论。

为什么说,真正难的不是造Agent,而是评估它

如果你正在构建AI Agent,Aparna的开场大概会让你会心一笑。她直言不讳地说:“First building agents is incredibly hard.” 难点并不在于有没有模型可用,而在于无休止的迭代——提示词要改、模型要换、工具调用的定义要一遍遍调。很多团队的真实体验是:Agent看起来能跑,但一旦出错,你根本不知道是哪里出了问题。

正是这种“能用但不可控”的状态,促使Aparna和团队投入到Agent评估工具的建设中。在她看来,评估不是上线前的最后一道流程,而是整个Agent开发的中枢系统。没有评估,就没有方向;没有方向,所有迭代都只是运气游戏。

她强调,评估的价值在于把“感觉不对”变成“具体哪一步不对”。也正因为Agent的复杂性远高于传统应用,评估必须覆盖从单次工具调用,到完整执行路径,再到多轮对话的一整套视角。这不是锦上添花,而是让Agent走向生产环境的前提条件。

从最小单元入手:工具调用评估是第一性问题

Aparna认为,Agent评估的第一个落点,必须是工具调用(tool calling)。原因很简单:一旦Agent开始使用工具,它就不再只是“会说话的模型”,而是一个会采取行动的系统。于是问题变得非常具体——“did it call the right tool?”,“did it pass the right arguments?”

她分享的实践方法不是抽象指标,而是贴近产品的判断方式。比如,在一次Q&A流程中,表面上答案不正确,但深入trace后才发现,真正的问题是参数传错了。模型逻辑没问题,工具顺序也没问题,错在一个字段。这类问题,如果没有针对工具参数的评估,只能靠人工猜。

Aparna特别强调,工具调用评估不是为了给Agent打分,而是为了告诉你“该修哪里”。她提到:“that’s where it’s going wrong… so that’s something that I should go fix.” 评估的输出,应该直接指向下一步工程行动,而不是一份漂亮却无用的报表。

跳出单条Trace:从“看细节”到“看路径”

当Agent开始变复杂,只盯着单条执行记录(trace)会让人迷失。Aparna分享了一个非常关键的视角转变:先从高层看所有可能路径,再回到具体trace。

她提到,团队会先查看Agent“所有能走的路径”,也就是不同工具组合、不同决策分支构成的全局视图。这个视角的价值在于,它能快速告诉你:哪些路径最常出问题,哪些几乎没人走,但一走就失败。相比随机抽查trace,这种方式更像是在看一张故障热力图。

在此基础上,再深入具体trace去做Q&A正确性、参数完整性、工具顺序等评估,效率会高很多。她总结说,这种高低结合的方法,“really kind of pinpointing to me what I should go focus on specifically.” 对资源有限的团队来说,这几乎是唯一可扩展的调试方式。

多轮对话与自我改进:评估本身也在进化

很多Agent的问题,并不会在单轮交互中暴露。Aparna指出,如今大量Agent场景都是多轮对话,这就引入了新的评估维度:语气是否一致?是否反复问同一个问题?是否在上下文中逐渐偏离目标?

这些问题,很难用单一指标衡量,但却直接决定了用户体验。Aparna并没有给出简单答案,而是强调要“look across a single interaction and then across multi-turn conversations”。评估的单位,必须和用户真实使用方式对齐。

演讲的最后,她抛出了一个更具前瞻性的方向:自我改进的Agent评估栈。她提到,实际上存在“两条同时运行的迭代循环”:一条是Agent本身的行为优化,另一条是评估体系的持续进化。评估结果不仅用于发现问题,还应该反过来驱动Agent如何调整策略。这也是她所说的,“how do we get these agents to self-improve.”

总结

Aparna的分享并没有给出“万能Agent公式”,但她清晰地揭示了一件事:Agent工程的核心竞争力,正在从模型能力转向评估能力。谁能更快、更准确地定位问题,谁就能更快迭代、更安全地走向生产。对每一个构建Agent的团队来说,或许都该认真思考:你的评估体系,是否已经配得上你Agent的复杂度?


关键词: AI Agent, Agent评估, 工具调用, 多轮对话, 自我改进

事实核查备注: 演讲者:Aparna Dhinakaran;主题:AI Agent Evaluation;关键概念:tool calling evals、trace、multi-turn conversations、自我改进;原话引用均来自视频片段英文表达;未涉及具体模型名称、公司产品名称或数值指标。