“信任,但要验证”:金融知识型Agent的真实边界

AI PM 编辑部 · 2025年04月09日 · 5 阅读 · AI/人工智能

正在加载视频...

视频章节

Brightwave创始人Mike Conover从金融尽调一线的“人肉地狱”出发,讲述为什么金融AI Agent必须以“可验证”为核心设计原则,以及为何聊天式交互远不足以承载高风险金融决策。

“信任,但要验证”:金融知识型Agent的真实边界

Brightwave创始人Mike Conover从金融尽调一线的“人肉地狱”出发,讲述为什么金融AI Agent必须以“可验证”为核心设计原则,以及为何聊天式交互远不足以承载高风险金融决策。

从数据室“绞肉机”走出的创业动机

为什么金融是知识型Agent最残酷、也最有价值的试炼场?Mike Conover给出的不是技术幻想,而是赤裸裸的工作现实。他描述了一个私募或并购团队在签署term sheet之前,走进一个包含“成千上万页文档”的数据室,必须在极短时间内形成判断,甚至要比其他竞品团队更快发现致命风险。

他用了一个毫不客气的比喻:这些工作“frankly not a human level intelligence task”,却被层层压在初级分析师身上——“Junior analysts are tasked to do the impossible on extremely tight deadlines”。从成百上千份供应商合同中找提前解约条款,从几十场财报电话会议里理解行业结构变化,这些都不是靠加班就能线性解决的问题。

这种同理心并非空谈。Conover在创办Brightwave之前,曾在Databricks参与创建开源语言模型Dolly,是早期展示“instruction tuning”威力的模型之一。正是这种技术背景,加上对金融人力成本的切身理解,让他意识到:真正有价值的不是“替代人”,而是让人不再被绞进低价值的信息处理里。

类比电子表格:工具改变的是“思考上限”

Conover提出了一个极具说服力的历史类比:1978年电子表格出现之前,会计的工作就是“run the numbers”,在巨大的纸质表格上手工计算。这项工作“cognitively demanding、important、time intensive”,看起来像真正的劳动。

但电子表格并没有消灭金融分析这个职业,而是彻底抬高了它的思考上限。今天没人会怀念手写表格,但分析本身反而变得更复杂、更有洞察力。Conover认为,知识型Agent在金融中的角色正是如此——不是自动下结论,而是让分析者把精力放在更高阶的判断上。

这也是Brightwave所代表的一类“knowledge agents”的价值所在:它们可以消化海量内容,在数量级上加速研究效率。但问题随之而来:当一个系统“思考”了1万页文档,如何把这个过程以人类可理解、可验证的方式呈现出来?Conover强调,这不是传统意义上的UI问题,而是一个三年前根本不存在的新型产品设计难题,“chat probably not enough”。

为什么“贪婪搜索”的模型不适合金融

在技术层面,Conover对当前非推理模型(non-reasoning models)提出了尖锐批评:它们本质上在做“greedy local search”。他引用了一个简单却致命的例子——从一篇路透社文章中抽取组织名称,即便只有5%的错误率,当你把这种调用串联起来,错误会以近乎指数的方式放大。

在金融工作流中,这种误差是不可接受的。Conover认为,真正“赢”的系统,必须在工具调用层面进行端到端强化学习(end-to-end RL),让API调用的结果本身成为决策序列的一部分,从而允许局部非最优、换取整体最优输出。但他也坦率承认,这仍是一个开放的研究问题。

现实中的解法反而更朴素:限制Agent的行为边界,像“正则化参数”一样约束其复杂度,降低彻底跑偏、产生“degenerate output”的概率。这不是否定“大模型+算力”的长期趋势,而是在苦涩现实中交付今天可用产品的工程智慧。

人、模型与“可纠错”的协作回路

Conover最耐人寻味的洞见,来自他对多轮对话的理解。他认为,真正有价值的模型交互,往往发生在“对话树很深”的地方:人不断选择、修正、引导模型的回应。这不是提示工程的炫技,而是一种现实技能——但他直言,大多数有全职工作的人不可能花“thousands of hours”去精通它。

因此,产品必须替用户承担这种“激活引导”的复杂性。Brightwave的设计模式,是模拟一个优秀分析师的决策流程:先判断哪些文档相关,再从中提炼发现,形成阶段性“我现在相信什么”,最后对单条发现进行事实校验和纠错。

一个关键经验是:让模型自我验证,但不要在同一次调用中完成。Conover观察到,模型在“被质疑自己刚刚说过的话”时往往过于自信,而拆分为二次调用,反而更容易自我纠错。通过这种分层、可审计的控制回路,人类监督不再是装饰,而是系统可靠性的组成部分。

总结

这场演讲的核心并不在于某个模型或算法,而在于一个清醒的判断:在金融这种高风险领域,AI的价值不来自“看起来聪明”,而来自“可以被验证、被纠错”。知识型Agent不是替代判断,而是重构判断的工作方式。对所有构建垂直AI产品的人来说,Conover给出的启发很明确:别迷信对话形式,别忽视人类监督,把产品做成一个可靠的思考放大器,而不是一个自说自话的黑箱。


关键词: AI Agent, 金融研究, 大语言模型, 强化学习, 可验证性

事实核查备注: 演讲者:Mike Conover;公司:Brightwave(演讲中多次提及);过往经历:Databricks,参与创建Dolly模型;核心技术概念:instruction tuning、knowledge agents、end-to-end reinforcement learning、non-reasoning models、greedy local search;关键比喻:1978年前的电子表格;原话引用包括“Junior analysts are tasked to do the impossible”“frankly not a human level intelligence task”“chat probably not enough”。