当90%准确率仍不够用:金融领域为何仍需要专用大模型
正在加载视频...
视频章节
在通用大模型准确率逼近90%的今天,Writer CTO Waseem Alshikh 用一套真实金融场景评测给出了反直觉答案:越“会思考”的模型,在金融任务中越容易胡编。本文还原这次评测的来龙去脉、关键数据和对行业的深远启示。
当90%准确率仍不够用:金融领域为何仍需要专用大模型
在通用大模型准确率逼近90%的今天,Writer CTO Waseem Alshikh 用一套真实金融场景评测给出了反直觉答案:越“会思考”的模型,在金融任务中越容易胡编。本文还原这次评测的来龙去脉、关键数据和对行业的深远启示。
从 Transformer 早期玩家,到“是否还要继续造专用模型”的自我怀疑
为什么这件事重要?因为它揭示了一个少有人公开讨论的现实:连最早一批做大模型的公司,也在质疑“专用模型”是否还有意义。
演讲一开始,Waseem Alshikh 并没有直接抛出结论,而是讲了 Writer 的“出身”。Writer 成立于 2020 年,他形容“Writer 的故事,就是 Transformer 的故事”。公司在早期就开始自研 encoder–decoder 模型,并持续迭代,到今天已经发布了大约 16 个模型,还有 20 个在路上。这些模型被清晰分成两类:通用模型(如 Palmyra X3、X4,X5 即将发布)和领域专用模型,包括创意、金融服务、医疗等。
但到了 2024 年,一个现实问题摆在了他们面前。Waseem 直言:“今天一个好的通用模型,在各种 benchmark 上的平均准确率已经在 80% 到接近 90%。”这让团队开始认真怀疑:如果通用模型已经这么强,我们还要不要继续投入,去训练和维护成本更高的金融、医疗等领域模型?是不是只要在通用模型上做微调,或者干脆转向所谓的 reasoning / thinking model,就已经“足够好”?
这个转折很关键。它不是市场部的口号,而是来自一家模型厂商内部的真实犹豫。也正是这个犹豫,直接推动了后面那套颇具冲击力的评测。
他们没有继续争论,而是造了一个“真实世界会失败”的金融评测
为什么这件事重要?因为大多数 benchmark 测的,是模型在“理想条件下”能不能答对,而真实业务关心的是:模型在混乱、错误、甚至愚蠢输入下会不会出事。
为了回答“通用模型是否已经足够”,Writer 团队没有靠感觉,而是选择“先造数据”。他们构建了一个金融领域的评测集,目标只有一个:模拟真实世界中模型最容易翻车的场景。Waseem 强调,这套方法论不仅适用于金融,也同样适用于医疗、客服等领域。
评测被分成两大类失败模式。第一类叫 Query Failure,关注用户提问本身的问题:比如拼写错误、语法混乱、不完整问题,甚至是明显的领域外提问。现实中,金融从业者、客服人员、甚至终端用户,几乎每天都会这样和模型交互。
第二类更致命,叫 Context Failure。这里包括三种情况:一是“缺失上下文”,模型被问到一个并不存在于提供材料中的信息;二是 OCR 错误,把扫描文档转成文本时产生字符粘连、错位;三是“完全不相关的上下文”,比如用户上传了错误的文件,却仍然提出具体问题。Waseem 抛出了一个尖锐问题:“模型会不会意识到你给的是一份完全无关的文档?”
这套评测的数据、白皮书、排行榜全部开源,放在 GitHub 和 Hugging Face 上。他们的评分标准也很克制,只看两件事:答案是否正确,以及模型是否严格遵循了给定上下文(grounding)。
结果出人意料:越“会思考”的模型,越容易在金融场景中胡编
为什么这件事重要?因为它直接挑战了当下最流行的一个假设:引入“思考链”,模型就会更可靠。
Writer 选取了一批主流聊天模型和 thinking / reasoning 模型进行评测。初看结果,几乎所有模型在“能不能给出一个答案”这件事上都表现不错——不管是通用模型还是领域模型,分数都很接近,thinking model 甚至略高。
但问题出在第二个维度:grounding。当输入包含错误上下文、OCR 噪声或无关文档时,thinking model 的表现急转直下。Waseem 形容这一刻“事情开始变得非常有意思”:这些模型往往不会拒答,而是自信地给出一个“看起来很合理、但完全不基于上下文”的答案,直接导致幻觉率飙升。
在具体数字上,一些体量更大、更强调思考过程的模型,在 grounding 相关任务上的表现反而比小模型差 50%–70%。Waseem 指出一个反直觉现象:在金融领域,小模型有时比“过度思考”的模型更可靠。
他甚至抛出了一个带有挑衅意味的问题:“这到底是在思考,还是只是更长的 Chain of Thought?”至少从他们的金融评测数据来看,这些模型“并没有在真正理解上下文”,而是在更复杂地编造答案。
81% 的残酷现实:没有系统工程,模型永远不够可靠
为什么这件事重要?因为它给所有想“直接上大模型”的金融团队泼了一盆冷水。
即便在所有模型中选表现最好的一个,在鲁棒性和上下文遵循这两个关键指标上,最高也只能做到大约 81%。Waseem 给了一个非常直观的解读:“听起来是个不错的数字,但在现实中意味着——每 5 个请求里,就有 1 个是完全错误的。”
这也是他得出的核心结论之一:在当前技术条件下,想把大模型真正用在金融这样的高风险领域,单靠模型本身远远不够。你需要完整的系统工程——包括 RAG、严格的上下文约束、护栏机制,以及围绕模型构建的整体架构。
回到最初那个问题:我们还需不需要继续做领域专用模型?Waseem 的答案很直接:“是的,至少在今天,我们仍然需要。”原因不在于通用模型不聪明,而在于它们在上下文理解和约束遵循上,“远远落后于金融场景的要求”。
总结
这场演讲最有价值的地方,不在于证明某个模型更强,而在于揭示了一个被忽视的事实:当准确率进入 80%–90% 区间后,真正拉开差距的,是对错误、噪声和上下文的敬畏。Writer 的评测提醒我们,thinking model 并不天然更可靠,通用模型也并非“够用即正义”。在金融这样的真实世界里,领域模型、系统工程和清醒的预期管理,仍然缺一不可。
关键词: 领域大模型, 金融AI, 幻觉, 上下文遵循, Thinking Model
事实核查备注: Writer 成立时间:2020 年;模型数量:已发布约 16 个,约 20 个在开发中;通用模型准确率区间:80%–接近 90%;评测类别:Query Failure、Context Failure;最优模型在鲁棒性与 grounding 上约 81%;数据与排行榜开源于 GitHub 与 Hugging Face;提及模型示例:o1;核心人物:Waseem Alshikh(Writer 联合创始人兼 CTO)