当90%准确率仍不够用：金融领域为何仍需要专用大模型

AI PM 编辑部 · 2025年04月22日 · 21 阅读 · AI/人工智能

Token 对话AI 推理开源模型幻觉文字识别 Transformer 微调模型训练大语言模型

正在加载视频...

视频章节

在通用大模型准确率逼近90%的今天，Writer CTO Waseem Alshikh 用一套真实金融场景评测给出了反直觉答案：越“会思考”的模型，在金融任务中越容易胡编。本文还原这次评测的来龙去脉、关键数据和对行业的深远启示。

当90%准确率仍不够用：金融领域为何仍需要专用大模型

在通用大模型准确率逼近90%的今天，Writer CTO Waseem Alshikh 用一套真实金融场景评测给出了反直觉答案：越“会思考”的模型，在金融任务中越容易胡编。本文还原这次评测的来龙去脉、关键数据和对行业的深远启示。

从 Transformer 早期玩家，到“是否还要继续造专用模型”的自我怀疑

为什么这件事重要？因为它揭示了一个少有人公开讨论的现实：连最早一批做大模型的公司，也在质疑“专用模型”是否还有意义。

演讲一开始，Waseem Alshikh 并没有直接抛出结论，而是讲了 Writer 的“出身”。Writer 成立于 2020 年，他形容“Writer 的故事，就是 Transformer 的故事”。公司在早期就开始自研 encoder–decoder 模型，并持续迭代，到今天已经发布了大约 16 个模型，还有 20 个在路上。这些模型被清晰分成两类：通用模型（如 Palmyra X3、X4，X5 即将发布）和领域专用模型，包括创意、金融服务、医疗等。

但到了 2024 年，一个现实问题摆在了他们面前。Waseem 直言：“今天一个好的通用模型，在各种 benchmark 上的平均准确率已经在 80% 到接近 90%。”这让团队开始认真怀疑：如果通用模型已经这么强，我们还要不要继续投入，去训练和维护成本更高的金融、医疗等领域模型？是不是只要在通用模型上做微调，或者干脆转向所谓的 reasoning / thinking model，就已经“足够好”？

这个转折很关键。它不是市场部的口号，而是来自一家模型厂商内部的真实犹豫。也正是这个犹豫，直接推动了后面那套颇具冲击力的评测。

他们没有继续争论，而是造了一个“真实世界会失败”的金融评测

为什么这件事重要？因为大多数 benchmark 测的，是模型在“理想条件下”能不能答对，而真实业务关心的是：模型在混乱、错误、甚至愚蠢输入下会不会出事。

为了回答“通用模型是否已经足够”，Writer 团队没有靠感觉，而是选择“先造数据”。他们构建了一个金融领域的评测集，目标只有一个：模拟真实世界中模型最容易翻车的场景。Waseem 强调，这套方法论不仅适用于金融，也同样适用于医疗、客服等领域。

评测被分成两大类失败模式。第一类叫 Query Failure，关注用户提问本身的问题：比如拼写错误、语法混乱、不完整问题，甚至是明显的领域外提问。现实中，金融从业者、客服人员、甚至终端用户，几乎每天都会这样和模型交互。

第二类更致命，叫 Context Failure。这里包括三种情况：一是“缺失上下文”，模型被问到一个并不存在于提供材料中的信息；二是 OCR 错误，把扫描文档转成文本时产生字符粘连、错位；三是“完全不相关的上下文”，比如用户上传了错误的文件，却仍然提出具体问题。Waseem 抛出了一个尖锐问题：“模型会不会意识到你给的是一份完全无关的文档？”

这套评测的数据、白皮书、排行榜全部开源，放在 GitHub 和 Hugging Face 上。他们的评分标准也很克制，只看两件事：答案是否正确，以及模型是否严格遵循了给定上下文（grounding）。

结果出人意料：越“会思考”的模型，越容易在金融场景中胡编

为什么这件事重要？因为它直接挑战了当下最流行的一个假设：引入“思考链”，模型就会更可靠。

Writer 选取了一批主流聊天模型和 thinking / reasoning 模型进行评测。初看结果，几乎所有模型在“能不能给出一个答案”这件事上都表现不错——不管是通用模型还是领域模型，分数都很接近，thinking model 甚至略高。

但问题出在第二个维度：grounding。当输入包含错误上下文、OCR 噪声或无关文档时，thinking model 的表现急转直下。Waseem 形容这一刻“事情开始变得非常有意思”：这些模型往往不会拒答，而是自信地给出一个“看起来很合理、但完全不基于上下文”的答案，直接导致幻觉率飙升。

在具体数字上，一些体量更大、更强调思考过程的模型，在 grounding 相关任务上的表现反而比小模型差 50%–70%。Waseem 指出一个反直觉现象：在金融领域，小模型有时比“过度思考”的模型更可靠。

他甚至抛出了一个带有挑衅意味的问题：“这到底是在思考，还是只是更长的 Chain of Thought？”至少从他们的金融评测数据来看，这些模型“并没有在真正理解上下文”，而是在更复杂地编造答案。

81% 的残酷现实：没有系统工程，模型永远不够可靠

为什么这件事重要？因为它给所有想“直接上大模型”的金融团队泼了一盆冷水。

即便在所有模型中选表现最好的一个，在鲁棒性和上下文遵循这两个关键指标上，最高也只能做到大约 81%。Waseem 给了一个非常直观的解读：“听起来是个不错的数字，但在现实中意味着——每 5 个请求里，就有 1 个是完全错误的。”

这也是他得出的核心结论之一：在当前技术条件下，想把大模型真正用在金融这样的高风险领域，单靠模型本身远远不够。你需要完整的系统工程——包括 RAG、严格的上下文约束、护栏机制，以及围绕模型构建的整体架构。

回到最初那个问题：我们还需不需要继续做领域专用模型？Waseem 的答案很直接：“是的，至少在今天，我们仍然需要。”原因不在于通用模型不聪明，而在于它们在上下文理解和约束遵循上，“远远落后于金融场景的要求”。

总结

这场演讲最有价值的地方，不在于证明某个模型更强，而在于揭示了一个被忽视的事实：当准确率进入 80%–90% 区间后，真正拉开差距的，是对错误、噪声和上下文的敬畏。Writer 的评测提醒我们，thinking model 并不天然更可靠，通用模型也并非“够用即正义”。在金融这样的真实世界里，领域模型、系统工程和清醒的预期管理，仍然缺一不可。

关键词：领域大模型，金融AI，幻觉，上下文遵循， Thinking Model

事实核查备注： Writer 成立时间：2020 年；模型数量：已发布约 16 个，约 20 个在开发中；通用模型准确率区间：80%–接近 90%；评测类别：Query Failure、Context Failure；最优模型在鲁棒性与 grounding 上约 81%；数据与排行榜开源于 GitHub 与 Hugging Face；提及模型示例：o1；核心人物：Waseem Alshikh（Writer 联合创始人兼 CTO）

返回文章列表