从MVP到百万级医疗决策:如何构建可规模化的关键评估系统

AI PM 编辑部 · 2025年02月22日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

一位从临床医生转型为AI工程师的创业者,分享了他们在真实医疗场景中处理10万级决策时踩过的坑与破局方法。文章深入讲述了为何传统人工评审和离线评测会在规模化时失效,以及“实时、无参考评估”如何成为建立客户信任的关键基础设施。

从MVP到百万级医疗决策:如何构建可规模化的关键评估系统

一位从临床医生转型为AI工程师的创业者,分享了他们在真实医疗场景中处理10万级决策时踩过的坑与破局方法。文章深入讲述了为何传统人工评审和离线评测会在规模化时失效,以及“实时、无参考评估”如何成为建立客户信任的关键基础设施。

为什么“能跑的AI”远远不够:规模化才是真正的考验

这场演讲一开始,Christopher就点破了一个行业共识却常被忽略的事实:做出一个LLM驱动的MVP已经不难,难的是把它变成一个可以在关键场景下“长期、稳定、可信”运行的系统。他直言,“很多问题,只有在你真正到达规模时才会出现”。

在Anterior,他们的系统每天要处理与医疗保险相关的授权决策,直接影响治疗是否能被批准。这不是聊天机器人出错、推荐不准那么简单,而是“mission-critical”的决策——在医疗场景里,几乎没有犯错的空间。当服务对象覆盖到5000万美国人的保险体系时,哪怕每一万次出一次错,都会迅速累积成系统性风险。

这也是他反复强调规模效应的原因:请求量一旦上来,边缘案例(edge cases)的数量会指数级增长。那些在测试环境、早期客户中从未见过的问题,会在真实世界中不断冒出来。而如果你的评估体系本身不能实时发现这些问题,AI越聪明、用得越多,潜在风险反而越大。

一个“看起来正确”的错误:医疗语境里的致命细节

为了说明问题的复杂性,Christopher讲了一个非常具体、也极具说服力的医疗案例。他们的系统需要判断:一位患者是否曾有“可疑的”脑部MRI结果,从而决定是否批准进一步的颈椎MRI检查。

AI给出的答案在表面上几乎无可挑剔:它引用了病历日期、影像描述,并指出这些发现“consistent with multiple sclerosis(与多发性硬化一致)”。但问题恰恰出在这里。Christopher解释说,在医学语境中,“suspicious(可疑)”意味着尚未确诊,而这个患者事实上已经有明确诊断。

“在这种情况下,这不是‘可疑’,而是‘已确认’。”他强调。这个细微但关键的用词差异,使得整个判断在临床上是错误的。这样的错误也许“一千例才出现一次,甚至一万例一次”,但当系统每天处理超过10万例请求时,这就会变成一个必须正视的问题。它生动地说明了:医疗AI的失败,往往不是胡说八道,而是缺失了人类专家才会注意到的语境与隐含前提。

人工评审的极限:为什么“多招人”不是答案

面对高风险场景,最直觉的解法当然是人工审核。Anterior也确实这么做了:他们建立了一支内部临床团队,并开发了名为“Scalp”的评审仪表盘,把病历、指南和问题上下文集中展示,让医生可以快速判断对错、写下批注。

这些批注不仅用于纠错,还会被进一步转化为“ground truth(标准答案)”,用于后续的离线评估数据集。这听起来是一个完美闭环,但Christopher很快指出了它的致命问题:不具备可扩展性。

他用一组非常直观的数字说明这一点:如果每天1000个决策,审核50%意味着需要5名医生;当决策量涨到1万、10万时,要维持同样比例,团队规模会膨胀到几十人,甚至超过整个公司的人数。缩小抽检比例虽然能暂时缓解成本,但随规模增长,问题会再次出现。

于是他们被迫直面两个根本问题:第一,究竟哪些案例“值得”被人工审核?第二,那些没被审核的案例,我们到底表现得如何?

实时、无参考评估:把“评估”前移到生产环境

答案并不在更多人力或更大的离线数据集里,而在一种全新的评估思路上。Christopher将其称为“real-time, reference-free evals(实时、无参考评估)”。所谓“无参考”,指的是在还不知道真实答案、还没做人类审核之前,就对AI输出进行质量判断。

在实践中,一个重要工具是“LLM as Judge”。系统的主模型给出决策后,再由另一个模型根据预设评分标准进行评估,例如:输出是否有信心是正确的。在Anterior,他们的核心输出是一个二分类结果——直接批准,或升级给人工审核——而评估模型会给出一个置信度等级。

这个置信度并不只是一个分数,而是一个可以被系统消费的信号。他们可以实时估算整体表现,把结果反馈给客户;也可以将评估结果与少量人工审核对比,计算两者的“alignment(一致性)”,判断评估系统本身是否值得信任。

更关键的是,这些置信度还能与业务因素结合,比如治疗成本、潜在偏差风险、历史错误率,用来动态决定哪些案例优先进入人工审核队列。正如Christopher所说,这本质上是在“validating the validator(验证评估者)”。

规模化之后的结果:用不到10人,支撑10万级决策

这套系统最终带来的影响是非常具体、可量化的。Christopher提到,他们的一位主要竞争对手雇佣了800多名护士来做人类审核,而Anterior用不到10名临床专家,就能审核和支撑每天数以万计的医疗决策。

经过多轮迭代,他们的AI评估结果与人类审核之间的对齐程度,已经“可与人类审核员之间的对齐程度相当”。这使他们能够快速发现并修复错误,同时仍然满足客户对响应时间的SLA要求。

在一项近期研究中,他们在事前授权(prior authorization)任务上的F1分数接近96%。但比指标更重要的是客户情绪的变化。他分享了一个细节:在一个案例研究中,当一位护士被告知可以继续使用他们的AI系统时,她的反应是——“Thank God we’re lucky ones.”

在演讲结尾,Christopher总结了三条原则:第一,不要只用评审数据来审计模型,而要用它来改进评估系统本身;第二,在真实生产数据上做评估,而不是只依赖离线数据;第三,找最好的评审者,优先质量而非数量,并为他们打造合适的工具。

总结

这场演讲的价值,并不在于某个具体算法,而在于一种极其现实的工程哲学:当AI开始介入关键决策,评估系统本身就必须成为一等公民。Anterior的经验提醒我们,真正难以复制的壁垒,不是模型参数,而是通过海量真实数据、持续迭代建立起来的“可信评估能力”。对所有想把LLM推向严肃行业的团队来说,这可能比模型选型更重要。


关键词: 医疗AI, 大语言模型评估, LLM as Judge, 实时评估, AI规模化

事实核查备注: 演讲者:Christopher(医疗医生转型AI工程师);公司:Anterior;场景:美国医疗保险事前授权(prior authorization);规模:每日处理>100,000医疗决策;方法:实时无参考评估(reference-free evals)、LLM as Judge;系统名称:Scalp;指标:F1分数接近96%;对比:竞争对手雇佣800+护士,Anterior<10名临床专家。