为什么90%的GenAI项目卡在规模化?AWS架构师的7个评估习惯

AI PM 编辑部 · 2025年06月03日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

AWS首席应用AI架构师Justin Mohler基于多年一线经验指出:生成式AI无法规模化,最大瓶颈不是模型,而是评估体系。本文通过真实失败与逆袭案例,系统拆解他提出的“高效GenAI评估七大习惯”,解释为什么评估不是打分工具,而是发现问题、驱动成功的核心引擎。

为什么90%的GenAI项目卡在规模化?AWS架构师的7个评估习惯

AWS首席应用AI架构师Justin Mohler基于多年一线经验指出:生成式AI无法规模化,最大瓶颈不是模型,而是评估体系。本文通过真实失败与逆袭案例,系统拆解他提出的“高效GenAI评估七大习惯”,解释为什么评估不是打分工具,而是发现问题、驱动成功的核心引擎。

规模化GenAI的最大敌人,不是幻觉而是“没有评估”

为什么这么多生成式AI项目能做出漂亮的POC,却一到生产就夭折?Justin Mohler在演讲一开始就给出一个反直觉的答案:最大的问题不是成本、算力、准确率,甚至不是大家最担心的“幻觉”,而是——根本没有评估体系。

他直言:“在我帮助客户扩展GenAI工作负载的经验中,排名第一的问题始终是缺乏评估。”在AWS内部,他和团队接触过从初创公司到北美最大企业的各种项目,成功与失败的分水岭高度一致:有没有系统化的评估。

很多团队在POC阶段凭感觉判断效果,一旦要扩展,就发现没人说得清模型到底哪里错、为什么错、该先修哪一步。Justin把评估称为“规模化GenAI的缺失拼图”,因为只有当评估存在,工程团队才第一次真正“看见”系统的行为模式,而不是盲人摸象。

这个观点之所以重要,是因为它改变了问题定义:如果你把GenAI的问题看成模型能力不足,你会不断换模型;如果你把问题看成评估缺失,你才会开始真正的工程化。

从22%到92%:一个差点被砍掉的真实项目

为了证明评估的力量,Justin分享了一个发生在2024年的真实客户案例。那年7月,他作为升级支持介入一个文档处理项目:6到12个月、6到8名工程师,最终准确率只有22%,客户已经在考虑终止项目。

令人震惊的是,问题并不在模型或数据,而是——“他们完全没有任何评估。”Justin回忆道。当他为该项目设计并引入评估框架后,系统的问题分布立刻变得清晰:哪些错误来自OCR,哪些来自提示词,哪些其实根本不需要用GenAI。

一旦问题被定位,修复反而变得“微不足道”。接下来的6个月里,团队一边完善评估,一边针对性修复缺陷。到2025年1月,准确率达到92%,超过客户设定的90%生产门槛,项目正式上线,并在当时成为AWS北美最大的文档处理工作负载。

这个故事的关键转折不在技术突破,而在认知转变:评估不是项目末尾的验收步骤,而是整个系统的“导航仪”。没有它,再多工程投入都可能南辕北辙。

评估不是打分,而是用来“发现问题”的

很多传统机器学习从业者对“评估”的理解,停留在F1、Precision、Recall这些质量指标上。Justin明确指出,这种理解在生成式AI时代已经远远不够。

“评估当然会产生分数,但那只是很小的一部分价值。”他强调,真正的目标是发现问题,并暗示解决路径。如果一个评估体系只能告诉你80分,却说不清错在哪里,那它对规模化几乎没有帮助。

他用一个形象的类比解释:人类几百年来一直在给自由文本打分——大学论文。优秀的教授不会只给分数,而会指出论证漏洞、逻辑跳跃和改进方向。GenAI评估也应该如此,不仅看输出,还要检查推理过程。

Justin甚至警告,仅凭最终输出“看起来对”是危险的。一个总结天气的系统,可能在简单场景下表现良好,但如果你不理解它的推理方式,就无法判断它在极端情况是否可靠。这正是很多项目无法扩展的根本原因。

先拆提示,再谈评估:Prompt Decomposition的力量

在介绍七个习惯之前,Justin特意停下来讲了一个关键前提:提示拆解(Prompt Decomposition)。原因很简单——评估只能附着在单个提示上,提示越大,调试越困难。

他的建议是把复杂提示拆成链式步骤,每一步都可以单独评估。这不仅提升可解释性,还能帮助团队判断:这一步真的需要GenAI吗?

他分享了一个天气场景的例子:原本让模型做自然语言理解和数学计算,结果误差不断。在拆解后,团队发现数学部分用Python处理可以达到100%准确率,GenAI只负责语言生成。准确率提升的同时,成本和复杂度都下降。

此外,拆解后的步骤还能做语义路由(semantic routing),不同输入走不同路径,每一步都有独立评估。这种设计让系统更便宜、更清晰,也更容易规模化。

高效生成式AI评估的七个习惯

在此基础上,Justin总结了“高效生成式AI评估”的七个习惯,其中核心思想高度一致:让系统变得可调、可控、可解释。

第一,评估要快。只有足够快,工程师才会频繁使用它,形成迭代闭环。第二,评估要可量化,用大量测试样本来平均掉模型的随机性。第三,评估要可解释,必须检查推理过程,而不只是答案。

第四,评估要分段,对每个链式步骤独立评估。第五,测试集要多样化,覆盖真实世界的边缘情况。第六,别忽视传统方法:数值校验、延迟、成本、检索指标依然非常强大。

在他展示的完整框架中,一切从高质量的“黄金标准集”开始——而且明确强调不应盲目用GenAI生成。输入经过提示模板和模型,产生输出和推理,再由评估器与黄金标准对比,最终汇总趋势,指出系统“为什么对、为什么错”。这才是一个能支撑长期演进的评估体系。

总结

Justin Mohler的演讲传递了一个清晰而残酷的信号:生成式AI的竞争优势,不在模型参数,而在评估能力。评估决定你是否真正理解自己的系统,也决定你能否从一次成功走向长期规模化。对任何认真对待GenAI的团队来说,投入评估不是成本,而是最确定的ROI。


关键词: 生成式AI评估, AWS, Prompt Decomposition, GenAI规模化, AI工程

事实核查备注: 演讲者:Justin Mohler(AWS Principal Applied AI Architect);公司:Amazon / AWS;时间节点:2024年7月介入项目,2025年1月达到92%准确率;关键数字:22%→92%,90%生产阈值;概念:GenAI Evaluations、Prompt Decomposition、Semantic Routing、F1/Precision/Recall;案例:文档处理工作负载、天气示例、Python数学计算。