为什么90%的GenAI项目卡在规模化？AWS架构师的7个评估习惯

AI PM 编辑部 · 2025年06月03日 · 17 阅读 · AI/人工智能

正在加载视频...

视频章节

AWS首席应用AI架构师Justin Mohler基于多年一线经验指出：生成式AI无法规模化，最大瓶颈不是模型，而是评估体系。本文通过真实失败与逆袭案例，系统拆解他提出的“高效GenAI评估七大习惯”，解释为什么评估不是打分工具，而是发现问题、驱动成功的核心引擎。

为什么90%的GenAI项目卡在规模化？AWS架构师的7个评估习惯

AWS首席应用AI架构师Justin Mohler基于多年一线经验指出：生成式AI无法规模化，最大瓶颈不是模型，而是评估体系。本文通过真实失败与逆袭案例，系统拆解他提出的“高效GenAI评估七大习惯”，解释为什么评估不是打分工具，而是发现问题、驱动成功的核心引擎。

规模化GenAI的最大敌人，不是幻觉而是“没有评估”

为什么这么多生成式AI项目能做出漂亮的POC，却一到生产就夭折？Justin Mohler在演讲一开始就给出一个反直觉的答案：最大的问题不是成本、算力、准确率，甚至不是大家最担心的“幻觉”，而是——根本没有评估体系。

他直言：“在我帮助客户扩展GenAI工作负载的经验中，排名第一的问题始终是缺乏评估。”在AWS内部，他和团队接触过从初创公司到北美最大企业的各种项目，成功与失败的分水岭高度一致：有没有系统化的评估。

很多团队在POC阶段凭感觉判断效果，一旦要扩展，就发现没人说得清模型到底哪里错、为什么错、该先修哪一步。Justin把评估称为“规模化GenAI的缺失拼图”，因为只有当评估存在，工程团队才第一次真正“看见”系统的行为模式，而不是盲人摸象。

这个观点之所以重要，是因为它改变了问题定义：如果你把GenAI的问题看成模型能力不足，你会不断换模型；如果你把问题看成评估缺失，你才会开始真正的工程化。

从22%到92%：一个差点被砍掉的真实项目

为了证明评估的力量，Justin分享了一个发生在2024年的真实客户案例。那年7月，他作为升级支持介入一个文档处理项目：6到12个月、6到8名工程师，最终准确率只有22%，客户已经在考虑终止项目。

令人震惊的是，问题并不在模型或数据，而是——“他们完全没有任何评估。”Justin回忆道。当他为该项目设计并引入评估框架后，系统的问题分布立刻变得清晰：哪些错误来自OCR，哪些来自提示词，哪些其实根本不需要用GenAI。

一旦问题被定位，修复反而变得“微不足道”。接下来的6个月里，团队一边完善评估，一边针对性修复缺陷。到2025年1月，准确率达到92%，超过客户设定的90%生产门槛，项目正式上线，并在当时成为AWS北美最大的文档处理工作负载。

这个故事的关键转折不在技术突破，而在认知转变：评估不是项目末尾的验收步骤，而是整个系统的“导航仪”。没有它，再多工程投入都可能南辕北辙。

评估不是打分，而是用来“发现问题”的

很多传统机器学习从业者对“评估”的理解，停留在F1、Precision、Recall这些质量指标上。Justin明确指出，这种理解在生成式AI时代已经远远不够。

“评估当然会产生分数，但那只是很小的一部分价值。”他强调，真正的目标是发现问题，并暗示解决路径。如果一个评估体系只能告诉你80分，却说不清错在哪里，那它对规模化几乎没有帮助。

他用一个形象的类比解释：人类几百年来一直在给自由文本打分——大学论文。优秀的教授不会只给分数，而会指出论证漏洞、逻辑跳跃和改进方向。GenAI评估也应该如此，不仅看输出，还要检查推理过程。

Justin甚至警告，仅凭最终输出“看起来对”是危险的。一个总结天气的系统，可能在简单场景下表现良好，但如果你不理解它的推理方式，就无法判断它在极端情况是否可靠。这正是很多项目无法扩展的根本原因。

先拆提示，再谈评估：Prompt Decomposition的力量

在介绍七个习惯之前，Justin特意停下来讲了一个关键前提：提示拆解（Prompt Decomposition）。原因很简单——评估只能附着在单个提示上，提示越大，调试越困难。

他的建议是把复杂提示拆成链式步骤，每一步都可以单独评估。这不仅提升可解释性，还能帮助团队判断：这一步真的需要GenAI吗？

他分享了一个天气场景的例子：原本让模型做自然语言理解和数学计算，结果误差不断。在拆解后，团队发现数学部分用Python处理可以达到100%准确率，GenAI只负责语言生成。准确率提升的同时，成本和复杂度都下降。

此外，拆解后的步骤还能做语义路由（semantic routing），不同输入走不同路径，每一步都有独立评估。这种设计让系统更便宜、更清晰，也更容易规模化。

高效生成式AI评估的七个习惯

在此基础上，Justin总结了“高效生成式AI评估”的七个习惯，其中核心思想高度一致：让系统变得可调、可控、可解释。

第一，评估要快。只有足够快，工程师才会频繁使用它，形成迭代闭环。第二，评估要可量化，用大量测试样本来平均掉模型的随机性。第三，评估要可解释，必须检查推理过程，而不只是答案。

第四，评估要分段，对每个链式步骤独立评估。第五，测试集要多样化，覆盖真实世界的边缘情况。第六，别忽视传统方法：数值校验、延迟、成本、检索指标依然非常强大。

在他展示的完整框架中，一切从高质量的“黄金标准集”开始——而且明确强调不应盲目用GenAI生成。输入经过提示模板和模型，产生输出和推理，再由评估器与黄金标准对比，最终汇总趋势，指出系统“为什么对、为什么错”。这才是一个能支撑长期演进的评估体系。

总结

Justin Mohler的演讲传递了一个清晰而残酷的信号：生成式AI的竞争优势，不在模型参数，而在评估能力。评估决定你是否真正理解自己的系统，也决定你能否从一次成功走向长期规模化。对任何认真对待GenAI的团队来说，投入评估不是成本，而是最确定的ROI。

关键词：生成式AI评估， AWS， Prompt Decomposition， GenAI规模化， AI工程

事实核查备注：演讲者：Justin Mohler（AWS Principal Applied AI Architect）；公司：Amazon / AWS；时间节点：2024年7月介入项目，2025年1月达到92%准确率；关键数字：22%→92%，90%生产阈值；概念：GenAI Evaluations、Prompt Decomposition、Semantic Routing、F1/Precision/Recall；案例：文档处理工作负载、天气示例、Python数学计算。

返回文章列表