120万次评审背后:AI真能提升软件工程ROI吗?
正在加载视频...
视频章节
斯坦福对12万名开发者、46对团队的长期研究发现:AI并非“用得越多越好”。真正拉开差距的,是代码库卫生、使用方式,以及是否用正确的指标衡量AI带来的工程产出。
120万次评审背后:AI真能提升软件工程ROI吗?
斯坦福对12万名开发者、46对团队的长期研究发现:AI并非“用得越多越好”。真正拉开差距的,是代码库卫生、使用方式,以及是否用正确的指标衡量AI带来的工程产出。
一个反直觉的起点:我们到底该如何“测量”AI生产力?
为什么这么多公司砸下数百万美元采购AI编程工具,却始终说不清ROI?Yegor Denisov-Blanch给出的答案很直接:不是AI难衡量,而是我们一直在用错误的尺子。
在这项持续两年的斯坦福研究中,研究团队并没有依赖PR数量、代码行数或DORA指标,而是构建了一个颇为激进的方法:用机器学习模型“复制”一个由10到15位人类专家组成的评审团。每一次代码提交,专家会从实现时间、可维护性、复杂度等维度打分,而模型则在数百万次标注数据上训练,目标是尽可能逼近专家共识。
他强调,如果你不信模型,“你永远可以重新拉一个专家评审团,结果和模型输出高度相关”。这让研究首次具备了可规模化、可回溯的工程质量衡量方式,也为后续比较‘用了AI’和‘没用AI’的团队打下基础。
这一点非常关键,因为整场演讲的核心观点之一正是:如果你无法可靠地衡量工程产出,就不可能谈论AI的真实ROI。
10%的中位数背后:AI正在拉开“工程能力贫富差距”
在最核心的一组数据中,研究团队将46个使用AI的团队,与46个高度相似、未使用AI的团队进行季度级别的生产力对比。结果并不夸张:截至2025年7月,中位数净生产力提升约为10%。
真正值得警惕的,不是这个数字本身,而是分布形态。Yegor特别指出:“顶尖团队和落后团队之间的差距正在扩大。”如果将趋势线向前投射,会出现一种“富者愈富”的效应——早期成功采用AI的团队,其优势可能持续复利,而表现不佳的团队则不断落后。
这也是他反复强调给管理者的一句话:“如果你不知道自己处在哪个队列里,你就无法纠偏。”仅仅知道‘我们买了Copilot’远远不够,不测量影响,就无法判断AI是在放大优势,还是在掩盖问题。
这一段研究,把AI从“工具红利”重新拉回到“组织能力放大器”的位置:它不会自动拯救平庸团队,反而可能加速分化。
Token不是答案:为什么AI用得多,反而可能更糟?
一个让很多企业意外的发现,来自对“AI使用量”的分析。研究团队用“每位工程师每月消耗的token数”作为横轴,生产力提升作为纵轴,结果相关性只有约0.2。
更微妙的是,在约1000万token/月附近,出现了一个“死亡谷”:这些团队的表现,反而不如使用更少AI的团队。Yegor总结得非常直白:“AI usage quality matters more than AI usage volume。”
真正强相关的变量,是他们提出的“代码库环境清洁度指数”。这个实验性指标综合了测试覆盖、类型系统、文档、模块化和代码质量等因素。在0到1的尺度上,它与AI生产力提升呈现约0.4的R²相关性。
他用一张极具画面感的示意图解释这一点:在干净的代码库中,绿色区域(AI可完成大部分任务)显著扩大;而在高技术债环境下,AI输出大量被拒绝或重写,工程师迅速失去信任,最终“AI看起来完全没用”。
这里的警告非常清晰:不加约束地使用AI,会加速代码熵增;只有人类持续治理代码库,AI红利才能被长期释放。
当PR增长14%,ROI却可能是负的:一个真实案例
演讲中最具冲击力的,是最后的企业案例。一家大型企业,在某个350人的工程组织中,于5月引入AI工具。对比前后各4个月,Pull Request数量增长了14%。
如果故事到这里结束,AI显然是成功的。但研究继续追问:审查负担呢?代码质量呢?
结果令人不安。代码可维护性(0-10分量表)在引入AI后下降约9%,且波动明显增大;更糟的是,“返工”(rework)增加了2.5倍,而代表真实工程产出的“有效输出”几乎没有提升。
Yegor的总结近乎冷酷:“如果只看PR数量,这家公司会以为自己生产力提升了14%,甚至觉得AI已经回本。但更全面的衡量告诉我们,ROI可能是负的。”
重要的是,他并未因此否定AI,而是强调:测量的目的不是否定工具,而是找出用错的地方。AI不会消失,但不用数据约束的乐观,才是真正昂贵的幻觉。
总结
这项研究传递的信息并不轻松:AI不会自动带来工程奇迹。它放大的是既有的工程纪律、代码质量和组织成熟度。真正有价值的不是“是否上了AI”,而是是否用对指标、是否治理好代码库、是否理解工程产出与业务价值之间的关系。对每一位技术和工程负责人来说,问题已经从“要不要用AI”,变成了“我们是否具备用好AI的能力”。
关键词: AI生产力, 软件工程ROI, 代码质量, GitHub Copilot, Cursor
事实核查备注: 研究主体:斯坦福软件工程生产力研究;样本:约12万名开发者、46对团队;中位数生产力提升:约10%;token使用与生产力相关性:约0.2;代码库清洁度与生产力R²:约0.4;案例:PR增长14%,代码质量下降约9%,返工增加2.5倍;涉及产品:GitHub Copilot、Cursor。