Devin 2.0背后的节奏:AI工程师如何被重新定义

AI PM 编辑部 · 2025年07月25日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

Cognition创始人Scott Wu回顾了过去12-18个月打造Devin的真实经历,提出了一个判断AI Agent能力的关键指标,并用多个阶段性故事解释:为什么软件工程正在从“人写代码”走向“人管理Agent”。

Devin 2.0背后的节奏:AI工程师如何被重新定义

Cognition创始人Scott Wu回顾了过去12-18个月打造Devin的真实经历,提出了一个判断AI Agent能力的关键指标,并用多个阶段性故事解释:为什么软件工程正在从“人写代码”走向“人管理Agent”。

用“能独立干多久”衡量AI:一条属于Agent的摩尔定律

为什么有些AI Demo看起来很强,却很难真正落地?Scott Wu给出了一个极具启发性的判断标准:不要看模型有多聪明,而要看它在没有人类介入的情况下,能连续完成多少工作。他把这称为“AI Agent的摩尔定律”。

在他看来,Agent能力的本质不是单点智力,而是“不中断工作的时长”。只要人类需要频繁介入、纠错、引导,Agent就还停留在低阶阶段。而一旦这个时间窗口被拉长,整个交互方式、瓶颈和使用心智都会发生变化。他在现场直言:“the bottleneck… actually change at each point.”

这个视角之所以重要,是因为它直接影响产品设计。你是在做一个随时需要人盯着的Copilot,还是一个可以被信任、被托付任务的Agent?Devin的整个演进路径,正是围绕这个问题展开的。

第一阶段:重复任务与“记性不好”的AI

回到时间线的起点,Scott把我们带回到去年夏天。那时Devin最典型的使用场景,其实非常朴素:反复做同一类工程任务。比如跑测试、修相似的Bug、执行固定流程。

但问题很快暴露出来:AI会“忘事”。如果一个步骤没有被明确写进提示,它下次很可能就不做了。于是工程师不得不反复提醒,“你要记得做X”。Scott把这一阶段的核心挑战总结为“memory”。

这不是模型参数的问题,而是Agent如何在多轮任务中形成稳定行为模式的问题。这个阶段的Devin,更像一个需要人不断叮嘱的实习生。它能干活,但你还不敢完全放手。Scott明确指出,这正是他们在去年夏天真实经历的瓶颈。

从“实习生”到“初级同事”:请求开始变复杂

转折发生在夏末到秋天。随着系统能力提升,用户不再满足于让Devin执行单一、重复的指令,而是开始抛出更宽泛的请求:一整个Bug、一组相关修改,甚至带有模糊目标的工程需求。

Scott形容那时的Devin“almost like a junior buddy of yours”。这是一个重要变化:用户开始用对待人的方式对待Agent,而不是像操作工具那样使用它。

但这也带来了新问题。请求变宽之后,Agent需要自己拆解任务、理解上下文、决定下一步行动。这一阶段暴露的瓶颈,不再是记忆,而是任务理解与执行路径选择。Devin开始显露“工程思维”,但还不稳定。

80%-90%的工作交给Agent:人开始退居二线

进入今年春天,节奏再次加快。Scott提到,几乎每两三个月,系统就会跨过一个能力鸿沟。此时的Devin,已经可以在明确任务目标后,独立完成80%到90%的实际工作。

人类工程师的角色开始变化:不再是一步步指导,而是定义任务、检查结果、做最后的决策。“the task and then have it do work on its own”,这是他对这一阶段的总结。

而到了6月,也就是他演讲时的“现在”,Scott用一句极其夸张但真实的表达来形容Devin的状态:“really the ability to just truly just kill your backlog。”Agent第一次被用来系统性地清空积压任务,而不是完成单点Demo。

下一道难关:测试与上下文,而不是更聪明的模型

当Agent能独立工作时,新的天花板也随之出现。Scott坦言,当前最难的问题之一,其实是测试本身。Agent如何验证自己的修改没有引入新问题?如何在复杂上下文中判断“做完了”?

他指出,这已经不是单纯堆模型能力能解决的,而是Agent系统设计的问题。测试、上下文管理、失败恢复,将成为下一阶段的核心战场。

尽管如此,他对未来12个月极度乐观,预测Agent能力还会出现16到64倍的跃迁。这不是一句营销口号,而是基于过去一年亲身经历的节奏判断。

总结

Scott Wu的分享并不是一场关于模型参数的技术报告,而是一份难得的“第一视角进化史”。从记性不好的AI,到可以清空工程Backlog的Agent,Devin的每一次跃迁,都改变了人类工程师的工作方式。真正的分水岭,不是AI会不会写代码,而是我们是否愿意把一段完整的责任交给它。这,或许才是软件工程未来的核心命题。


关键词: Devin, AI Agent, 软件工程, Cognition, Scott Wu

事实核查备注: 视频信息来源于YouTube频道AI Engineer;演讲者为Cognition的Scott Wu;产品名称为Devin;关键时间节点包括去年夏天、秋天、今年春天和6月;预测提到未来12个月Agent能力提升16-64倍;核心概念包括AI Agent、memory、testing、backlog。