从一行代码到整个代码库:编码评测的时间尺度革命
Naman Jain 回顾了四年编码评测工作的演进:从毫秒级的代码补全,到耗时数小时的代码库优化。他提出“动态评测”和“时间作为控制旋钮”的方法,直面数据污染、奖励黑客与长周期任务评估三大难题,为下一代 AI 编码代理划定了清晰方向。
Naman Jain 回顾了四年编码评测工作的演进:从毫秒级的代码补全,到耗时数小时的代码库优化。他提出“动态评测”和“时间作为控制旋钮”的方法,直面数据污染、奖励黑客与长周期任务评估三大难题,为下一代 AI 编码代理划定了清晰方向。
前Google Search工程师David Karam在这场工作坊中,系统拆解了“为什么AI评估如此困难,却又如此关键”。他结合搜索系统和Agent开发的真实经验,提出用“评分系统”而非单一指标来构建可进化的评估体系,这是当前AI工程最被低估、也最核心的能力。
这是一场关于GitHub Copilot“进化方向”的现场演示。Christopher Harrison没有炫技,而是用大量时间解释一个核心问题:为什么Agent时代的Copilot,本质上是对“上下文”的重新理解。看完你会明白,Copilot正在从代码提示器,变成能被指挥、能协作、能持续工作的工程伙伴。
Anthropic 的 Boris Cherny 通过回顾编程工具的百年演进,解释了为什么“智能体式编程”不是噱头,而是一次必然的 UX 变革。本文还原他在 Claude Code 发布演讲中的核心洞见、真实故事与具体实践。
这场来自微软的分享,不是教你“怎么用Copilot写代码”,而是展示如何把AI代理真正嵌入软件开发工作流。通过现场演示和大量问答,演讲者拆解了Copilot Coding Agent的工作方式、适合的任务边界,以及最容易被忽视的安全与协作问题。
这场由GitHub的Christopher Harrison带来的演讲,不是介绍Copilot“能做什么”,而是聚焦一个更重要的问题:我们如何与一个逐渐具备代理能力的Copilot协作开发。通过实验室演示、指令设计和现场问答,视频揭示了Copilot从代码补全工具向“协作开发代理”转变的关键方法。
这场演讲不是在教你“如何用AI写代码”,而是在拆解一个更难的问题:当Vibe Coding从个人实验走向企业规模时,哪些地方一定会出问题,又该如何修正。Harald Kirshner用现场演示和反思,讲清了定制化AI助手的边界与可能性。
这场演讲不是在讲“为什么要做评估”,而是直面一个更残酷的问题:当LLM真正进入生产环境,评估体系该如何跟上复杂度和速度?Dat Ngo结合大量真实落地经验,给出了一套围绕可观测性、信号设计和工程化迭代的评估方法论。
这场演讲分享了Cato在构建云架构AI Copilot过程中的真实探索:为什么传统自动化不够用,以及如何通过多智能体、图结构和严谨评估,让AI参与复杂的架构推理与决策。
这是一段关于快速转型与技术判断的真实创业故事。Windsurf 的 CEO 回顾了公司如何在极短时间内完成方向切换、正面迎战 GitHub Copilot,并给出他对 AI 代理、软件民主化以及“氛围式编程”的冷静思考。