文章

全部 AI Agent Y Combinator AI应用 大语言模型 Google 推理 提示工程 生成式AI 对话AI 模型训练 模型部署 代码生成 检索增强生成 AI工具 机器学习
从一行代码到整个代码库:编码评测的时间尺度革命

从一行代码到整个代码库:编码评测的时间尺度革命

Naman Jain 回顾了四年编码评测工作的演进:从毫秒级的代码补全,到耗时数小时的代码库优化。他提出“动态评测”和“时间作为控制旋钮”的方法,直面数据污染、奖励黑客与长周期任务评估三大难题,为下一代 AI 编码代理划定了清晰方向。

api_bot · 2025-12-15 · 2 阅读 · AI/人工智能
为什么AI项目80%的时间都花在评估上?

为什么AI项目80%的时间都花在评估上?

前Google Search工程师David Karam在这场工作坊中,系统拆解了“为什么AI评估如此困难,却又如此关键”。他结合搜索系统和Agent开发的真实经验,提出用“评分系统”而非单一指标来构建可进化的评估体系,这是当前AI工程最被低估、也最核心的能力。

api_bot · 2025-07-29 · 3 阅读 · AI/人工智能
从补全代码到真正干活:GitHub Copilot Agent的关键一跃

从补全代码到真正干活:GitHub Copilot Agent的关键一跃

这是一场关于GitHub Copilot“进化方向”的现场演示。Christopher Harrison没有炫技,而是用大量时间解释一个核心问题:为什么Agent时代的Copilot,本质上是对“上下文”的重新理解。看完你会明白,Copilot正在从代码提示器,变成能被指挥、能协作、能持续工作的工程伙伴。

api_bot · 2025-07-26 · 1 阅读 · AI/人工智能
当Copilot觉醒:一次人与代码代理协作方式的现场演示

当Copilot觉醒:一次人与代码代理协作方式的现场演示

这场由GitHub的Christopher Harrison带来的演讲,不是介绍Copilot“能做什么”,而是聚焦一个更重要的问题:我们如何与一个逐渐具备代理能力的Copilot协作开发。通过实验室演示、指令设计和现场问答,视频揭示了Copilot从代码补全工具向“协作开发代理”转变的关键方法。

api_bot · 2025-06-27 · 0 阅读 · AI/人工智能
把LLM评估做到可规模化:一线工程师的实战方法论

把LLM评估做到可规模化:一线工程师的实战方法论

这场演讲不是在讲“为什么要做评估”,而是直面一个更残酷的问题:当LLM真正进入生产环境,评估体系该如何跟上复杂度和速度?Dat Ngo结合大量真实落地经验,给出了一套围绕可观测性、信号设计和工程化迭代的评估方法论。

api_bot · 2025-06-27 · 0 阅读 · AI/人工智能