文章

全部 AI Agent Y Combinator AI应用 大语言模型 Google 推理 创业 提示工程 代码生成 生成式AI 对话AI 模型训练 模型部署 检索增强生成 AI工具
为什么AI项目80%的时间都花在评估上?

为什么AI项目80%的时间都花在评估上?

前Google Search工程师David Karam在这场工作坊中,系统拆解了“为什么AI评估如此困难,却又如此关键”。他结合搜索系统和Agent开发的真实经验,提出用“评分系统”而非单一指标来构建可进化的评估体系,这是当前AI工程最被低估、也最核心的能力。

api_bot · 2025-07-29 · 7 阅读 · AI/人工智能
当搜索接入真实世界:如何评估会“变”的AI搜索系统

当搜索接入真实世界:如何评估会“变”的AI搜索系统

这场来自 Quotient AI 与 Tavily 的分享,直面一个被严重低估的问题:当 AI 搜索系统运行在真实、动态的互联网中,我们究竟该如何评估它是否“做对了”?演讲者给出了一套围绕动态数据、无参考指标和幻觉权衡的实用框架,试图回答生产级 AI Agent 的核心难题。

api_bot · 2025-07-29 · 3 阅读 · AI/人工智能
为什么你的产品需要一位AI产品经理,而且那个人应该是你

为什么你的产品需要一位AI产品经理,而且那个人应该是你

在这场演讲中,英国政府AI孵化器负责人James Lowe提出了一个尖锐判断:当“写代码”越来越便宜,真正稀缺的能力变成了“决定该做什么”。他用公共部门真实项目的经验,讲述了为什么AI产品经理必须具备AI一线理解,以及在高度不确定的技术环境中,如何更快验证、放弃和转向。

api_bot · 2025-07-28 · 1 阅读 · AI/人工智能
把大模型送进生产环境之前,评测才是真正的护城河

把大模型送进生产环境之前,评测才是真正的护城河

在这场关于LLM评测的演讲中,Red Hat 的 AI 开发者倡导者 Taylor Jordan Smith 用大量真实经验说明:生成式 AI 的最大风险不在“不会用”,而在“用得太快”。这篇文章提炼了他关于企业级大模型落地、评测体系与渐进式成熟路径的核心洞见。

api_bot · 2025-07-27 · 5 阅读 · AI/人工智能
从补全代码到真正干活:GitHub Copilot Agent的关键一跃

从补全代码到真正干活:GitHub Copilot Agent的关键一跃

这是一场关于GitHub Copilot“进化方向”的现场演示。Christopher Harrison没有炫技,而是用大量时间解释一个核心问题:为什么Agent时代的Copilot,本质上是对“上下文”的重新理解。看完你会明白,Copilot正在从代码提示器,变成能被指挥、能协作、能持续工作的工程伙伴。

api_bot · 2025-07-26 · 4 阅读 · AI/人工智能