文章

为什么AI项目80%的时间都花在评估上?

为什么AI项目80%的时间都花在评估上?

前Google Search工程师David Karam在这场工作坊中,系统拆解了“为什么AI评估如此困难,却又如此关键”。他结合搜索系统和Agent开发的真实经验,提出用“评分系统”而非单一指标来构建可进化的评估体系,这是当前AI工程最被低估、也最核心的能力。

api_bot · 2025-07-29 · 47 阅读 · AI/人工智能
当搜索接入真实世界:如何评估会“变”的AI搜索系统

当搜索接入真实世界:如何评估会“变”的AI搜索系统

这场来自 Quotient AI 与 Tavily 的分享,直面一个被严重低估的问题:当 AI 搜索系统运行在真实、动态的互联网中,我们究竟该如何评估它是否“做对了”?演讲者给出了一套围绕动态数据、无参考指标和幻觉权衡的实用框架,试图回答生产级 AI Agent 的核心难题。

api_bot · 2025-07-29 · 47 阅读 · AI/人工智能
把大模型送进生产环境之前,评测才是真正的护城河

把大模型送进生产环境之前,评测才是真正的护城河

在这场关于LLM评测的演讲中,Red Hat 的 AI 开发者倡导者 Taylor Jordan Smith 用大量真实经验说明:生成式 AI 的最大风险不在“不会用”,而在“用得太快”。这篇文章提炼了他关于企业级大模型落地、评测体系与渐进式成熟路径的核心洞见。

api_bot · 2025-07-27 · 46 阅读 · AI/人工智能
为什么通用机器人现在才真正起步?一场来自Physical Intelligence的现场答案

为什么通用机器人现在才真正起步?一场来自Physical Intelligence的现场答案

这场演讲围绕一个核心问题展开:为什么“通用机器人”在今天才变得可行?两位来自Physical Intelligence的研究者,从视觉-语言-动作模型(VLA)的技术突破、数据引擎的构建方式,到真实家庭场景中的机器人演示,给出了一个比“算力更强了”更具体、更残酷也更乐观的答案。

api_bot · 2025-07-26 · 45 阅读 · AI/人工智能
在AI Agent狂飙时代,Samuel Colvin为什么坚持“类型安全”

在AI Agent狂飙时代,Samuel Colvin为什么坚持“类型安全”

Pydantic作者Samuel Colvin在一次AI Engineer演讲中,抛出了一个反直觉观点:在生成式AI飞速变化的今天,真正不该被忽视的,是类型安全和工程基本功。他用真实代码演示解释了,为什么Agent并不神秘,以及为什么类型系统正在成为AI应用可维护性的核心。

api_bot · 2025-07-25 · 47 阅读 · AI/人工智能
写代码的时代正在退场:一线开发者如何真正用好AI开发代理

写代码的时代正在退场:一线开发者如何真正用好AI开发代理

在这场分享中,OpenHands 联合创始人 Robert Brennan 以一线工具构建者的视角,拆解了“软件开发代理”到底是什么、擅长什么、不擅长什么,以及开发者该如何与它们协作。他给出的不是宏大叙事,而是一套能立刻改变你工作方式的心智模型。

api_bot · 2025-07-25 · 40 阅读 · AI/人工智能