他们用AI代理把临床试验文书从“小时级”压到“分钟级”
在 OpenAI DevDay 的舞台上,Genmab 抛出了一个让全场安静下来的观点:在临床试验里,99% 的准确率等于失败。他们展示了一套名为 CELI 的 AI Agent 框架,如何把原本需要数小时的人类专业工作,压缩到几分钟完成,而且目标只有一个——100% 可用于监管提交。
在 OpenAI DevDay 的舞台上,Genmab 抛出了一个让全场安静下来的观点:在临床试验里,99% 的准确率等于失败。他们展示了一套名为 CELI 的 AI Agent 框架,如何把原本需要数小时的人类专业工作,压缩到几分钟完成,而且目标只有一个——100% 可用于监管提交。
如果AI Agent不是帮你跑5分钟任务,而是能连续“活”上一周,会发生什么?在OpenAI DevDay上,Altera给出了一个让全场安静的答案:AI会自发形成宗教、经济、协作与长期目标。这不是科幻,而是一次对Agent致命缺陷的正面挑战。
在 OpenAI DevDay 的舞台上,Sierra 抛出一个让所有 AI Agent 团队不太舒服的事实:你的智能体“看起来能跑”,并不等于“真的可靠”。TAU-bench 用一种近乎残酷的方式证明——只跑一次评测,几乎毫无意义。
如果你以为做AI Agent需要博士级研究背景,Swyx用9分钟把这个幻觉击碎:真正决定成败的不是模型,而是你脑中那张“Agent栈”的地图。这场DevDay分享,把过去一年社区最有效的实战经验压缩成一份工程师可直接复用的清单。
在OpenAI DevDay的社区分享中,Parloa抛出了一个反直觉判断:真正要被淘汰的不是人工客服,而是“按键式”的客户体验。借助GPT-4o、多智能体和人类在环机制,他们正在把呼叫中心推向一个几乎没人预料到的方向。
如果你还把模型升级理解为“更聪明一点”,那你已经落后了。Dev Day Holiday Edition 第9天,OpenAI几乎没有谈AGI,却用一连串开发者级更新给出了更残酷的答案:真正的竞争,已经从模型能力,转向谁更快把AI变成系统、产品和现金流。
Fireworks CEO Lyn Chia 在 RedpointAI 的对话中,系统阐述了她对 AI 推理、复合模型架构以及产品化落地的判断:未来不会由单一大模型统治,而是由大量小模型协同工作。本文提炼了她关于推理系统、微调、AI Agent 与 Hyperscaler 角色的关键洞见。
这是一场少见的、不粉饰创业过程的对话。Scale AI创始人Alexandr Wang回顾了从“还没开始”的混乱阶段,到押注数据与AI基础设施的关键决策,并分享了他对AI Agent、开源模型与地缘政治的长期判断。
当AI Agent开始被当作“员工替代品”而非工具,软件的定价逻辑正在发生根本变化。从OpenAI CFO谈2.2万美元月费,到按结果付费的新模式,这期视频揭示了一个即将重塑SaaS行业的关键拐点。
这期《The AI Daily Brief》没有停留在“AI会不会让人失业”的情绪化讨论,而是给出了一套清晰、可操作的判断框架:AI替代不是瞬时的岗位消失,而是分阶段、以任务为单位重塑工作。文章通过微软、Finastra、Bell Canada 等真实案例,拆解AI如何从“试验工具”走向“成本武器”,再演进为“创造机会的引擎”。