前OpenAI首席研究官谈AI下一站:模型之外的真正挑战
在这期播客中,前OpenAI首席研究官Bob McGrew回顾了自己在OpenAI六年多的经历,并坦率讨论了一个被低估的问题:大模型已经很强,但人类到底该如何真正使用它们?从模型部署、组织设计到科研与软件工程的未来,他给出了少见的内部视角。
在这期播客中,前OpenAI首席研究官Bob McGrew回顾了自己在OpenAI六年多的经历,并坦率讨论了一个被低估的问题:大模型已经很强,但人类到底该如何真正使用它们?从模型部署、组织设计到科研与软件工程的未来,他给出了少见的内部视角。
如果你以为大模型只能“帮你写SQL”,那这场DevDay演示会直接刷新认知:Supabase把一整个Postgres数据库交给GPT-4o自主操作,还跑在浏览器里。不是概念,而是能自我修复、能做向量搜索、还能画图的真家伙。
在OpenAI DevDay的舞台上,DataKind抛出一个让AI从业者愣住的结论:在人道主义场景,AI不需要“接近完美”,70%的准确率就足以改变生死。这不是妥协,而是一套经过真实战场验证的工程理性。
当 GPT-4o mini 把 32k 成本从 120 美元打到 0.6 美元,很多人以为 AI 规模化已经变成“选便宜模型”的问题。但 OpenAI 在 DevDay 现场泼了一盆冷水:真正决定你能不能活下来的,不是成本,而是你是否先把准确率做到“商业可接受”。这场演讲,几乎是在拆穿所有 AI 应用的幻想。
在 OpenAI DevDay 的一个不起眼角落,Dimagi 分享了一个让很多 AI 从业者意外的结论:想把大模型用好在低资源语言上,最聪明的做法,可能不是“直接教模型说当地话”。他们用 GPT-4o mini 做机器翻译微调,把 Sheng 这种混合俚语的翻译 BLEU 分数从 22 拉到 65,成本却只要十分之一。
在 OpenAI DevDay 的一个并不起眼的社区演讲里,Dust 展示了一件让很多数据团队“后背一凉”的事:不用写 SQL、不用建 Dashboard,只靠一句自然语言,就能跨 Snowflake、Google Sheet、CSV 做复杂分析和可视化。这不是玩具 Demo,而是一整套已经跑在真实业务里的“自然语言 BI”。
在OpenAI DevDay的舞台上,Genmab抛出了一个让所有AI从业者竖起耳朵的说法:不是99%,而是100%准确率,AI才能真正进入临床试验核心流程。他们展示的不是Demo,而是一套已经把“小时级工作压缩到分钟级”的AI Agent框架。
在 OpenAI DevDay 2024 上,Mindtrip 的分享意外成了全场最“清醒”的一段:他们几乎没讲 Realtime API,也没炫技模型能力,而是用一个旅行产品,直接点破了当下多模态 AI 最大的幻觉——会看、会听、会说,远远不等于有用。
在 OpenAI DevDay 的舞台上,Genmab 抛出了一个让全场安静下来的观点:在临床试验里,99% 的准确率等于失败。他们展示了一套名为 CELI 的 AI Agent 框架,如何把原本需要数小时的人类专业工作,压缩到几分钟完成,而且目标只有一个——100% 可用于监管提交。
在人道救援领域,完美的数据从来不存在。OpenAI DevDay 上,DataKind 抛出一个反直觉结论:只要把数据“做得比错的多”,AI 就能真正救命。这不是炫技,而是一套被成本、速度和现实约束逼出来的生成式 AI 落地方法论。