50分钟讲清AI评测:从人工标注到LLM裁判的真实路径
这是一堂面向初学者却不止于入门的AI评测课程。视频通过一个“并不性感但极其关键”的实操示例,讲清楚为什么AI eval正在成为核心基础设施,以及如何从人工标注数据集一步步过渡到“LLM as a judge”的评测体系。
这是一堂面向初学者却不止于入门的AI评测课程。视频通过一个“并不性感但极其关键”的实操示例,讲清楚为什么AI eval正在成为核心基础设施,以及如何从人工标注数据集一步步过渡到“LLM as a judge”的评测体系。
这篇文章还原了Gamma创始人Jon Noronha在一次深度访谈中分享的核心思考:为什么“空白页问题”是AI应用层最好的切入口,以及他们如何在模型快速更迭的时代,通过产品形态、提示工程和成本控制,构建一个不依赖单一模型的演示文稿生成系统。
如果你还觉得“做App”一定要会前端、后端、部署,那这条视频会直接击穿你的认知。27分钟,一个完整的移动应用,从想法到App Store构建,全程由AI完成,人类只负责提需求和做判断。
这篇文章梳理了《The AI Daily Brief》在GPT-5刚发布阶段总结的一套全新提示工程方法论。你将看到:为什么GPT-5对提示词“异常挑剔”,哪些简单却反直觉的技巧能显著提升输出质量,以及OpenAI官方在暗示我们如何与更强大的模型协作。
如果你还以为 Figma 只是“画界面”的工具,这场 Office Hours 会直接打脸。Figma Sites 把响应式布局、交互、发布,甚至代码层都拉进了设计工具里。更反直觉的是:它不是在替代前端,而是在重写“设计到上线”的分工逻辑。
这场 Figma 官方直播丢出了一个反直觉结论:决定 AI 能不能把设计“变成应用”的,不是模型能力,而是你对设计文件的管理方式。Auto Layout、图层命名、Prompt 拆分,这些看似“基础”的细节,正在成为新的生产力分水岭。
这是一份基于500名一线工程师的真实调查,揭示了2025年AI工程的实际状态:经验丰富的工程师依然“很新手”,LLM已无处不在,但工程体系却明显滞后。演讲用大量数据和幽默,勾勒出一个快速演进却充满结构性痛点的行业。
这是一场关于实时语音AI的“反直觉”分享:模型能力并不是决定体验的关键,延迟才是。来自 OpenAI 和 Daily 的工程师,用一次紧张又好笑的现场 Demo,拆解了语音 AI 成败背后的真实技术逻辑。
曾被骂“作弊工具”“脑腐烂制造机”的 ChatGPT,如今被 OpenAI 教育负责人称为“世界上最大的学习平台”。更反直觉的是:真正改变教育的不是答案生成,而是一种全新的“AI 导师”模式。这期播客里,学生、学校和 OpenAI 罕见站在同一条线上。
随着AI从“写代码”进化为“执行代码”,安全问题被推到台前。OpenAI安全工程师Fouad Matin结合Codex与代码执行智能体的实践,讲述了为何所有AI都会变成代码执行者,以及如何通过沙箱、权限与人类审查,避免这股力量反噬。