从Paper Club到DeepSeek R1:一次关于推理、蒸馏与时间检验的复盘
这场Latent Space Paper Club的特别版,不只是回顾一年多的论文讨论,更借DeepSeek R1/V3这篇“经得起时间考验”的论文,系统讲清了推理模型、蒸馏路线以及训练方法上的关键取舍。你能看到一个技术社区如何成长,也能理解DeepSeek为何在推理能力上引发关注。
这场Latent Space Paper Club的特别版,不只是回顾一年多的论文讨论,更借DeepSeek R1/V3这篇“经得起时间考验”的论文,系统讲清了推理模型、蒸馏路线以及训练方法上的关键取舍。你能看到一个技术社区如何成长,也能理解DeepSeek为何在推理能力上引发关注。
在这场Recsys主题演讲中,Eugene Yan没有讨论“要不要用大模型”,而是回答了“该怎么用”。他用一系列真实案例,提出了三条正在落地的路径:语义化ID、基于大模型的数据增强,以及统一模型,展示了推荐与搜索系统在LLM时代的真实进化方式。
PyTorch 联合创始人 Soumith Chintala 从亲身使用 AI 的挫折与收获出发,提出一个与主流云端 Agent 不同的判断:真正能托付个人生活的 AI,必须运行在本地、完全私有。本文还原他的关键故事、技术现实与尚未解决的挑战。
前OpenAI首席研究官Bob McGrew在YC的对谈中,回顾了从早期研究到GPT系列的关键转折,并给出了他对AI代理、扩展定律和AGI路径的判断。这是一场少见的、把技术演进与真实决策过程连在一起的访谈。
YC最新一期节目围绕o1模型与未来10万亿参数AI展开,讨论了算力竞赛、AGI边界、创业机会与基础设施变化。本文提炼其中最有价值的判断、真实案例和反直觉洞见,帮助创业者理解:在超级智能逼近的时代,真正的机会在哪里。
Pinterest搜索团队分享了他们将大语言模型引入搜索排序的完整实践:从相关性建模、内容标注,到用知识蒸馏解决规模与成本问题。这是一套已经在线服务数十亿搜索请求的真实系统,而不是实验室原型。
这场来自LinkedIn AI的分享,讲述了他们如何用一个大语言模型统一推荐、排序与个性化任务,并一步步把它真正部署到线上。它不仅回答了“LLM能不能做推荐”,更详细拆解了在延迟、成本和效果之间反复拉扯的工程现实。
在这场演讲中,Bespoke Labs 创始工程师 Ryan Marten 复盘了 OpenThoughts 项目的完整探索过程:为什么 DeepSeek R1 的成功让他们意识到“数据配方”才是推理模型的关键,以及他们如何通过系统化实验,把监督微调(SFT)的推理能力推到新的高度。