文章

全部 AI应用 AI Agent 生成式AI 大语言模型 OpenAI Google ChatGPT AI安全模型训练代码生成对话AI Sam Altman 多模态开源模型提示工程

从前向传播到随机梯度下降：Hugo Larochelle眼中的深度学习根基

这是一场典型却不平凡的深度学习入门演讲。Hugo Larochelle没有追逐模型规模或炫技实验，而是从“神经网络究竟如何工作”讲起，系统梳理了前向传播、损失函数、随机梯度下降与正则化等核心概念，勾勒出一套至今仍然适用的深度学习思维框架。

这是一场来自 Google Brain 的 TensorFlow 入门与实战分享。讲者不仅解释了 TensorFlow 的设计哲学，还通过线性回归和 MNIST 两个经典实验，完整演示了从建模、训练到部署思维的全过程。

这是一篇基于Quoc Le在Lex Fridman节目中讲解Sequence to Sequence学习的深度文章。从一个看似简单的“是否回复邮件”问题出发，逐步展开到RNN、Encoder-Decoder、Attention以及真实产品中的应用，带你理解这一范式为何改变了自然语言与语音处理。

这是一场由Pascal Lamblin主讲的Theano教程式分享，核心不是“框架有多强”，而是它如何通过符号计算、图编译和GPU并行，改变研究者构建与训练模型的方式。即使Theano已不再主流，这套思路依然深刻影响了今天的深度学习框架。

Pinterest搜索团队分享了他们将大语言模型引入搜索排序的完整实践：从相关性建模、内容标注，到用知识蒸馏解决规模与成本问题。这是一套已经在线服务数十亿搜索请求的真实系统，而不是实验室原型。

在这场技术分享中，Netflix推荐系统负责人讲述了一次关键转向：放弃碎片化的推荐模型体系，转而用一个基础模型统一承载所有推荐需求。文章还原了这一决策的背景、技术细节与现实约束，解释为什么这不是一次简单的“模型升级”，而是一场组织与工程方式的重构。

这场来自 Instacart 搜索与机器学习团队的分享，讲述了他们如何在真实、高复杂度的杂货电商场景中引入大语言模型，解决传统搜索在冷启动、长尾查询和商品发现上的结构性难题，并在工程约束下找到可落地的平衡点。

在这场演讲中，Bespoke Labs 创始工程师 Ryan Marten 复盘了 OpenThoughts 项目的完整探索过程：为什么 DeepSeek R1 的成功让他们意识到“数据配方”才是推理模型的关键，以及他们如何通过系统化实验，把监督微调（SFT）的推理能力推到新的高度。

共 478 篇文章

AI产品训练营核心群

付费群测试2

付费群测试3

付费群测试4

付费社群测试5

测试快讯1

5 月前