教会Gemini“说”YouTube:把大模型变成推荐系统的两年实验
正在加载视频...
视频章节
这场演讲讲述了YouTube团队如何尝试让Gemini真正理解YouTube世界,并将大语言模型用于视频推荐与检索。核心不在于炫技,而是在规模、约束和产品现实下,重新思考LLM能做什么、不能做什么。
教会Gemini“说”YouTube:把大模型变成推荐系统的两年实验
这场演讲讲述了YouTube团队如何尝试让Gemini真正理解YouTube世界,并将大语言模型用于视频推荐与检索。核心不在于炫技,而是在规模、约束和产品现实下,重新思考LLM能做什么、不能做什么。
为什么“LLM + 推荐系统”不是一道简单的加法题
演讲一开始,Devansh Tandon就点出了背景:“There’s a lot of attention in terms of how LLMs are going to transform search.” 搜索已经被大模型重塑,但推荐系统,尤其是YouTube这样拥有20多亿DAU的平台,问题复杂得多。推荐不是一次性问答,而是一个持续、个性化、对延迟和稳定性极度敏感的系统。
他强调,YouTube推荐的挑战并不只是理解文本,而是要理解一个由视频、创作者、用户行为共同构成的语言世界。大模型在通用语义上进展飞快,“which has been making incredible progress in modeling”,但这些能力是否能直接迁移到YouTube,是一个开放问题。这正是团队决定投入的重要原因:不是证明LLM很强,而是验证它在真实生产系统中的价值边界。
这一点很重要,因为它奠定了整场演讲的基调——这不是一篇研究论文式的炫耀,而是一段关于“把大模型塞进现实世界”会遇到什么的诚实记录。
LRM:为YouTube量身定制的“大模型翻译器”
为了解决上述问题,团队构建了一个被称为LRM的系统。“And so we've built this system which we call LRM”,它的核心目标不是取代现有推荐模型,而是充当Gemini与YouTube生态之间的中间层。
在设计上,第一步是让模型学会什么是YouTube里的“有意义表示”。这一步并不 glamorous,但决定了上限。视频标题、描述、用户查询、推荐候选,这些在YouTube内部早已有复杂的语义体系。LRM要做的,是把这些信号映射到Gemini能够推理、生成、比较的空间中。
他特别提到,这一步最终要能“production at YouTube”。也就是说,所有设计都必须接受规模、延迟、稳定性和回滚机制的考验。这不是实验室里的few-shot demo,而是要在真实流量下跑得住。
跨语言、跨模态:让模型“在YouTube里推理”
当基础表示建立之后,团队开始做一件更野心勃勃的事:让模型在“英语世界”和“YouTube世界”之间进行推理。“reason across English and YouTube”,这是他在演讲中的原话。
这里的关键洞见是,推荐检索并不只是找相似文本,而是理解用户意图与内容潜力之间的关系。通过检索增强生成(RAG),模型可以先在候选空间中检索,再用生成能力进行重排或解释。这一步让LLM第一次真正参与到推荐链路的“决策前段”。
当模型达到可用水平后,团队并没有立刻大规模铺开,而是“launched it in a few places at YouTube”。这种克制本身就是一个故事:在2B+DAU的平台上,任何一次上线都是一次高风险操作。
上线之后:收获、限制与现实的天花板
关于结果,Devansh并没有给出夸张的数字,而是分享了方向性的发现。“The big findings from this is that LRM…”,他随后讨论的是能力与问题并存的现实。
一方面,LLM确实在理解复杂查询、语义泛化上展现出传统模型难以企及的能力;另一方面,服务成本、延迟、可控性成为新的瓶颈。“serving problems”被他单独点出来,说明这不是小问题。
在随后的挑战部分,他系统性地回顾了YouTube对推荐系统的要求:稳定、可预测、可解释。这些要求并不会因为“AI更强了”而消失。正如他在总结时所说,这是“一段maybe two years of work”的旅程,而不是一次灵光乍现。
总结
这场演讲最大的价值,不在于某个具体模型或技巧,而在于一种方法论:不要问LLM能不能做推荐,而要问在你的系统约束下,它适合做哪一段。Gemini在YouTube的实验告诉我们,大模型不是银弹,但在合适的位置,它可以成为放大器。对读者而言,这是一份关于“把前沿模型带进真实产品”的难得一手经验。
关键词: 大语言模型, YouTube推荐, Gemini, 检索增强生成, AI搜索
事实核查备注: 视频标题:Teaching Gemini to Speak YouTube: Adapting LLMs for Video Recommendations to 2B+DAU;演讲者:Devansh Tandon;模型/系统名称:Gemini、LRM;平台规模表述:2B+ DAU(来自标题);引用原话均来自公开视频字幕片段。