一个模型统治推荐系统:LinkedIn如何把LLM送进线上排序

AI PM 编辑部 · 2026年01月09日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

这场来自LinkedIn AI的分享,讲述了他们如何用一个大语言模型统一推荐、排序与个性化任务,并一步步把它真正部署到线上。它不仅回答了“LLM能不能做推荐”,更详细拆解了在延迟、成本和效果之间反复拉扯的工程现实。

一个模型统治推荐系统:LinkedIn如何把LLM送进线上排序

这场来自LinkedIn AI的分享,讲述了他们如何用一个大语言模型统一推荐、排序与个性化任务,并一步步把它真正部署到线上。它不仅回答了“LLM能不能做推荐”,更详细拆解了在延迟、成本和效果之间反复拉扯的工程现实。

为什么要“只用一个模型”:从复杂系统到统一范式

推荐与排序系统几乎渗透了我们每天使用的产品,但在大型平台内部,它们往往是高度碎片化的:不同任务、不同用户阶段、不同数据分布,对应着一整套模型家族。演讲一开始,Ahmed就抛出了一个听起来有些“激进”的问题:“what if we have only one model to solve all the tasks at the same time?” 这个问题之所以重要,是因为它直接挑战了传统推荐系统的工程范式。

在LinkedIn的场景中,推荐不仅仅是“你可能喜欢什么”,还包括冷启动用户、跨领域内容、以及多种排序目标的权衡。演讲者的核心洞见是:大语言模型并不是再加一个模型,而是有潜力成为一个“统一接口”,通过自然语言和上下文,把不同任务抽象成同一个问题空间。这样做的价值不在于炫技,而在于减少系统复杂度、提高泛化能力。

他们特别强调,推荐和个性化早已“deeply integrated in our daily life”,因此任何架构层面的简化,都会在规模化部署时被放大。这也为后续所有技术选择定下了基调:不是为了追求最大的模型,而是为了一个能被真正用起来的模型。

把推荐问题“提示化”:LLM如何理解排序与个性化

当Maz接过话题,讨论很快进入了方法论层面:如何把传统推荐问题,转化为LLM擅长的形式。他们称这一过程为“promptification”,即用提示工程(Prompt Engineering)把用户、内容和目标组织成语言模型可理解的输入。

这一步的关键,不是简单地写几个提示词,而是“how we formalize the problem”。在演讲中,Maz多次强调自动化的重要性——从提示构建到实验流程,尽可能减少人工调参。这背后的现实原因很直接:在工业级推荐系统中,任何不能自动化的流程,都会在规模上失效。

一个隐含但重要的故事是,他们并没有假设LLM天然懂推荐,而是通过结构化提示,让模型在上下文中同时看到用户历史、候选内容以及排序意图。正如演讲中提到的,这并不是一次性设计,而是伴随着大量实验迭代。这里的转折在于:LLM并没有取代推荐工程师,而是迫使工程师重新思考“问题该如何被描述”。

模型够大还不够:蒸馏、上下文与效果的拉扯

当模型开始奏效,真正的难题才浮出水面。演讲中提出了一个现实问题:线上服务是否“need the Excel model”,也就是是否真的需要那个最大、最强的教师模型直接上线。答案是否定的,于是蒸馏(Distillation)成为关键杠杆。

他们分享了几个清晰的调节手段:数据规模(data scaling)、模型尺寸、以及上下文长度。特别值得注意的是,Maz明确指出“context length actually matters”。在个性化场景中,用户历史往往很长,如何在有限上下文窗口中保留最有价值的信息,直接影响效果。

在结果部分,他们提到了几个具体收益场景,包括冷启动用户和对新领域的泛化能力。这些并不是学术指标,而是推荐系统中最棘手的问题。这里的洞见在于:LLM的优势并不只体现在平均效果,而是在传统模型最容易失败的边角场景中,展现出更强的鲁棒性。

真正上线之前:延迟、成本与一整套“瘦身术”

最后一个阶段,话题回到所有工程团队都会面对的现实:serving。Ahmed总结了上线时的“三个levers”,并逐一展开:逐步蒸馏、剪枝(pruning)以及量化(quantization)。这些技术并不新,但在LLM级别的推荐系统中,被系统性地组合在一起。

他们还提到对注意力机制的进一步优化,例如“sparify the attention scores”,本质上是减少不必要的计算。把这些手段“put everything together”之后,团队看到了“significant reduction in the latency”。这句话虽然简短,但背后是一个重要转折:只有当延迟和成本可控,LLM推荐才从原型变成产品。

在Q&A中,观众追问了多项评分(multi-item scoring)、长用户历史管理以及实验自动化。这些问题本身,反过来印证了这次分享的价值——它讨论的不是概念验证,而是一整条从想法到生产的路径。

总结

这场分享最难得的地方,不在于某个单一技术点,而在于一种取舍哲学:用LLM统一推荐范式,但用传统工程手段约束它。对于读者来说,最大的启发是:真正有价值的AI应用,往往不是“能不能做”,而是“值不值得上线、能不能长期跑”。如果你正在思考LLM如何走向生产,这个故事提供了一条现实而克制的参考路径。


关键词: 大语言模型, 推荐系统, 蒸馏, 上下文窗口, 模型部署

事实核查备注: 演讲者:Ahmed、Maz(视频中称Maz/Mazar);背景:LinkedIn AI;核心概念:one model for all tasks、promptification、distillation、context length matters、quantization、pruning、attention sparsification;引用原话需核对英文原视频时间戳。