Pinterest用LLM重塑搜索相关性的真实经验

AI PM 编辑部 · 2026年01月09日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

Pinterest搜索团队分享了他们将大语言模型引入搜索排序的完整实践:从相关性建模、内容标注,到用知识蒸馏解决规模与成本问题。这是一套已经在线服务数十亿搜索请求的真实系统,而不是实验室原型。

Pinterest用LLM重塑搜索相关性的真实经验

Pinterest搜索团队分享了他们将大语言模型引入搜索排序的完整实践:从相关性建模、内容标注,到用知识蒸馏解决规模与成本问题。这是一套已经在线服务数十亿搜索请求的真实系统,而不是实验室原型。

为什么Pinterest必须重做搜索相关性

在Pinterest,搜索不是边缘功能,而是核心入口之一。演讲一开始,团队就抛出了一组数字:每月超过60亿次搜索、数十亿个Pin、覆盖45种语言、100多个国家。这意味着任何相关性模型的改进,都会被立即放大到全球尺度。

Pinterest的搜索架构并不陌生:查询理解、召回、排序、混排,最后生成搜索结果流。真正的挑战出现在重排序阶段——这里决定了用户到底看到“灵感”,还是一堆无关图片。Han Wang直言,这次分享“只聚焦在语义相关性建模,以及我们如何用LM提升搜索相关性”。

问题在于,Pinterest的内容高度视觉化、跨语言、跨文化。传统基于关键词或轻量语义模型的方法,在“图片表达的意图”和“用户模糊查询”之间,始终存在理解断层。更现实的限制是:高质量人工标注主要集中在美国市场,如何把有限的高质量信号扩展到全球,是系统层面的难题。

这也解释了为什么Pinterest并不是为了“尝鲜”而上LLM,而是被规模、全球化和内容形态逼到了一个节点:如果不能更好地理解查询和Pin之间的语义关系,搜索体验就无法继续提升。

Lesson 1:LLM在相关性预测上,确实更强

Pinterest的第一个关键结论非常直接:“LLMs are good at relevance prediction.” 为了验证这一点,他们并没有走花哨路线,而是用一个经典但算力昂贵的结构:Cross Encoder。

具体做法是,把搜索查询和Pin的文本拼接后,一起送进语言模型生成联合表示,再通过一个MLP输出五档相关性评分(从最相关到最不相关)。这五档评分本身就来自Pinterest长期使用的人工标注体系,而不是重新定义指标。

在模型选择上,团队微调了开源语言模型,并用Pinterest内部数据进行适配。结果非常明确:相比Pinterest内部的SearchSage embedding,以及多语言BERT模型,LLM在相关性预测上有显著提升。演讲中给出的具体数字是:8B参数规模的LLaMA模型,相比多语言BERT提升约12%,相比SearchSage embedding提升约20%。

一个重要但容易被忽略的点是:性能随着模型规模和能力提升而“持续变好”,并没有出现明显的平台期。这让团队对LLM在排序阶段的价值建立了信心,也为后续“如何规模化”埋下伏笔。

Lesson 2:好数据不只来自内容,也来自用户行为

LLM再强,也离不开输入表示。Pinterest在构建Pin的文本表示时,并没有只依赖标题和描述,而是刻意引入了多源信号。

最重要的一项,是视觉语言模型生成的图片字幕,用来直接从图片中抽取语义信息。演讲者提到,这一项“本身就能提供一个非常扎实的基线”。在此基础上,他们逐步加入更多特征:Pin被保存到的Board标题、带来最高搜索互动的历史查询等。

这两类用户行为信号,本质上是用户在“帮系统做弱标注”。通过消融实验,团队发现:随着这些特征逐步加入,相关性预测性能持续提升,尤其是最后加入的用户行为特征,带来了显著增益。

这里的洞见在于:LLM并不是要取代用户信号,而是更擅长“消化”这些原本噪声很大的弱监督信息。正如演讲中所说,这些用户行为“turned out to be quite useful content annotation”,帮助模型更好理解Pin真正表达的内容。

Lesson 3:不用蒸馏,LLM永远上不了生产

当Cross Encoder LLM在离线评测中证明价值后,真正的问题出现了:“how do we actually scale this up without bankrupting Pinterest?” Mukunda Narayanan的这句话,引来了现场笑声,但问题非常现实。

答案是知识蒸馏。Pinterest用LLM作为Teacher模型,在少量高质量人工标注数据上微调;然后从每天的真实搜索日志中采样,让Teacher生成五档相关性软标签,规模化到原始数据的100倍,覆盖不同语言、国家和领域。

最终上线的是Student模型:一个Bi-Encoder结构,查询和Pin分别编码,结合多种embedding(包括SearchSage、GraphSage、BM25等传统特征)。Pin embedding完全离线计算并缓存,只在内容变化时更新;查询embedding在线实时计算,但查询很短,延迟控制在毫秒级,且缓存命中率高达85%。

效果同样重要:即便训练数据主要来自美国,线上实验在德国、法国等市场同样看到相关性和搜索满足度提升。团队总结得很克制——LLM并没有“神奇地懂所有文化”,但它确实具备很强的跨语言迁移能力。

Lesson 4:相关性模型,意外成了通用语义基础设施

最后一个收获,甚至有些“意外”。在为搜索相关性调优之后,Student模型产生的Pin和Query embedding,被发现是“very good general purpose”语义表示。

这些embedding几乎是“免费”的副产品,却可以复用到Pinterest的其他场景:相关Pin推荐、首页Feed、Board表示等。团队观察到,在多个surface上,仅仅替换为这些从LLM蒸馏而来的表示,就能看到一致性的质量提升。

这背后的逻辑并不复杂:相关性任务本身,强迫模型学习“什么内容对用户有意义”。一旦这种语义空间被学好,它天然就具备迁移价值。

也正因此,Pinterest并没有把LLM仅仅当作一个“搜索插件”,而是逐步把它变成内容理解的底层能力。

总结

Pinterest的经验并不在于“用了哪个最强模型”,而在于一整套务实的方法论:用LLM解决最难、最关键的判断;用蒸馏把能力压缩到可服务的形态;用真实用户行为不断补充语义理解。如果你正在构建大规模搜索或推荐系统,这套思路比任何单一模型选择都更值得借鉴。


关键词: Pinterest搜索, 大语言模型, 搜索相关性, 知识蒸馏, 语义Embedding

事实核查备注: 关键信息包括:Pinterest每月超过60亿次搜索;支持45种语言、100多个国家;相关性模型使用五档评分;8B参数LLaMA模型相较多语言BERT提升约12%,相较SearchSage提升约20%;Student模型缓存查询embedding命中率约85%;Teacher模型通过搜索日志将数据规模放大约100倍。