为什么所有向量搜索基准测试都“不可信”？

AI PM 编辑部 · 2025年06月27日 · 9 阅读 · AI/人工智能

向量数据库

正在加载视频...

视频章节

Elastic 工程师 Philipp Krenn 用一场充满自嘲与黑色幽默的演讲，揭开了向量搜索基准测试（benchmark）光鲜数据背后的真相：从“基准营销”到隐性作弊，再到为什么你最终只能相信自己的测试。

为什么所有向量搜索基准测试都“不可信”？

Elastic 工程师 Philipp Krenn 用一场充满自嘲与黑色幽默的演讲，揭开了向量搜索基准测试（benchmark）光鲜数据背后的真相：从“基准营销”到隐性作弊，再到为什么你最终只能相信自己的测试。

基准测试，还是“基准营销”？

这场演讲一开始就抛出了一个让人不安的问题：为什么几乎每一家向量数据库厂商，都能做出“我们比竞争对手快”的基准测试？Philipp Krenn 半开玩笑地把这种现象称为“benchmarketing”——基准测试和市场营销的混合体。

他让观众举手：谁用过向量搜索？很多人。谁看过向量搜索的性能 benchmark？不少。那你们喜欢这些 benchmark 吗？答案是“很难说”。问题的核心在于，你几乎可以在任何 benchmark 中，把任何产品放在 X，也可以把同一个产品放在 Y——因为“在这个行业，我们已经有了每个厂商既比所有人快、又比所有人慢的 benchmark”。

这并不一定意味着所有人都在撒谎，而是 benchmark 本身极度依赖场景选择。只要定义一个“对自己友好、对对手不友好”的使用场景，结果就几乎是预先写好的。这是理解后面所有问题的起点：benchmark 并不是自然事实，而是被设计出来的。

向量搜索里的“反直觉陷阱”

为什么向量搜索的 benchmark 特别容易误导？Philipp 点出了几个极具技术含量、但常被忽略的细节。

第一，大多数 benchmark 都是只读（read-only）的。原因很简单：只读更容易复现，也更“干净”。但现实中的向量搜索系统，往往同时存在写入、更新和查询。只测只读，相当于把真实世界最复杂的部分直接删掉。

第二，是一个非常反直觉的事实：在基于 HNSW 的近似最近邻搜索中，加过滤条件（filter）往往会让查询变慢，而不是变快。传统数据库工程师的直觉是“先过滤、再排序，会更快”，但在向量搜索里，过滤会迫使系统探索更多候选向量，反而增加开销。

这就给 benchmark 留下了巨大的“操作空间”：如果你的系统在过滤优化上有优势，就挑一个刚好命中这个优化的场景；如果对手没有，就会显得慢很多。Philipp 直言，这正是很多 benchmark 看起来“差距巨大”的原因之一。

隐性偏见、过期版本与真正的作弊

即便没有恶意，benchmark 也充满了隐性偏见。Philipp 提到一个非常常见的现象：厂商会持续更新自己的软件版本，却继续使用竞争对手一年前甚至 18 个月前的版本来对比。结果当然“显而易见”。

除此之外，还有大量默认配置层面的偏差：分片大小、内存分配、实例规格、数据是否能完全放进内存。这些选择往往“刚好”非常适合自己的系统，而对竞争对手并不友好，甚至测试者自己都未必意识到问题。

再往下，就是更赤裸的作弊。他用大众汽车排放门作为类比：通过识别测试环境，在 benchmark 场景下“表现良好”。在向量搜索中，最常见的作弊方式是只谈性能，不谈结果质量。近似最近邻搜索的速度和 precision/recall 强烈相关，“你当然可以非常快地返回垃圾结果”，但这显然不是用户想要的。

他还讲了一个具体案例：20 个测试点中，19 个表现相近，只有一个极端边缘场景快了 10 倍。通过“创意统计”，这个单点优势被平均成“整体领先”。headline 有了，真相却被稀释了。

更好的 benchmark，只能来自你自己

那还有没有有意义的 benchmark？Philipp 给出的答案并不轻松：有，但你得自己做。

在 Elastic 内部，他们每天运行自动化的“nightly benchmarks”，把当天所有代码改动叠加起来，观察性能变化。这是为了避免他称之为“慢慢被煮熟的青蛙”——一次 1% 的性能退化你不会注意，但长期叠加，系统会悄然变慢。

而对用户来说，结论更残酷：“不要相信任何人的 benchmark。”因为没有人会刚好测试你的数据规模、读写比例、查询形态、硬件配置和延迟目标。你唯一能信的，是在自己场景下跑出来的结果。

即便如此，他也给 benchmark 一个更温和的定位：即使一个 benchmark 有缺陷，也值得看。因为它至少能告诉你，对方认为自己的系统“甜蜜点”在哪里、擅长什么、不擅长什么。完全忽略，只会让你错过这些线索。

总结

这场演讲真正的价值，并不在于否定 benchmark，而是拆解它的幻觉。向量搜索的性能，从来不是一个脱离场景的数字游戏。读懂 benchmark 的偏见、动机和技术细节，远比记住“快了多少倍”更重要。最终，Philipp 的结论简单却扎心：如果你关心真实性能，就必须为自己的场景付出测试成本——没有捷径。

关键词：向量搜索，向量数据库， Benchmark， HNSW，近似最近邻搜索

事实核查备注：演讲者：Philipp Krenn；主题：Vector Search Benchmark【eting】；技术名词：向量搜索、HNSW、Approximate Nearest Neighbor、precision/recall；关键观点：过滤在 HNSW 中可能降低性能；案例类比：大众汽车排放门；实践方法：nightly benchmarks、自行构建 benchmark

返回文章列表