正在加载视频...
视频章节
Elastic 工程师 Philipp Krenn 用一场充满自嘲与黑色幽默的演讲,揭开了向量搜索基准测试(benchmark)光鲜数据背后的真相:从“基准营销”到隐性作弊,再到为什么你最终只能相信自己的测试。
为什么所有向量搜索基准测试都“不可信”?
Elastic 工程师 Philipp Krenn 用一场充满自嘲与黑色幽默的演讲,揭开了向量搜索基准测试(benchmark)光鲜数据背后的真相:从“基准营销”到隐性作弊,再到为什么你最终只能相信自己的测试。
基准测试,还是“基准营销”?
这场演讲一开始就抛出了一个让人不安的问题:为什么几乎每一家向量数据库厂商,都能做出“我们比竞争对手快”的基准测试?Philipp Krenn 半开玩笑地把这种现象称为“benchmarketing”——基准测试和市场营销的混合体。
他让观众举手:谁用过向量搜索?很多人。谁看过向量搜索的性能 benchmark?不少。那你们喜欢这些 benchmark 吗?答案是“很难说”。问题的核心在于,你几乎可以在任何 benchmark 中,把任何产品放在 X,也可以把同一个产品放在 Y——因为“在这个行业,我们已经有了每个厂商既比所有人快、又比所有人慢的 benchmark”。
这并不一定意味着所有人都在撒谎,而是 benchmark 本身极度依赖场景选择。只要定义一个“对自己友好、对对手不友好”的使用场景,结果就几乎是预先写好的。这是理解后面所有问题的起点:benchmark 并不是自然事实,而是被设计出来的。
向量搜索里的“反直觉陷阱”
为什么向量搜索的 benchmark 特别容易误导?Philipp 点出了几个极具技术含量、但常被忽略的细节。
第一,大多数 benchmark 都是只读(read-only)的。原因很简单:只读更容易复现,也更“干净”。但现实中的向量搜索系统,往往同时存在写入、更新和查询。只测只读,相当于把真实世界最复杂的部分直接删掉。
第二,是一个非常反直觉的事实:在基于 HNSW 的近似最近邻搜索中,加过滤条件(filter)往往会让查询变慢,而不是变快。传统数据库工程师的直觉是“先过滤、再排序,会更快”,但在向量搜索里,过滤会迫使系统探索更多候选向量,反而增加开销。
这就给 benchmark 留下了巨大的“操作空间”:如果你的系统在过滤优化上有优势,就挑一个刚好命中这个优化的场景;如果对手没有,就会显得慢很多。Philipp 直言,这正是很多 benchmark 看起来“差距巨大”的原因之一。
隐性偏见、过期版本与真正的作弊
即便没有恶意,benchmark 也充满了隐性偏见。Philipp 提到一个非常常见的现象:厂商会持续更新自己的软件版本,却继续使用竞争对手一年前甚至 18 个月前的版本来对比。结果当然“显而易见”。
除此之外,还有大量默认配置层面的偏差:分片大小、内存分配、实例规格、数据是否能完全放进内存。这些选择往往“刚好”非常适合自己的系统,而对竞争对手并不友好,甚至测试者自己都未必意识到问题。
再往下,就是更赤裸的作弊。他用大众汽车排放门作为类比:通过识别测试环境,在 benchmark 场景下“表现良好”。在向量搜索中,最常见的作弊方式是只谈性能,不谈结果质量。近似最近邻搜索的速度和 precision/recall 强烈相关,“你当然可以非常快地返回垃圾结果”,但这显然不是用户想要的。
他还讲了一个具体案例:20 个测试点中,19 个表现相近,只有一个极端边缘场景快了 10 倍。通过“创意统计”,这个单点优势被平均成“整体领先”。headline 有了,真相却被稀释了。
更好的 benchmark,只能来自你自己
那还有没有有意义的 benchmark?Philipp 给出的答案并不轻松:有,但你得自己做。
在 Elastic 内部,他们每天运行自动化的“nightly benchmarks”,把当天所有代码改动叠加起来,观察性能变化。这是为了避免他称之为“慢慢被煮熟的青蛙”——一次 1% 的性能退化你不会注意,但长期叠加,系统会悄然变慢。
而对用户来说,结论更残酷:“不要相信任何人的 benchmark。”因为没有人会刚好测试你的数据规模、读写比例、查询形态、硬件配置和延迟目标。你唯一能信的,是在自己场景下跑出来的结果。
即便如此,他也给 benchmark 一个更温和的定位:即使一个 benchmark 有缺陷,也值得看。因为它至少能告诉你,对方认为自己的系统“甜蜜点”在哪里、擅长什么、不擅长什么。完全忽略,只会让你错过这些线索。
总结
这场演讲真正的价值,并不在于否定 benchmark,而是拆解它的幻觉。向量搜索的性能,从来不是一个脱离场景的数字游戏。读懂 benchmark 的偏见、动机和技术细节,远比记住“快了多少倍”更重要。最终,Philipp 的结论简单却扎心:如果你关心真实性能,就必须为自己的场景付出测试成本——没有捷径。
关键词: 向量搜索, 向量数据库, Benchmark, HNSW, 近似最近邻搜索
事实核查备注: 演讲者:Philipp Krenn;主题:Vector Search Benchmark【eting】;技术名词:向量搜索、HNSW、Approximate Nearest Neighbor、precision/recall;关键观点:过滤在 HNSW 中可能降低性能;案例类比:大众汽车排放门;实践方法:nightly benchmarks、自行构建 benchmark