Google Cloud 宣布推出 TreeAH 向量索引预览版,将 Google 在近似最近邻算法方面研究和创新的核心部分引入 BigQuery。这种新型索引类型使用与 Google 一些最受欢迎的服务相同的底层技术,并且在某些情况下,与 BigQuery 中实现的第一个索引(倒排文件索引 (IVF))相比,可以显著降低延迟和成本。

TreeAH 索引的主要优势之一是使用非对称哈希(TreeAH 中的“AH”),它使用乘积量化来压缩嵌入。结合针对 CPU 优化的距离计算算法,使用 TreeAH 进行向量搜索的速度和成本效益可以比 IVF 高出几个数量级。索引生成速度也可能提高 10 倍,成本更低,内存占用更小,因为只存储压缩的嵌入。

Google 工程团队进行的基准测试表明,当查询批次大小较大时,TreeAH 的性能明显优于 IVF。例如,对于包含 10,000 个向量的查询批次,TreeAH 的速度比 IVF 快 23 倍,成本降低 95%。在大多数情况下,TreeAH 索引训练也比 IVF 快得多,成本也更低。

但是,值得注意的是,TreeAH 仍在积极开发中,并且存在一些当前限制。例如,基表最多可以包含 2 亿行,并且 TreeAH 索引不支持存储的列和预过滤。

总的来说,TreeAH 是对 BigQuery 的宝贵补充,为某些类型的向量搜索工作负载提供了显著的性能和成本优势。预计这将为 BigQuery 中的向量搜索启用更多用例,例如语义搜索和基于 LLM 的检索增强生成 (RAG)。