• 2026年第37卷第3期文章目次
    全 选
    显示方式: |
    • GPU加速的高维向量聚类算法

      2026, 37(3):0-0. DOI: 10.13328/j.cnki.jos.007512

      摘要 (196) HTML (0) PDF 3.12 M (157) 评论 (0) 收藏

      摘要:聚类是大规模高维向量数据分析的关键技术之一.近年来,基于密度的聚类算法(DBSCAN)因其无需预先指定聚类数量、能够发现复杂聚类结构并有效识别噪声点的特性,在数据分析领域得到了广泛应用.然而,现有的基于密度的聚类算法在处理高维向量数据时将产生极高的时间代价,且面临维度灾难等问题,难以在实际场景中部署应用.此外,随着信息技术的发展,高维向量数据规模急剧增加,使用CPU进行高维向量聚类在时间代价和可扩展性等方面将面临更大的挑战.为此,本文提出一种GPU加速的高维向量聚类算法,通过引入k近邻图索引加速DBSCAN的计算.首先,设计了GPU加速的并行k近邻图构建算法,显著降低了k近邻图索引的构建开销.其次,提出了基于层间并行的k-means树分区算法及基于广度优先搜索和核心近邻图的并行聚类算法,改进了DBSCAN算法的计算流程,实现了高并发向量聚类.最后,在真实向量数据集上进行了大量实验,并将所提出的方法与现有方法进行了性能对比.实验结果表明,所提方法在保证聚类精度的前提下,将大规模向量聚类的效率提高了5.7~2822.5倍.

    • LSMDiskANN:一种更新友好型磁盘向量索引框架

      2026, 37(3):0-0. DOI: 10.13328/j.cnki.jos.007513

      摘要 (160) HTML (0) PDF 6.39 M (158) 评论 (0) 收藏

      摘要:在大模型时代,向量数据库的广泛应用推动了向量索引规模的急剧膨胀。如何在磁盘级向量索引中高效支持大规模向量的更新操作,并同时提供高性能的查询服务,已成为近年来的重要研究课题。针对当前领先算法FreshDiskANN在查询与更新混合负载场景中面临的查询吞吐瓶颈和极端查询延迟过高等问题,受到日志合并思想在次级索引中的成功应用启发,提出了一种基于LSM思想的更新友好型磁盘向量索引框架。在继承FreshDiskANN架构的基础上,设计并实现了包含磁盘中间层的三层架构,同时引入了磁盘组件搜索参数的动态确定机制以及面向合并操作删除阶段的重布局算法,从而进一步降低查询延迟和合并过程中的I/O开销。实验结果表明,在多个经典大规模高维向量数据集上,系统查询吞吐量最高提升35.5%,更新吞吐量最高提升14.24%,极端查询延迟最多降低73.45%,所提出框架和策略能够有效提升系统在混合负载场景下的整体性能与稳定性。

    • 基于大模型的空间数据库自然语言查询转换方法

      2026, 37(3):0-0. DOI: 10.13328/j.cnki.jos.007514

      摘要 (207) HTML (0) PDF 1.06 M (176) 评论 (0) 收藏

      摘要:Text2SQL技术通过减少非专业用户与关系数据库交互的技术障碍,已发展为数据分析和数据库管理的重要工具.以GPT为代表的大语言模型的引入,进一步提升了Text2SQL系统的性能.然而,由于空间数据涉及复杂的几何关系、多样化的查询类型和对高精度语义理解的需求,现有的Text2SQL技术难以直接适用于空间数据库领域.为解决上述问题,降低普通用户与空间数据库的交互门槛,提出了面向空间数据库的自然语言查询转换方法.该方法有两个核心阶段:(i)自然语言理解和(ii)可执行语言生成.在阶段(i)中使用实体信息提取算法提取关键查询实体,并基于大语言模型构建空间数据查询语料库进而确定查询类型.在阶段(ii)中根据查询类型选择结构化语言模型,然后将实体映射到结构化语言模型中,得到最终的空间数据库可执行语言.在多组真实数据集上的实验结果表明,所提方法可以实现从用户的自然语言查询到空间数据库可执行语言的高效转换.

    • 权重残差向量量化:向量压缩与分层索引结构

      2026, 37(3):0-0. DOI: 10.13328/j.cnki.jos.007515

      摘要 (166) HTML (0) PDF 2.50 M (132) 评论 (0) 收藏

      摘要:随着多源异构数据、多模态等在大模型和数据湖等场景的广泛应用,基于向量的数据检索和存储管理显著增长。通过将异构数据映射为高维向量表示,并以向量索引为基础,向量数据库将多种数据类型统一管理和高质量相似性检索,成为生成式检索和AI数据库等重要基础。然而,现有向量数据库在存储索引效率、索引构建复杂度及检索准确性方面面临显著瓶颈:一方面,海量高维向量导致索引存储开销和维护成本增加;另一方面,向量索引结构冗长,内存消耗巨大;此外,压缩技术失真引发的检索准确性下降问题仍未有效解决。
      本文提出了一种基于权重残差向量量化(Weight Residual Vector Quantization,WRVQ)的新型框架。该方法通过将量化方向与残差长度分离处理,以单位向量形式存储残差方向并附加权重标记,实现了低失真率下的高效压缩与存储。在索引构建方面,本文设计了适配WRVQ量化特性的三层倒排索引结构——精确匹配层、模糊匹配层与搜索层,有机结合非对称距离计算(ADC)与近邻搜索技术,实现了高准确度与高效率兼具的近似最近邻检索。在大规模数据集上的实验结果表明,与传统低维嵌入模型及现有量化方法相比,WRVQ在量化损失、存储压缩比和检索召回率等关键指标上均取得了显著提升,且索引构建与查询性能有显著优势。

    • 向量数据库中近似最近邻搜索关键技术综述

      2026, 37(3):0-0. DOI: 10.13328/j.cnki.jos.007516

      摘要 (263) HTML (0) PDF 1.19 M (195) 评论 (0) 收藏

      摘要:高维向量近似最近邻搜索(Approximate Nearest Neighbor Search,ANNS)是向量数据库的基础和核心之一.随着人工智能的发展,向量数据库发挥了日益关键的作用,获得了广泛的关注,高效的ANNS方法对向量数据库的性能优化十分关键.在几十年的发展中,ANNS取得了一系列成果,诞生了很多优秀综述.近些年随着该领域的快速发展,涌现出来的新方法和研究成果亟需系统性梳理.本文首先介绍了ANNS的基本概念;其次在已有的综述框架的基础上,根据向量数据组织方式将当前的内容进一步归纳为基于图、层次、量化、哈希和混合数据组织五类,并结合代表性和最新的成果进行了介绍;然后我们从向量数据搜索优化方法的角度提出面向硬件加速、面向学习增强、面向距离比较操作、面向磁盘内存混合场景、面向数据访问优化、面向分布式场景、面向混合查询和理论分析八个方面的分类体系对最近的搜索方法进行综述;最后基于当前的研究成果和趋势,我们展望了未来的研究方向.

    • 向量数据库的K近邻图高效更新方法

      2026, 37(3):0-0. DOI: 10.13328/j.cnki.jos.007517

      摘要 (189) HTML (0) PDF 1.65 M (156) 评论 (0) 收藏

      摘要:在高维数据处理中,K近邻图作为一种关键的数据结构,广泛应用于聚类、图神经网络和推荐系统等领域.然而,随着预训练嵌入模型在非结构化数据建模与检索中的广泛使用,嵌入模型的微调逐渐成为提升嵌入向量的语义表示能力的核心步骤.嵌入微调通常会导致全部数据的向量表示发生系统性变化,从而使原有K近邻图的邻接关系失效.现有研究主要关注于如何为静态数据构建K近邻图,缺乏对微调后的嵌入向量进行快速适应的研究.为此,本文提出一种面向嵌入模型微调场景的高效K近邻图更新方法FastAdjust.该方法基于嵌入模型微调为每条数据嵌入带来的影响较小的观察,通过局部更新策略对原始K近邻图进行增量调整,在确保最终K近邻图质量的同时,显著提升更新效率.具体而言,首先,FastAdjust利用基于乘积量化的聚类结构,为每条数据高效且准确地定位可能成为邻居的数据子集,缩小候选邻居搜索范围;其次,基于数据密度和嵌入变化幅度,FastAdjust结合二者与数据K近邻变化程度的相关性,为邻居关系变化程度不同的数据针对性分配不同的更新资源,从而提升整体更新效率.真实数据集上的实验表明,FastAdjust在嵌入模型微调的场景下能够快速调整K近邻图,准确地适应数据嵌入的变化,同时大幅减少计算开销,具有良好的实用价值和扩展性.

    • GoVector:I/O高效的高维向量近邻查询缓存策略

      2026, 37(3):0-0. DOI: 10.13328/j.cnki.jos.007518

      摘要 (191) HTML (0) PDF 2.99 M (158) 评论 (0) 收藏

      摘要:基于图结构的高维向量索引(索引图)因其高效的近似最近邻搜索能力,已成为大规模向量检索的主流方法.索引图执行近似最近邻搜索(ANNS)的过程分为两个阶段:第一阶段从入口点出发快速定位到查询向量附近区域;第二阶段在查询向量附近搜索离其最近的k个向量.然而,由于索引图需存储大量邻接关系,导致内存开销大,因此实际部署时通常需将其存储于外存.当执行近似最近邻搜索时,按需加载索引图和向量数据会导致频繁发生I/O操作,并成为检索性能的主要瓶颈(I/O时间占90%以上).现有系统利用入口点及其附近邻居被高频访问的特性,采用静态缓存策将入口点及其若干跳邻居预先缓存在内存中,以减少第一阶段的I/O访问.然而,本文分析发现,第二阶段为获取更高精度的检索结果,需访问大量与查询向量相关的图顶点,成为I/O开销的主要来源.由于第二阶段的访问顶点随查询向量而动态变化,现有静态缓存策略难以有效命中,导致其在此阶段几乎失效.针对此问题,本文设计了一个静态-动态混合缓存策略GoVector,其核心设计体现在:(1)静态缓存区预加载入口点及其高频近邻;(2)动态缓存区自适应地缓存第二阶段中空间局部性高的顶点.为了进一步适配第二阶段中以向量相似性为导向的搜索过程,设计了基于向量空间相似性磁盘布局策略,通过重排顶点存储顺序,使相似向量在物理存储上聚集于相同或相邻磁盘页,从而显著提升数据访问的局部性.这种双重优化机制使得缓存命中率得到显著提升,有效降低了整体I/O开销.在多个公开数据集上的实验表明,在召回率为90%时,相较于当前最先进的基于磁盘的索引图系统,GoVector实现I/O次数平均降低46%、查询吞吐率提升1.73倍、延迟下降42%.

    • 面向批量更新的向量索引召回率优化

      2026, 37(3):0-0. DOI: 10.13328/j.cnki.jos.007519

      摘要 (151) HTML (0) PDF 2.03 M (148) 评论 (0) 收藏

      摘要:近似最近邻(Approximate Nearest Neighbor,ANN)搜索是支撑向量数据库、推荐系统及大语言模型等上层应用的关键技术.其中,分层可导航小世界(Hierarchical Navigable Small World,HNSW)图索引通过构建层级化结构,迅速定位结果至目标区域,从而以较低的计算成本实现较高的检索召回率.然而,现有HNSW算法主要面向静态数据检索场景而设计,而忽略了数据更新对检索性能的影响.通过对现实数据集的研究发现,向量数据库中的数据通常以批量方式进行更新,其相似特性会削弱HNSW算法中启发式剪枝的有效性,并诱发相似向量连接的稀疏化问题,共同造成了查询召回率的显著下降.针对上述问题,本文提出一种基于图结构局部调整的自适应细粒度剪枝策略,构建了融合“识别与修复”机制的优化方案.首先,在识别阶段,通过计算“区域邻居距离”量化局部拓扑密度,从而精准定位待干预的致密区域.其次,在修复阶段,针对处于致密区域的枢纽节点,采用双重剪枝的邻居选择策略:协同应用原生的与修正的启发式剪枝规则,合并两种规则的结果集以在保证检索精度的同时提升邻居连接的多样性,有效缓解过度剪枝与连接稀疏化问题.在多个公开数据集上的实验结果表明,本文所提方法对数据更新频繁的场景具备良好的适应性,在维持查询延迟和吞吐量稳定的前提下,实现了1%-4%的召回率提升.

当期目录


文章目录

过刊浏览

年份

刊期

联系方式
  • 《软件学报 》
  • 主办单位:中国科学院软件研究所
                     中国计算机学会
  • 邮编:100190
  • 电话:010-62562563
  • 电子邮箱:jos@iscas.ac.cn
  • 网址:https://www.jos.org.cn
  • 刊号:ISSN 1000-9825
  •           CN 11-2560/TP
  • 国内定价:70元
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号