欢迎访问软件学报网站！

微信小程序

微信服务号

微信订阅号

当期目录
优先出版
过刊浏览
点击排行
下载排行
综述文章
专刊文章
分辑系列

快速检索

过刊检索

全选反选导出

显示模式：

LA-tree: 查询感知的自适应学习型多维索引

刘佳伟，范举，张超，杜小勇

2026,37(2):485-507, DOI: 10.13328/j.cnki.jos.007570, CSTR: 32375.14.jos.007570

[摘要] (170) [HTML] (0) [PDF 5.24 M] (1389)

摘要：
结构化数据分析通常需要在表格数据的多维属性上执行联合范围查询, 高效的多维索引因此成为数据库系统的关键支撑. 然而, 现有多维索引方法在高维场景下存在局限: 传统多维索引仅按数据分布进行均匀划分, 缺乏对查询特征的感知, 导致筛选效果有限; 而现有学习型多维索引虽引入查询感知, 但划分往往极不均匀, 使部分单元过大, 扫描成本显著增加. 为了解决上述问题, 提出一种新型的LA-tree学习型树形多维索引, 同时兼顾数据分布与查询负载感知. 在离线构建阶段, LA-tree将节点维度选择建模为最小化查询扫描比的问题, 并提出分层贪心搜索算法, 实现了均匀划分与查询感知的统一. 在在线查询阶段, 引入轻量线性模型与分段线性模型, 将传统的数值比较转化为快速映射计算, 在保证结果完整性的同时显著降低筛选延迟. 在动态场景中, 提出基于扫描量监控的自适应增量更新机制, 通过局部子树重构高效适配数据与查询负载的变化, 避免了整体索引重建的高昂代价. 实验结果表明, LA-tree在多个真实和基准数据集上均显著优于现有方法: 在静态场景中查询用时较最佳基准方法平均降低52%, 在动态场景中更新开销较重构方法减少97%, 同时保持低查询延迟与轻量级索引规模.

综述文章

带递归定义的SMT公式求解技术综述

冯维直，刘嘉祥，张立军，吴志林

2026,37(2):508-542, DOI: 10.13328/j.cnki.jos.007560, CSTR: 32375.14.jos.007560

[摘要] (124) [HTML] (0) [PDF 3.78 M] (1034)

摘要：
带有递归数据结构, 如列表(list) 和二叉树(tree) 等数据类型的程序, 在计算机领域被广泛使用. 程序验证问题通常将程序转换为可满足性模理论(satisfiability modulo theories, SMT)公式进行求解. 递归数据结构通常会转换为代数数据类型(algebraic data type, ADT)和整数等混合理论的一阶逻辑公式. 另外, 为表示递归数据结构的性质, 程序中通常需要包含递归函数, 递归函数在SMT中则需要通过包含量词和未解释函数的断言来表示. 关注带有ADT和递归函数这两类递归定义SMT公式的求解方法. 从SMT求解器、自动定理证明器和约束霍恩子句(constrained Horn clause, CHC)求解器这3方面对现有技术进行梳理和介绍. 同时, 对主流的求解工具进行统一实验对比, 探究现有求解工具和技术在各类问题上的优势和缺陷, 尝试寻找潜在的优化方向, 为研究者提供有价值的分析和参考.

智能问答系统逻辑推理测试

沈庆超，李行健，姜佳君，陈俊洁，齐一先，王赞

2026,37(2):543-562, DOI: 10.13328/j.cnki.jos.007421, CSTR: 32375.14.jos.007421

[摘要] (401) [HTML] (0) [PDF 2.51 M] (1337)

摘要：
智能问答系统利用信息检索和自然语言处理技术, 实现对问题的自动化回复. 然而, 与其他人工智能软件相似, 智能问答系统同样存在缺陷. 存在缺陷的智能问答系统会降低用户体验, 造成企业的经济损失, 甚至引发社会层面的恐慌. 因此, 及时检测并修复智能问答系统中的缺陷至关重要. 目前, 智能问答系统自动测试方法主要分为两类. 其一, 基于问题与预测答案合成假定事实, 并基于假定事实生成新问题和预期答案, 以此揭示问答系统中的缺陷. 其二, 从现有数据集中提取不影响原问题答案的知识片段并融入原始测试输入中生成答案一致的新测试输入, 实现对问答系统的缺陷检测任务. 然而, 这两类方法均着重于测试模型的语义理解能力, 未能充分测试模型的逻辑推理能力. 此外, 这两类方法分别依赖于问答系统的回答范式和模型自带的数据集来生成新的测试用例, 限制了其在基于大规模语言模型的问答系统中的测试效能. 针对上述挑战, 提出一种逻辑引导的蜕变测试技术QALT. QALT设计了3种逻辑相关的蜕变关系, 并使用了语义相似度度量和依存句法分析等技术指导生成高质量的测试用例, 实现对智能问答系统的精准测试. 实验结果表明, QALT在两类智能问答系统上一共检测9247个缺陷, 分别比当前两种最先进的技术(即QAQA和QAAskeR)多检测3150和3897个缺陷. 基于人工采样标注结果的统计分析, QALT在两个智能问答系统上检测到真阳性缺陷的期望数量总和为8073, 预期比QAQA和QAAskeR分别多检测2142和4867个真阳性缺陷. 此外, 使用QALT生成的测试输入通过模型微调对被测软件中的缺陷进行修复. 微调后模型的错误率成功地从 22.33% 降至14.37%.

云计算中基于SAC的多视角工作负载预测集成框架

曾文瑄，应时，李田港，田相波，姜宇虹，刘虎杰，郝诗魁

2026,37(2):563-583, DOI: 10.13328/j.cnki.jos.007424, CSTR: 32375.14.jos.007424

[摘要] (271) [HTML] (0) [PDF 3.17 M] (1403)

摘要：
工作负载的准确预测对于云资源管理至关重要. 然而, 现有预测模型通常使用固化结构从不同视角提取序列特征, 导致不同模型结构之间难以灵活组合以进一步提升预测性能. 提出一种基于软演员-评论家算法(soft actor-critic, SAC)的多视角工作负载预测集成框架SAC-MWF. 首先, 设计一组特征序列构建方法来生成多视角特征序列, 该方法能够以低成本从历史窗口生成特征序列, 从而引导模型关注不同视角下的云工作负载序列模式. 其次, 在历史窗口和特征序列上分别训练基础预测模型和若干特征预测模型, 以捕获不同视角下的云工作负载模式. 最后, 利用SAC算法集成基础预测模型和特征预测模型, 生成最终的云工作负载预测. 在3个数据集上的实验结果表明, SAC-MWF方法在有效性和计算效率方面表现优秀.

基于领域知识图谱的框架间AI源码自动迁移

丁嵘，刘屹洲，王雨倩，李一錡

2026,37(2):584-600, DOI: 10.13328/j.cnki.jos.007451, CSTR: 32375.14.jos.007451

[摘要] (190) [HTML] (266) [PDF 2.52 M] (340)

摘要：
作为人工智能的基础设施, 深度学习框架已经成为人工智能实现跨越发展的重要突破口. 但是由于缺乏统一标准, 不同框架的兼容水平较差. 忠实模型转换通过将源模型迁移为另一种目标框架下的等价模型, 来增强框架间的互操作性. 然而, 深度学习框架数量较多且相互间差异较大, 并且自主框架的需求逐渐增多, 互相转换成本较高. 因此, 提出基于领域知识图谱的框架间AI源码自动迁移方法. 该方法基于领域知识图谱和抽象语法树来系统地处理迁移挑战, 首先将源代码转换为特定的抽象语法树, 提取通用依赖信息和特定算子信息, 然后再利用存储在领域知识图谱中的框架间算子及参数映射关系来迁移到目标框架下, 形成目标框架下的目标模型代码, 大大降低了工程复杂度. 对比同类型的代码迁移工具, 所提方法可以在国内外流行深度学习框架如PyTorch、PaddlePaddle和MindSpore之间进行互相迁移, 达到了较好的成熟度和质量, 部分成果已经开源到百度官方迁移工具PaConvert中.

基于语义重排序的代码注释生成方法

李重，施超煊，潘敏学，张天，王林章，李宣东

2026,37(2):601-620, DOI: 10.13328/j.cnki.jos.007470, CSTR: 32375.14.jos.007470

[摘要] (204) [HTML] (219) [PDF 2.65 M] (828)

摘要：
代码注释是对源代码功能的自然语言描述, 其可以帮助开发人员快速地理解代码语义及功能, 从而提高软件开发和维护的效率. 然而, 书写与维护代码注释费时费力, 导致代码注释经常出现缺失、不匹配以及过时等问题. 因此, 如何自动化地为源代码生成注释引起了大量研究人员的关注. 现有方法通常利用信息检索技术或深度学习技术来进行代码注释自动生成, 但这二者均存在自身的一些局限. 目前已有一些对信息检索技术和深度学习技术进行集成的研究工作, 但它们无法有效利用这两种技术优势. 针对这些问题, 提出一种基于语义重排序的代码注释生成方法SRBCS, 该方法通过语义重排序模型对不同方法所生成代码注释进行排序选择来实现代码注释生成, 从而在实现对不同方法集成的同时最大化地利用不同方法在代码注释生成上的优势. 在两个数据集上将SRBCS与14种代码注释生成方法进行比较. 实验评估结果表明SRBCS可以有效地对不同代码注释生成方法进行集成, 实现了优于现有14种代码注释生成方法的性能.

扩散模型引导的根因分析

王浩天，周学广，王尚文，靳若春，黄万荣，杨文婧，王戟

2026,37(2):621-640, DOI: 10.13328/j.cnki.jos.007473, CSTR: 32375.14.jos.007473

[摘要] (174) [HTML] (474) [PDF 3.54 M] (392)

摘要：
根因分析是指找出引起复杂系统异常故障的根源因素. 基于因果关系的溯因方法基于结构因果模型, 是实现根因分析的最优选择之一. 目前大多数因果驱动的根因分析方法大都需要数据因果结构的发现作为前置条件, 这使得根因分析本身严重依赖于因果发现这一先验任务的效果. 最近, 基于得分函数的干预识别受到了广泛关注, 其通过对比干预前后的得分函数导数的方差来检测被干预的变量集合, 具备突破因果发现对根因分析约束的潜力. 然而, 主流的基于得分函数的干预识别大都受限于得分函数估计这一步骤, 其采用的解析求解方法并不能很好地对真实的高维复杂数据分布进行建模. 因此, 鉴于最近在数据生成中取得的进展, 提出一种扩散模型引导的根因分析策略. 具体来说, 所提方法首先利用扩散模型针对异常发生前后的数据分布对应的得分函数进行估计, 进而通过观察对加权融合后的总体得分函数的一阶导方差, 识别导致异常发生的根因变量集合. 此外, 为了进一步减小在识别过程中剪枝操作带来的扩散模型重复训练的开销, 提出一种可靠的估计策略, 其只需要训练一次扩散模型即可估计所有剪枝过程中对应节点的得分函数. 在仿真数据和真实数据上的实验结果表明, 所提出的方法实现了对于根因变量集合的精准识别. 此外, 相关的消融实验也表明, 扩散模型的引导作用对于表现提升至关重要.

微信小程序

微信服务号

微信订阅号

学术社区

作者园地

友情链接