2025, 36(12):5387-5401. DOI: 10.13328/j.cnki.jos.007406
摘要:编译器是程序开发人员最依赖的性能优化工具之一. 然而, 受限于浮点数有限精度编码问题, 很多编译优化选项会改变浮点计算的语义, 进而导致程序计算结果不一致. 定位程序中导致编译优化结果不一致的语句对于程序性能优化和结果可复现具有重要意义. 当前最先进的方法PLiner采用基于语句精度增强的二分搜索来定位导致编译优化结果不一致的代码段, 受限于对多源问题代码的定位支持不够和搜索效率不高问题. 提出一种浮点指令差异性引导的Delta调试定位方法FI3D, 利用Delta调试中的回溯机制更好地支持多源问题代码定位, 基于不同编译优化选项下函数浮点指令序列的差异性来引导定位. 使用NPB基准测试集中的6个应用、GSL数学库中的10个程序和floatsmith混合精度测试集中的2个程序对FI3D进行了评测, 实验结果显示FI3D能够成功定位PLiner失效的4个测试用例, 且对PLiner成功定位的14个测试用例获得了平均26.8%的性能提升.
2025, 36(12):5402-5422. DOI: 10.13328/j.cnki.jos.007407
摘要:随着异构融合体系结构在高性能计算领域的普及, 挖掘其潜能并探索新的应用构建策略变得至关重要. 传统的静态编译方法已无法满足复杂计算需求, 动态编程语言因其灵活性和高效性而备受瞩目. Julia是一种现代的高性能动态编程语言, 其基于即时编译机制, 在科学计算等领域表现出色. 结合申威异构众核架构特点, 构建ORCJIT编译引擎并提出了动态模式下的片上存储管理方法, 并以此为基础实现针对新一代神威超级计算机的Julia动态语言编译器swJulia. 其不仅继承了Julia编译器的灵活性, 同时还有效支持了SACA众核编程模型及运行时封装. 利用swJulia编译系统, 成功在新一代神威超级计算机上部署了NNQS-Transformer量子化学模拟器, 并在多个维度验证了swJulia的好用性和高效性. 实验结果显示, swJulia在单线程基准测试和众核加速上性能卓越, 并能够有效支撑NNQS-Transformer量子化学模拟器的超大规模可扩展并行模拟.
2025, 36(12):5423-5437. DOI: 10.13328/j.cnki.jos.007408
摘要:随着自动驾驶技术的快速发展, 车辆控制权的接管问题成为研究的热点. 装载辅助驾驶系统的汽车并不能完全处理所有的驾驶场景, 当实际驾驶场景超出辅助系统的操作设计域时, 仍需要人类驾驶员控制汽车以安全完成驾驶任务. 接管绩效是衡量驾驶员接管表现的重要指标, 包括接管反应时间和接管质量两个方面. 接管反应时间是指系统发出接管请求后到驾驶员控制方向盘的时间开销, 接管反应时间长短不仅一定程度上反映了当前驾驶员的状态, 还对后续面对复杂场景进行操作也有一定影响. 接管质量是指驾驶员获得车辆控制权后手动驾驶车辆的质量. 基于CARLA驾驶模拟器, 构建6个典型驾驶场景下, 对车辆控制权接管过程进行仿真并通过多通道采集系统搜集了31名驾驶员的生理信号和眼动数据. 根据驾驶员的接管表现, 参考国际标准基于多个车辆数据提出包括驾驶员接管反应时间、最大横、纵向加速度、最小碰撞时间在内的更为客观的接管绩效评价标准. 综合驾驶员数据、车辆数据和场景数据, 研究利用深度神经网络(DNN)模型对接管绩效进行了预测, 并运用SHAP模型分析各特征的影响, 以提高模型的解释性和透明度. 实验结果表明, 所提出的DNN模型在接管绩效预测方面优于传统机器学习方法, 预测准确率达到92.2%, 且具备良好的泛化性. SHAP分析揭示了心率变异性、驾驶经验、最小安全距离等关键特征对预测结果的重要影响. 为自动驾驶系统的安全性优化和人机交互设计提供了理论和实证基础, 对提高自动驾驶技术中人车合作的效率和安全性具有重要意义.
2025, 36(12):5438-5455. DOI: 10.13328/j.cnki.jos.007409
摘要:时序逻辑已被广泛应用于形式化验证和机器人控制等领域, 但是对于非专家用户来说难以掌握使用. 因此, 采用自动化手段从自然语言文本中提取时序逻辑公式, 是至关重要的. 然而, 现有工作受限于需求样本稀疏和自然语言语义模糊等因素, 导致其难以准确地识别自然语言文本中隐含的时序语义, 进而造成最终得到的时序逻辑公式错误表达了原始自然语言的语义. 为了解决该问题, 提出一种基于小样本网络的时序逻辑语义分析方法FSLNets-TLSA, 它采用了数据预处理用来增强文本时序语义逻辑特征, 网络结构由编码器、归纳模块和关系模块组成, 旨在捕捉需求文本的隐含时序逻辑语义信息, 并集成模型增强模块识别监控语义准确度. 在3个公开数据集3533个需求样本上与相似工具上完成实验评估, 其分析的平均准确率、召回率和F1值达到了96.55%, 96.29%和96.42%, 验证了所提方法的有效性.
2025, 36(12):5456-5479. DOI: 10.13328/j.cnki.jos.007414
摘要:GUI测试是移动应用质量保障的重要手段之一. 随着移动生态的不断发展, 尤其是国产移动应用(如鸿蒙等)生态的强势崛起, GUI测试脚本跨平台录制回放成为了当前GUI测试的主要挑战之一. 开发者需将传统平台中GUI测试脚本迁移至新兴环境中, 以保证应用质量可靠性与多平台用户体验一致性. 然而, 不同平台间的底层实现差异导致了移动应用测试跨平台迁移的重大障碍, 这一挑战在面向新兴国产移动生态平台的测试迁移方面尤为突出. 移动应用的跨平台测试脚本录制回放是确保应用在不同操作系统和设备上保持一致性和高质量用户体验的关键. 现有技术仅解决了“一对一”事件匹配的情况, 而由于平台间GUI开发实践的不一致性, 测试事件的回放并非完全一对一映射, 而存在普遍的“多对多”映射情况, 即若干测试事件所对应的业务流程在不同平台上对应数量不等的测试事件. 为解决上述问题与挑战, 提出了一种基于大模型语义匹配的跨平台移动应用测试脚本录制回放方法(LLMRR). LLMRR方法结合图像匹配、文本匹配和大语言模型语义匹配技术, 在录制阶段通过图像分割算法记录用户操作信息, 并保存为录制测试脚本; 在回放阶段, 通过图像匹配和文本匹配模块在回放页面上找到对应的控件, 执行操作, 当无法匹配时, 调用大模型语义匹配模块进行语义匹配, 确保在不同平台上的高效运行. 对国产鸿蒙应用的测试进行了探索, 选择了20个应用共100个测试脚本, 在iOS、安卓和鸿蒙平台之间进行迁移测试, 并与当前最先进跨平台测试脚本录制回放方法LIRAT和MAPIT进行有效性对比. 结果表明, LLMRR方法在测试脚本录制回放中均表现出显著优势.
2025, 36(12):5480-5494. DOI: 10.13328/j.cnki.jos.007432
摘要:边缘服务器(edge server)为移动智能应用提供了低延时、高性能的服务. 然而, 由于边缘服务器上的负载量随时间波动较大, 在负载较低的时刻, 许多边缘服务器处于闲置状态, 其计算资源并没有得到充分利用. 与边缘服务器的利用率不同, 随着人工智能技术在人们生活中的应用越来越广泛, 云计算集群中的计算资源对于深度学习训练作业来说仍较为紧张. 现有的集群调度策略不能有效利用云计算集群外的空闲计算资源, 而有效利用云计算集群外的空闲计算资源可以缓解云计算集群的资源紧张问题, 从而使得更多截止期敏感的深度学习训练作业在截止期之前完成. 针对这一问题, 设计一种面向截止期敏感的深度学习训练作业的集群调度策略, 协同调度云计算资源和空闲的边缘计算资源, 充分利用不同深度学习训练作业的性能特征和空闲的边缘服务器设备, 使得更多的截止期敏感的深度学习训练作业在其截止期之前完成. 最后, 实验结果表明, 云边协同的调度方法在提升作业的截止期满足率方面优于其他基线方法, 并有效地利用空闲的边缘服务器设备, 提高计算资源的利用率.
2025, 36(12):5495-5511. DOI: 10.13328/j.cnki.jos.007433
摘要:为了对漏洞进行细粒度检测, 理想的模型必须确定软件是否包含漏洞, 并确定漏洞的类型(即进行漏洞分类). 一系列深度学习模型在漏洞分类任务中取得了良好的整体性能. 然而, 观察到不同漏洞类型之间存在严重的数据不平衡. 许多漏洞类型只有少量的漏洞样本(称为少样本类型), 这导致了对少样本类型的分类性能和泛化能力较差. 为了提高少样本漏洞类型的分类性能, 实现VulFewShot. 这种基于对比学习的漏洞分类框架通过使相同类型的漏洞样本“接近”, 同时使不同类型的漏洞样品彼此“远离”, 从而为仅有少数漏洞样本类型赋予了更多的权重. 实验结果表明, VulFewShot可以提高对所有类型漏洞的分类性能. 类型包含的漏洞样本数量越少, 改进就越显著. 因此, VulFewShot可以提高样本不足的漏洞的分类性能, 并减少样本量对学习过程的影响.
2025, 36(12):5512-5536. DOI: 10.13328/j.cnki.jos.007405
摘要:数据库系统的参数配置直接影响其性能和系统资源的利用率. 主流的关系数据库管理系统有数百个参数可供调整以获得最佳的性能和服务能力. 数据库系统性能的优化通常由经验丰富的数据库管理员(DBA)手动进行, 但是由于数据库系统配置参数众多、异构且参数之间的存在复杂的相关性, 传统的人工进行参数调优的工作方法效率低、成本高、可复用性差. 为了提高数据库系统性能优化的工作效率, 数据库系统的自动化参数调优技术成为数据库领域的研究热点. 由于强化学习具有与系统运行环境交互、反馈并逐步优化的能力, 被广泛应用于复杂系统的优化过程. 相关的研究工作将强化学习及其改进方法应用于数据库系统的参数优化, 但是都采用单目标优化的方法.实际上, 数据库系统的参数优化属于多目标优化任务, 且调优工作常在资源受限的情况下进行, 因此现有的工作存在一些缺陷: (1)将数据库系统优化任务的多个目标通过简单线性转换为单目标优化问题具有一定的盲目性, 需要反复迭代尝试优化, 实现成本高; (2)无法应对数据库系统需求的动态变化, 适用性差; (3)相关工作使用的强化学习方法本身是属于单目标优化算法, 将其应用于多目标任务时, 导致难以有效对齐偏好(当前的各个目标的权重系数)和相应的最优策略, 可能产生次优解; (4)现有数据库系统参数优化的目标通常仅考虑吞吐量和延迟, 未考虑内存等资源的利用率. 针对以上问题, 设计一种基于多目标深度确定性策略梯度的强化学习算法(MODDPG). 该方法是原生多目标的强化学习方法, 不需要将数据库系统优化的多目标任务转换为单目标任务, 可以高效适应数据库系统需求的动态变化. 通过改进强化学习算法的奖励机制可以快速实现偏好与最优策略的对齐, 有效避免次优解的产生, 提高数据库系统参数优化的效率. 为了更进一步验证所提方法的普遍适用性, 将提出的多目标优化的方法进行扩展, 实现了提升数据库的性能和资源利用率的多目标协同优化. 实验部分在主流关系数据库系统上使用TPC-C 和SYSBench测试基准对所提参数优化方法的有效性和实用性进行了验证. 实验结果表明, 所提方法在模型的训练效率和数据库参数优化的作用方面具有明显优势, 并且易于根据优化需求扩展到更多目标.
2025, 36(12):5537-5553. DOI: 10.13328/j.cnki.jos.007397
摘要:在基于模型诊断领域中, 首先对系统描述进行编码, 利用成熟的SAT求解器获得所有极小冲突集, 最后计算极小冲突集的极小碰集, 即待诊断设备的候选诊断. 然而这种策略花费大量的时间, 相当于计算两个NP-hard问题, 即计算极小冲突集和极小碰集. 对电路系统描述重新编码, 提出一种变种碰集算法HSDiag, 该算法可以直接对编码进行计算来获得诊断. 在与目前最先进的求解冲突集再求解碰集的诊断算法相比, 效率最高提升5–100倍. 随着电路组件的增多, 编码子句呈线性增加, 诊断数量呈指数级增加. 因为求解大规模电路(ISCAS-85)的所有冲突集不切实际, 所以在设置相同的截止时间内, 提出的HSDiag算法与基于冲突集的诊断算法相比多求出1倍以上的解集. 除此之外, 提出一种专属求解诊断的等价类优化策略, 就算在初始冲突集不可分割的情况下, 利用新提出的集合分裂规则能够对冲突集进一步分解. 在标准的Polybox和Fulladder电路中, 使用等价类优化后的HSDiag算法, 效率进一步提升2倍以上.
2025, 36(12):5554-5571. DOI: 10.13328/j.cnki.jos.007398
摘要:领域自适应旨在利用带标签的源域数据和无标签的目标域数据来解决机器学习泛化性不足的问题. 现有领域自适应工作主要针对计算机视觉任务. 为了解决针对时间序列数据的领域自适应挑战, 现有的方法将针对图片数据的方法直接应用于时间序列数据中. 这些方法虽然一定程度上解决了模型的泛化能力, 但是这些方法依然不能很好地提取解耦的领域不变的特征, 从而使得模型的泛化性能依然不尽人意. 为了解决这个挑战, 提出基于隐变量解耦学习的无监督领域自适应算法. 首先, 提出针对时间序列数据的因果数据生成过程, 在这个生成过程中, 假设观测数据背后的隐变量分为变化部分和不变部分, 并且将这些部分用隐变量表示. 基于这个数据生成过程, 提出可识别性理论证明领域变化的隐变量是可以被识别的. 在可识别性理论的基础上, 设计针对时间序列的隐变量解耦学习领域自适应模型(time series domain adaptation via disentangling invariant and variant latent variables, DIVV). 该模型一方面利用变分推断解耦领域变化的隐变量, 另一方面采用基于正交特征的对齐模块以解耦领域不变的隐变量. 最后该模型采用领域不变特征进行时间序列分类. 在多个真实数据集上进行验证, 并且取得了最有效的实验结果, 证明所提理论和模型在真实场景中的有效性.
2025, 36(12):5572-5598. DOI: 10.13328/j.cnki.jos.007399
摘要:利用计算机技术实现家谱数据的智能化管理, 对传承和普及中华传统文化有着重要的意义. 近年来, 随着基于检索增强的大语言模型在知识问答领域被广泛应用, 通过大语言模型以对话的方式向用户展示多样的家谱文化已经成为一个备受关注的研究方向. 然而, 家谱数据的异构性、自治性、复杂性和演化性导致现有的知识检索框架难以在复杂的家谱信息中实现完备的知识推理. 针对上述问题, 提出一种基于知识图谱推理的大语言模型家谱问答系统——华谱通, 从推理逻辑完备性和信息筛选精准性两个方面, 构建适合大语言模型家谱问答的知识图谱推理框架. 在推理逻辑完备性方面, 以知识图谱作为家谱知识的载体, 并基于Jena框架提出一套完备的家谱知识推理规则, 以提升模型对家谱信息的检索召回率. 在信息筛选方面, 以家谱中的同名人物和多重亲属关系为场景, 提出基于问题-条件三元组的多条件匹配机制和基于大根堆的Dijkstra路径排序算法, 通过过滤冗余的检索信息, 达到对大语言模型精准提示的目的. 目前, 华谱通已经部署到公开的智能家谱网站——华谱网, 并通过真实的家谱数据验证了问答系统的有效性.
2025, 36(12):5599-5628. DOI: 10.13328/j.cnki.jos.007400
摘要:知识图谱以其独特的知识管理方式和表示能力被广泛运用于知识问答等知识计算领域. 但是, 现实中的知识图谱或多或少存在信息不完整的问题, 影响知识图谱的质量, 限制了下游任务的效果, 如不完整的知识图谱不能给出准确的知识问答结果. 因此, 知识图谱补全技术应运而生, 旨在通过不同的策略对知识图谱事实三元组中缺失的内容进行预测以改善知识图谱的质量. 近年来, 人们对知识图谱补全进行了大量的研究. 根据构建模型所需样本的数量将现有的知识图谱补全技术分为3大类, 即零样本知识图谱补全、少样本知识图谱补全和多样本知识图谱补全. 为了调研并作为研究人员掌握知识图谱补全研究核心思想和研究现状的第一手材料, 从理论研究、实验分析以及具体应用, 如华谱系统, 对已有的知识图谱补全技术进行全面的回顾, 总结当前知识图谱补全技术所面临的问题与挑战, 并对未来可能的研究方向进行探讨.
2025, 36(12):5629-5643. DOI: 10.13328/j.cnki.jos.007401
摘要:知识图谱补全模型需要具备归纳能力, 才能够随着知识图谱的扩充泛化到新实体上. 然而, 现有的方法都只能通过聚合知识图谱中的邻居信息, 从一个局部的视角来理解实体的语义, 从而导致无法从不同的视角捕捉到实体之间的多种有价值的关联. 在局部视角以外, 通过非显式连接实体之间和远距离连接实体之间的交互, 从而以全局视角和序列视角来进一步理解实体是至关重要的. 更重要的是, 强调通过多个不同视角聚合到的信息应当是互补的, 而不是冗余的. 因此, 提出一个带有差异化机制的多视角知识图谱补全框架, 用于归纳式知识图谱补全任务. 它能够从多个不同视角学习到互补的、互不重叠的实体表示. 具体来说, 除了通过关系图卷积网络聚合邻居信息得到实体的局部表示外, 设计一种基于注意力的差异化机制, 用于从语义相关的实体和实体相关路径中聚合得到实体的全局和序列表示. 最终, 融合这些表示, 并基于它们给三元组打分. 实验结果证明, 所提方法在归纳式的设定下超越了当前最先进的方法. 此外, 所提方法在直推式的知识图谱补全任务中也保持着有竞争力的表现.
2025, 36(12):5644-5673. DOI: 10.13328/j.cnki.jos.007402
摘要:针对当前OWL知识表示学习方法存在的概念层和实例层复杂语义信息联合表征能力不足等问题, 提出一种概念-属性-实例多语义视图驱动的OWL图谱知识表示学习方法(MSV-KRL). 该方法采用“多语义视图划分、语义感知自监督进阶训练、多任务联合表示学习”的3阶段架构. 首先, MSV-KRL在OWL2Vec*的基础上, 优化OWL到RDF图结构的映射策略, 提出5类细粒度语义视图划分策略. 其次, 通过语义视图内随机游走和标注属性替换策略, 生成序列化进阶训练数据, 并开展预训练模型的自监督进阶训练, 以提升其面向多语义视图上下文的适配能力. 最后, 在多任务学习框架下, 通过多语义视图预测任务联合优化损失, 实现对OWL知识图谱中概念、属性和实例复杂语义有效表示学习. 实验结果表明, MSV-KRL在多个基准数据集上的表现优于现有先进的知识表示学习方法, 且能适配于多种语言模型, 有效提升OWL复杂语义的知识表示能力.
2025, 36(12):5674-5694. DOI: 10.13328/j.cnki.jos.007403
摘要:知识图谱构造常面临三元组错误或缺失等质量问题, 准确性评估是选择和优化知识图谱的基础, 对提升下游应用的可信性具有重要意义. 引入嵌入模型, 降低对人工标注数据的依赖性, 提升大规模数据处理效率. 将三元组正误判定转化为无标注的自动化阈值选择问题, 提出了3种阈值选择策略, 增强评估的鲁棒性. 提出结合三元组重要性的评估方法, 从网络结构和关系语义两方面定义重要性指标, 对关键结构、频繁访问的三元组赋予更高关注度. 从嵌入模型表征能力、知识图谱稠密度、三元组重要性计算方式等多个角度, 分析比较了对评估方法性能的影响. 实验表明, 相比现有知识图谱准确性的自动化评估方法, 在零样本条件下, 所提出的方法可有效降低评估误差, 平均降低接近30%, 在错误率较高、稠密图谱的数据集上效果尤为显著.
2025, 36(12):5695-5719. DOI: 10.13328/j.cnki.jos.007404
摘要:会话推荐旨在基于用户的一系列项目预测其交互的下一项目, 现有大多数会话推荐对于会话内项目间的时间间隔信息利用不够充分, 影响推荐准确性. 近年, 图神经网络凭借自身强大的复杂关系建模能力在会话推荐中受到推崇, 但仅基于图神经网络的会话推荐忽略了会话间的隐藏高阶关系, 信息不够丰富. 此外, 数据稀疏性一直是推荐系统中存在的现象, 研究中多使用对比学习对此实施改善, 然而大多对比学习框架形式单一, 泛化能力不强. 基于此, 提出一种结合自监督学习的会话推荐模型. 首先, 该模型利用用户会话内项目间的时间间隔信息对会话序列实施数据增强, 丰富会话内信息, 以提高推荐准确性; 其次, 构建超图卷积网络和Transformer编码器相结合的对偶视图, 从多视角捕捉会话间的隐藏高阶关系, 以丰富推荐多样性; 最后, 融合数据增强后的会话内信息、多视角下的会话间信息以及原始会话信息进行对比学习, 以增强模型泛化性. 通过与11个已有经典模型在4个数据集上的对比发现, 所提模型是可行高效的, 在HR与NDCG指标上分别平均提升5.96%、5.89%.
2025, 36(12):5720-5738. DOI: 10.13328/j.cnki.jos.007415
摘要:主要研究题文不符的社交推文检测任务. 这些推文往往通过欺骗性的标题或封面图来误导读者点击与之无关的低质内容, 以让其广泛传播和带来点击量等商业利益. 为了规避检测, 恶意的创作者还会使用各种窍门将题文不符的推文伪装成合法的, 譬如添加无关易混淆的合法内容来干扰检测器. 检测这种推文需要对细节反复推敲, 甚至还要借助外部的常识进行多步推理验证. 然而, 传统方法一般把推文看成是一堆词语符号并简单灌入神经网络做分类, 忽略对其内在隐含的虚假细节进行分析, 导致漏判和误判. 而且这种黑盒子般的模型缺乏可解释. 为了解决这些问题, 提出一种问答引导的新检测器, 通过质疑-验证的方式对细节逐一分析, 以发现潜在的不一致和虚假点. 首先利用多模态检索增强技术提取推文中的细节点, 然后通过提问的方式来质疑每个点. 为了充分验证事实和其复杂关系, 不仅覆盖简单的浅层匹配提问, 还有深层次常识推理的高阶提问. 每个提问可以从推文中找到字面答案. 但是该答案可能是虚构和不准确的. 为此, 通过开放域的问答模型借助外部知识源来交叉验证, 推导出相对可信的答案. 当两个答案不同时, 推文很可能存在虚假内容. 这种不一致可以作为有效的特征, 并与其他多模态的语义特征结合, 以提高检测模型的判别能力和鲁棒性. 此外, 这可以把复杂的检测任务分解为一系列问答步骤, 便于找出不一致细节来解释引起题文不符的原因. 在3个主流数据集上做了充分的实验, 验证了该方法的有效性.
2025, 36(12):5739-5754. DOI: 10.13328/j.cnki.jos.007416
摘要:现有基于深度学习的点云配准方法主要聚焦于特征提取和特征匹配方面的研究, 然而, 其在特征提取阶段对局部和全局图结构的挖掘尚不充分, 同时在匹配过程中对差异信息的探索也较为有限. 为此, 提出了一种局部-全局动态图学习与互补融合的点云配准方法. 具体而言, 动态偏移的局部图学习模块通过构造包含几何和语义信息的代理点来刻画特征空间中潜在的图结构, 从而获得更具判别性的局部特征. 其次, 设计了动态关注的全局图学习模块, 根据点之间的相互关系自适应地调整关注权重, 有效地捕获了点云中的长程依赖关系. 为了进一步提高两个点云之间的对应关系, 构造了注意力驱动的互补融合模块, 根据交叉注意力机制来挖掘相似信息和差异信息, 并利用自注意力机制优化特征之间的关联性. 实验结果表明, 该方法在公开数据集上实现了最优的配准效果, 并具备良好的计算效率.
2025, 36(12):5755-5779. DOI: 10.13328/j.cnki.jos.007396
摘要:智能合约是运行在区块链上的计算机程序, 在扩展区块链功能、实现复杂应用的同时, 其潜在的安全漏洞也带来巨大风险. 基于符号执行的安全漏洞检测方法具有精确度高、可生成能复现漏洞的测试用例等优势. 然而, 随着代码规模的增大, 符号执行技术容易受到路径爆炸、约束求解开销过大等问题的影响. 为此, 提出一种基于目标制导符号执行的智能合约安全漏洞检测方法, 首先将静态分析工具或人工标注的漏洞语句作为目标, 分析目标依赖语句, 补充事务序列以添加相关变量的符号约束. 然后, 基于智能合约字节码构建控制流图, 定位目标语句以及目标依赖语句所在的基本块, 剪枝控制流图以生成制导信息. 最后, 根据制导信息优化符号执行的路径探索策略, 减少需要分析的基本块数量以及求解路径条件的时间, 最终高效地检测目标语句是否存在安全漏洞, 并输出可复现漏洞的测试用例. 基于上述思路实现Smart-Target原型工具, 在SB Curated数据集上与符号执行工具Mythril进行对比. 实验结果表明Smart-Target在安全漏洞检测和漏洞复现场景分别减少60.76%和92.16%的时间开销, 大幅提高符号执行效率. 此外, Smart-Target通过分析目标依赖语句使其多检测到22.02%的安全漏洞, 有效提升了漏洞检测能力.
2025, 36(12):5780-5800. DOI: 10.13328/j.cnki.jos.007431
摘要:随着智能出行的推广, 车载自组织网络(vehicular ad hoc network, VANET)在数据采集上应用得到越来越多的关注. 然而, 由于车辆的高速移动和轨迹难以预测, 传统的基于位置的贪婪转发策略难以适应于高动态VANET下数据传递的需求. 为解决这一问题, 提出一种历史交通数据驱动的VANET智能路由算法. 首先, 通过离线学习方法基于网络的历史交通流信息, 获取用于最优路径选择的转发表; 其次, 在路径上, 利用基于Markov预测的在线V2V传输机制, 通过考虑车辆的运动状态等因素选择可靠的下一中继车辆. 最后, 与3种路由算法进行了对比, 实验结果表明, 该算法在数据包投递率、平均端到端时延、网络收益率、平均成功发包开销和在线计算时间复杂度这5个性能上均表现优越.
2025, 36(12):5801-5820. DOI: 10.13328/j.cnki.jos.007372
摘要:科研成果的可复现性是科学研究可靠性的基本保证, 更是科学技术进步的基石. 然而, 当前学术界面临着严峻的可复现性危机, 大量在顶级期刊和会议上公开发表的科研成果无法复现. 在数据科学领域, 成果的可复现性面临着科研数据多源异构、计算流程复杂、计算环境复杂等挑战. 针对这些问题, 提出面向可复现性的科研数据管理系统ReproLink. ReproLink提出对科研数据的统一建模, 将科研数据抽象为包含标识、属性集、数据实体三要素的科研数据对象; 通过对于复现流程的细粒度建模, ReproLink建立一种对多步骤复杂复现流程的精确描述方法. 通过代码和运行环境的一体化建模, ReproLink消除不同环境中代码执行行为的不确定性给成果复现带来的影响. 对ReproLink的性能测试和实例分析表明, ReproLink在百万级的数据规模下具有较好的性能表现, 在论文复现、复现相关数据的溯源等现实场景中具有实用价值. ReproLink系统技术架构已集成到国内唯一专门面向科研院所的一体化综合管理与服务平台-科南软件, 支持国内数百家科研机构的成果复现需求.
2025, 36(12):5821-5850. DOI: 10.13328/j.cnki.jos.007411
摘要:NUMA (non-uniform memory access)是现代多核、多路处理器平台上主流的内存访问架构, NUMA访问延迟对数据库的查询性能有较大影响, 因此如何降低查询处理中跨NUMA节点的访问延迟是现代内存数据库查询优化的热点问题之一. 不同的处理器在NUMA架构、NUMA延迟等方面差异较大, 因此NUMA优化技术需要与硬件特性相结合. 基于内存数据库执行代价最高和对数据局部性依赖最强的内存外键连接算法, 面向代表性的ARM、Intel CLX、Intel ICX、AMD Zen2和AMD Zen3这5个处理器NUMA架构和延迟特征, 探索了不同NUMA优化方法, 包括NUMA-conscious和NUMA-oblivious实现技术. 在数据存储、数据分片、连接中间结果缓存等方面采用不同的优化方案, 比较了不同处理器架构上的算法性能, 实验结果表明, NUMA-conscious优化策略需软、硬件相结合, 其中Radix Join对NUMA延迟敏感度为中性, 在5个不同的处理器平台上, NUMA优化性能收益稳定在30%左右, NPO算法对NUMA延迟敏感度较高, 在不同平台NUMA优化性能收益在38%–57%, Vector Join算法对NUMA延迟敏感但影响幅度较小, NUMA优化性能收益在1%–25%之间, 且在算法性能特征上, Vector Join受cache效率影响比NUMA延迟影响更大; NUMA-conscious优化技术在ARM平台差异较大, 在x86平台差异极小, NUMA-oblivious算法复杂度更低, 具有较好的通用性. 从处理器硬件发展趋势来看, 降低NUMA访问延迟可以有效地降低不同NUMA-conscious优化算法的性能差异, 简化连接算法的复杂度, 提高连接操作性能.
2025, 36(12):5851-5870. DOI: 10.13328/j.cnki.jos.007412
摘要:半监督语义分割方法通常采用不同数据增强方案来确保多分支网络输入信息的差异化, 以实现分支之间相互监督. 虽然该方法取了一定成效, 但其存在以下问题: 1)特征提取差异不足, 造成推理特征信息同化; 2)监督信号差异不足, 造成末端损失学习同化. 以上两个问题都会促使网络中不同分支收敛到相似的解决方案, 导致多分支网络功能退化, 出现多个分支对错误保持相似置信度的问题, 错误引导网络分支收敛. 针对上述问题, 提出了一种基于差异化特征提取的交叉半监督语义分割网络. 首先, 采用差异化特征提取策略, 通过让网络分支分别关注纹理、语义和形状等不同信息, 从特征提取角度使特征提取信息始终存在差异性, 减少网络对数据增强的依赖; 其次, 提出一种交叉融合伪标签方法, 使网络分支交替生成邻域像素融合伪标签, 以此增强网络末端监督信号的差异性, 最终促使网络分支收敛向不同的解决方案. 实验结果证明, 方法在Pascal VOC 2012和Cityscapes验证集上分别达到了80.2%和76.8%的优异性能, 领先于最新方法0.3%和1.3%.

