推荐文章

  • 显示方式:
  • 简洁模式
  • 摘要模式
  • 1  面向超图数据的最大独立集算法
    徐兰天,李荣华,戴永恒,王国仁
    2024, 35(6):2999-3012. DOI: 10.13328/j.cnki.jos.006926
    [摘要](710) [HTML](701) [PDF 5.38 M](1969)
    摘要:
    超图是普通图的泛化表示, 在许多应用领域都很常见, 包括互联网、生物信息学和社交网络等. 独立集问题是图分析领域的一个基础性研究问题, 传统的独立集算法大多都是针对普通图数据, 如何在超图数据上实现高效的最大独立集挖掘是一个亟待解决的问题. 针对这一问题, 提出一种超图独立集的定义. 首先分析超图独立集搜索的两个特性, 然后提出一种基于贪心策略的基础算法. 接着提出一种超图近似最大独立集搜索的剪枝框架即精确剪枝与近似剪枝相结合, 以精确剪枝策略缩小图的规模, 以近似剪枝策略加快搜索速度. 此外, 还提出4种高效的剪枝策略, 并对每种剪枝策略进行理论证明. 最后, 通过在10个真实超图数据集上进行实验, 结果表明剪枝算法可以高效地搜索到更接近于真实结果的超图最大独立集.
    2  谛听: 面向鲁棒分布外样本检测的半监督对抗训练方法
    周志阳,窦文生,李硕,亢良伊,王帅,刘杰,叶丹
    2024, 35(6):2936-2950. DOI: 10.13328/j.cnki.jos.006928
    [摘要](644) [HTML](492) [PDF 8.62 M](1594)
    摘要:
    检测训练集分布之外的分布外(out-of-distribution, OOD)样本对于深度神经网络(deep neural network, DNN)分类器在开放环境的部署至关重要. 检测OOD样本可以视为一种二分类问题, 即把输入样本分类为“分布内(in-distribution, ID)”类或“分布外”类. 进一步地, 检测器自身还可能遭受到恶意的对抗攻击而被再次绕过. 这些带有恶意扰动的OOD样本称为对抗OOD样本. 构建鲁棒的OOD检测器以检测对抗OOD样本是一项更具挑战性的任务. 为习得可分离且对恶意扰动鲁棒的表示, 现有方法往往利用辅助的干净OOD样本邻域内的对抗OOD样本来训练DNN. 然而, 由于辅助的OOD训练集与原ID训练集的分布差异, 训练对抗OOD样本无法足够有效地使分布内决策边界对对抗扰动真正鲁棒. 从ID样本的邻域内生成的对抗ID样本拥有与原ID样本近乎一样的语义信息, 是一种离分布内区域更近的OOD样本, 对提升分布内边界对对抗扰动的鲁棒性很有效. 基于此, 提出一种半监督的对抗训练方法——谛听, 来构建鲁棒的OOD检测器, 用以同时检测干净OOD样本和对抗OOD样本. 谛听将对抗ID样本视为一种辅助的“近OOD”样本, 并将其与其他辅助的干净OOD样本和对抗OOD样本联合训练DNN, 以提升OOD检测的鲁棒性. 实验结果表明, 谛听在检测由强攻击生成的对抗OOD样本上具有显著的优势, 同时在原分类主任务及检测干净OOD样本上保持先进的性能.
    3  二进制翻译技术综述
    谢汶兵,田雪,漆锋滨,武成岗,王俊,罗巧玲
    2024, 35(6):2687-2723. DOI: 10.13328/j.cnki.jos.007099
    [摘要](1870) [HTML](1058) [PDF 9.89 M](4145)
    摘要:
    随着信息技术的快速发展, 涌现出各种新型处理器体系结构. 新的体系结构出现为处理器多样化发展带来机遇的同时也提出了巨大挑战, 需要兼容运行已有软件, 确保较为丰富的软件生态群. 但要在短期内从源码编译构建大量生态软件并非易事, 二进制翻译作为一种直接从二进制层面迁移可执行代码技术, 支持跨平台软件兼容运行, 既扩大了软件生态群, 又有效降低了应用程序与硬件之间的耦合度. 近年来, 二进制翻译技术研究取得了较大进展. 为总结现有成果并分析存在的不足, 首先介绍二进制翻译技术的分类以及典型的二进制翻译系统, 之后从指令翻译方法、关键问题研究、优化技术等方面分别进行分析总结, 接着阐述二进制翻译技术的核心应用领域, 最后对二进制翻译技术的潜在研究方向进行展望.
    4  KENN: 线性结构熵的图核神经网络
    徐立祥,许巍,陈恩红,罗斌,唐远炎
    2024, 35(5):2430-2445. DOI: 10.13328/j.cnki.jos.007039
    [摘要](546) [HTML](641) [PDF 4.18 M](1663)
    摘要:
    图神经网络(graph neural network, GNN)是一种利用深度学习直接对图结构数据进行表征的框架, 近年来受到人们越来越多的关注. 然而传统的基于消息传递聚合的图神经网络(messaging passing GNN, MP-GNN)忽略了不同节点的平滑速度, 无差别地聚合了邻居信息, 易造成过平滑现象. 为此, 研究并提出一种线性结构熵的图核神经网络分类方法, 即KENN. 它首先利用图核方法对节点子图进行结构编码, 判断子图之间的同构性, 进而利用同构系数来定义不同邻居间的平滑系数. 其次基于低复杂度的线性结构熵提取图的结构信息, 加深和丰富图数据的结构表达能力. 通过将线性结构熵、图核和图神经网络三者进行深度融合提出了图核神经网络分类方法. 它不仅可以解决生物分子数据节点特征的稀疏问题, 也可以解决社交网络数据以节点度作为特征所产生的信息冗余问题, 同时还使得图神经网络能够自适应调整对图结构特征的表征能力, 使其超越MP-GNN的上界(WL测试). 最后, 在7个公开的图分类数据集上实验验证了所提出模型的性能优于其他的基准模型.
    5  HiLog:OpenHarmony的高性能日志系统
    吴圣垚,王枫,武延军,凌祥,屈晟,罗天悦,吴敬征
    2024, 35(4):2055-2075. DOI: 10.13328/j.cnki.jos.006900
    [摘要](1018) [HTML](702) [PDF 3.74 M](2347)
    摘要:
    日志是计算机系统中记录事件状态信息的的重要载体, 日志系统负责计算机系统的日志生成、收集和输出. OpenHarmony是新兴的、面向全设备、全场景的开源操作系统. 在所述工作之前, 包括日志系统在内OpenHarmony有许多关键子系统尚未构建, 而OpenHarmony的开源特性使第三方开发者可以为其贡献核心代码. 为了解决OpenHarmony日志系统缺乏的问题, 主要开展如下工作: ① 分析当今主流日志系统的技术架构和优缺点; ② 基于OpenHarmony操作系统的异构设备互联特性设计HiLog日志系统模型规范; ③ 设计并实现第1个面向OpenHarmony的日志系统HiLog, 并贡献到OpenHarmony主线; ④ 对HiLog日志系统的关键指标进行测试和对比试验. 实验数据表明, 在基础性能方面, HiLog和Log的日志写入阶段吞吐量分别为1 500 KB/s和700 KB/s, 相比Android日志系统吞吐量提升114%; 在日志持久化方面, HiLog可以3.5%的压缩率进行持久化, 并且丢包率小于6‰, 远低于Log. 此外, HiLog还具备数据安全、流量控制等新型实用能力.
    6  面向指-笔混合输入的交互原语和交互模型研究
    仝青山,康文惠,付强,黄进,田丰,戴国忠
    2024, 35(4):2022-2038. DOI: 10.13328/j.cnki.jos.006909
    [摘要](361) [HTML](530) [PDF 9.53 M](1704)
    摘要:
    随着触摸设备的普及, 指、笔输入已成为移动办公的一种主流输入方式. 然而现有的应用主要以手指或笔通道中的一种作为输入, 限制了用户的交互空间. 同时, 现有的指-笔混合研究主要关注串行的指-笔分工协作和特定交互任务的并行处理, 并没有系统地考虑并行协作机制和不同通道输入之间的意图关联. 为此, 提出一种面向指-笔混合输入的交互模型; 结合用户指-笔协作的行为习惯定义指-笔混合交互原语, 拓展指、笔交互空间; 继而利用部分可观察马尔可夫决策过程提出基于时序信息的指-笔混合输入意图提取方法, 用以增量式地提取多义性交互原语的交互意图. 最后通过一个用户实验说明指-笔混合输入的优势.
    7  神经网络结构搜索在脑数据分析领域的研究进展
    李晴,汪启昕,李子遇,祝志远,张诗皓,牟浩南,杨文婷,邬霞
    2024, 35(4):1682-1702. DOI: 10.13328/j.cnki.jos.007012
    [摘要](1093) [HTML](1387) [PDF 2.64 M](3087)
    摘要:
    神经网络结构搜索(neural architecture search, NAS)是自动化机器学习的重要组成部分, 已被广泛应用于多个领域, 包括计算机视觉、语音识别等, 能够针对特定数据、场景、任务寻找最优的深层神经网络结构. 将NAS引入至脑数据分析领域, 能够在图像分割、特征提取、辅助诊断等多个应用领域大幅度提升性能, 展现低能耗自动化机器学习的优势. 基于NAS进行脑数据分析是当前的研究热点之一, 同时也具有一定挑战. 目前, 在此领域,国内外可供参考的综述性文献较少. 对近年来国内外相关文献进行了细致地调研分析, 从算法模型、研究任务、实验数据等不同方面对NAS在脑数据分析领域的研究现状进行了综述. 同时, 也对能够支撑NAS训练的脑数据集进行了系统性总结, 并对NAS在脑数据分析中存在的挑战和未来的研究方向进行了分析和展望.
    8  元强化学习研究综述
    陈奕宇,霍静,丁天雨,高阳
    2024, 35(4):1618-1650. DOI: 10.13328/j.cnki.jos.007011
    [摘要](3514) [HTML](1275) [PDF 4.71 M](5882)
    摘要:
    近年来, 深度强化学习(deep reinforcement learning, DRL)已经在诸多序贯决策任务中取得瞩目成功, 但当前, 深度强化学习的成功很大程度依赖于海量的学习数据与计算资源, 低劣的样本效率和策略通用性是制约其进一步发展的关键因素. 元强化学习(meta-reinforcement learning, Meta-RL)致力于以更小的样本量适应更广泛的任务, 其研究有望缓解上述限制从而推进强化学习领域发展. 以元强化学习工作的研究对象与适用场景为脉络, 对元强化学习领域的研究进展进行了全面梳理: 首先, 对深度强化学习、元学习背景做基本介绍; 然后, 对元强化学习作形式化定义及常见的场景设置总结, 并从元强化学习研究成果的适用范围角度展开介绍元强化学习的现有研究进展; 最后, 分析了元强化学习领域的研究挑战与发展前景.
    9  深度神经网络修复策略综述
    梁震,刘万伟,吴陶然,薛白,王戟,杨文婧
    2024, 35(3):1231-1256. DOI: 10.13328/j.cnki.jos.007061
    [摘要](920) [HTML](1461) [PDF 10.10 M](2405)
    摘要:
    随着智能信息时代的发展,深度神经网络在人类社会众多领域中的应用,尤其是在自动驾驶、军事国防等安全攸关系统中的部署,引起了学术界和工业界对神经网络模型可能表现出的错误行为的担忧.虽然神经网络验证和神经网络测试可以提供关于错误行为的定性或者定量结论,但这种事后分析并不能防止错误行为的发生,如何修复表现出错误行为的预训练神经网络模型依然是极具挑战性的问题.为此,深度神经网络修复这一领域应运而生,旨在消除有缺陷的神经网络产生的错误预测,使得神经网络满足特定的规约性质.目前为止,典型的神经网络修复范式有3种:重训练、无错误定位的微调和包含错误定位的微调.介绍深度神经网络的发展和神经网络修复的必要性;厘清相近概念;明确神经网络修复的挑战;详尽地调研目前已有的神经网络修复策略,并对内在联系与区别进行分析和比较;调研整理神经网络修复策略常用的评价指标和基准测试;展望未来神经网络修复领域研究中需要重点关注的可行方向.
    10  支持深度学习的视觉数据库管理系统研究进展
    丁光耀,徐辰,钱卫宁,周傲英
    2024, 35(3):1207-1230. DOI: 10.13328/j.cnki.jos.007075
    [摘要](805) [HTML](1554) [PDF 1.35 M](2809)
    摘要:
    计算机视觉因其强大的学习能力,在各种真实场景中得到了广泛应用.随着数据库的发展,利用数据库中成熟的数据管理技术来处理视觉分析应用,已成为一种日益增长的研究趋势.图像、视频和文本等多模态数据的相互融合处理,也促进了视觉分析应用的多样性和准确性.近年来,因深度学习的兴起,支持深度学习的视觉分析应用开始受到广泛关注.然而,传统的数据库管理技术在深度学习场景下面临着复杂视觉分析语义难以表达、应用执行效率低等问题.因此,支持深度学习的视觉数据库管理系统得到了广泛关注.综述了目前视觉数据库管理系统的研究进展:首先,总结了视觉数据库管理系统在不同层面上面临的挑战,包括编程接口、查询优化、执行调度和数据存储;其次,分别探讨了上述4个层面上的相关技术;最后,对视觉数据库管理系统未来的研究方向进行了展望.
    11  区块链互操作技术综述
    段田田,张瀚文,李博,宋兆雄,李忠诚,张珺,孙毅
    2024, 35(2):800-827. DOI: 10.13328/j.cnki.jos.006950
    [摘要](1200) [HTML](1980) [PDF 9.66 M](3241)
    摘要:
    区块链技术被认为是构建价值互联网的基石, 然而彼此独立的区块链系统形成了数据、价值孤岛. 区块链互操作(也被称为跨链操作)是打破链间壁垒、构建区块链网络的关键技术. 在区分狭义与广义区块链互操作的基础上, 重新定义狭义区块链互操作, 并抽象出跨链读与跨链写两类基本操作; 分析总结实现狭义区块链互操作需要解决的3个关键技术问题: 跨链信息传输、跨链信任传递、跨链操作原子性保障; 系统梳理这3个问题的研究现状, 并分别从多角度进行比较; 在此基础上, 从关键技术问题的角度分析具有代表性的整体解决方案; 最后指出几个值得进一步探索的研究方向.
    12  开源软件供应链研究综述
    高恺,何昊,谢冰,周明辉
    2024, 35(2):581-603. DOI: 10.13328/j.cnki.jos.006975
    [摘要](1909) [HTML](2283) [PDF 1.08 M](3864)
    摘要:
    开源软件已经成为现代社会的一项关键基础设施, 支撑着几乎所有领域的软件开发. 通过安装依赖、API调用、项目fork、文件拷贝和代码克隆等形式的代码复用, 开源软件之间形成了错综复杂的供应(依赖)关系网络, 被称为开源软件供应链. 一方面, 开源软件供应链为软件开发提供了便利, 已然成为软件行业的基石. 另一方面, 上游软件的风险可以沿着开源软件供应链波及众多的下游软件, 使开源软件供应链呈现牵一发而动全身的特点. 开源软件供应链近年来逐渐成为学术界和工业界的关注焦点. 为了帮助增进研究人员对开源软件供应链的认识, 从整体性的角度, 对开源软件供应链给出定义和研究框架; 然后, 对国内外的研究工作进行系统文献调研, 总结结构与演化、风险传播与管理、依赖管理3个方面的研究现状; 最后, 展望开源软件供应链的研究挑战和未来研究方向.
    13  光滑粒子流体动力学流体仿真技术综述
    刘树森,何小伟,王文成,吴恩华
    2024, 35(1):481-512. DOI: 10.13328/j.cnki.jos.006777
    [摘要](1948) [HTML](2439) [PDF 12.50 M](3969)
    摘要:
    光滑粒子流体动力学(smoothed particle hydrodynamics, SPH)是实现流体仿真的主要技术之一. 随着生产实践中流体仿真应用需求的增加, 近些年涌现了许多相关研究成果, 改善了流体不可压缩性、粘性、表面张力等物理特性模拟的视觉真实性、效率与稳定性. 同时, 一些工作探讨了复杂场景的高质量模拟, 以及多场景、多材料的统一仿真框架, 增强了SPH流体仿真技术的应用效能. 从以上几个方面对SPH流体仿真技术进行归纳、总结和讨论, 并对其未来发展进行了展望.
    14  智能数据可视分析技术综述
    骆昱宇,秦雪迪,谢宇鹏,李国良
    2024, 35(1):356-404. DOI: 10.13328/j.cnki.jos.006911
    [摘要](2041) [HTML](1744) [PDF 16.62 M](3341)
    摘要:
    如何从海量数据中快速有效地挖掘出有价值的信息以更好地指导决策, 是大数据分析的重要目标. 可视分析是一种重要的大数据分析方法, 它利用人类视觉感知特性, 使用可视化图表直观呈现复杂数据中蕴含的规律, 并支持以人为本的交互式数据分析. 然而, 可视分析仍然面临着许多挑战, 例如数据准备代价高、交互响应高延迟、可视分析高门槛和交互模式效率低. 为应对这些挑战, 研究者从数据管理、人工智能等视角出发, 提出一系列方法以优化可视分析系统的人机协作模式和提高系统的智能化程度. 系统性地梳理、分析和总结这些方法, 提出智能数据可视分析的基本概念和关键技术框架. 然后, 在该框架下, 综述和分析国内外面向可视分析的数据准备、智能数据可视化、高效可视分析和智能可视分析接口的研究进展. 最后, 展望智能数据可视分析的未来发展趋势.
    15  天地一体化网络关键技术研究综述
    蒋长林,李清,王羽,赵丹,赵达毅,江勇,徐明伟
    2024, 35(1):266-287. DOI: 10.13328/j.cnki.jos.006753
    [摘要](2224) [HTML](2246) [PDF 3.43 M](6094)
    摘要:
    作为地面网络的补充和延伸, 卫星网络有助于加速弥合区域间的数字鸿沟, 扩展地面网络的覆盖和服务范围. 然而卫星网络拓扑动态性高、传播时延大、星上计算能力和存储能力均受限, 因此实现卫星网络与地面网络的有机融合, 构建覆盖全球的天地一体化网络面临路由扩展性、传输稳定性等技术挑战. 针对天地一体化网络的研究挑战, 从网络架构、路由、传输和基于组播的内容分发等方面介绍了国内外的研究现状, 并展望了天地一体化网络的发展趋势.
    16  卷积神经网络的可解释性研究综述
    窦慧,张凌茗,韩峰,申富饶,赵健
    2024, 35(1):159-184. DOI: 10.13328/j.cnki.jos.006758
    [摘要](3016) [HTML](1642) [PDF 9.25 M](5768)
    摘要:
    神经网络模型性能日益强大, 被广泛应用于解决各类计算机相关任务, 并表现出非常优秀的能力, 但人类对神经网络模型的运行机制却并不完全理解. 针对神经网络可解释性的研究进行了梳理和汇总, 就模型可解释性研究的定义、必要性、分类、评估等方面进行了详细的讨论. 从解释算法的关注点出发, 提出一种神经网络可解释算法的新型分类方法, 为理解神经网络提供一个全新的视角. 根据提出的新型分类方法对当前卷积神经网络的可解释方法进行梳理, 并对不同类别解释算法的特点进行分析和比较. 同时, 介绍了常见可解释算法的评估原则和评估方法. 对可解释神经网络的研究方向与应用进行概述. 就可解释神经网络面临的挑战进行阐述, 并针对这些挑战给出可能的解决方向.
    17  开源软件漏洞感知技术综述
    詹奇,潘圣益,胡星,鲍凌峰,夏鑫
    2024, 35(1):19-37. DOI: 10.13328/j.cnki.jos.006935
    [摘要](1704) [HTML](2036) [PDF 7.59 M](4048)
    摘要:
    随着现代软件规模不断扩大, 软件漏洞给计算机系统和软件的安全运行、可靠性造成了极大的威胁, 进而给人们的生产生活造成巨大的损失. 近年来, 随着开源软件的广泛使用, 其安全问题受到广泛关注. 漏洞感知技术可以有效地帮助开源软件用户在漏洞纰漏之前提前感知到漏洞的存在, 从而进行有效防御. 与传统软件的漏洞检测不同, 开源漏洞的透明性和协同性给开源软件的漏洞感知带来巨大的挑战. 因此, 有许多学者和从业人员提出多种技术, 从代码和开源社区中感知开源软件中潜在的漏洞和风险, 以尽早发现开源软件中的漏洞从而降低漏洞所带来的损失. 为了促进开源软件漏洞感知技术的发展, 对已有研究成果进行系统的梳理、总结和点评. 选取45篇开源漏洞感知技术的高水平论文, 将其分为3大类: 基于代码的漏洞感知技术、基于开源社区讨论的漏洞感知技术和基于软件补丁的漏洞感知技术, 并对其进行系统地梳理、归纳和总结. 值得注意的是, 根据近几年最新研究的总结, 首次提出基于开源软件漏洞生命周期的感知技术分类, 对已有的漏洞感知技术分类进行补充和完善. 最后, 探索该领域的挑战, 并对未来研究的方向进行展望.
    18  量子计算系统软件研究综述
    谢磊,翟季冬
    2024, 35(1):1-18. DOI: 10.13328/j.cnki.jos.006908
    [摘要](1569) [HTML](1806) [PDF 3.22 M](3995)
    摘要:
    量子计算理论上有望解决诸多经典难解问题, 近年来量子计算机的快速发展正推动这一理论进入实践. 然而, 当前硬件中繁多的错误会造成计算结果出错, 严重限制了量子计算机解决实际问题的能力. 量子计算系统软件位于应用与硬件之间, 充分挖掘系统软件在硬件错误减缓方面的潜力, 对于近期实现有实用价值的量子计算而言至关重要. 由此, 近期涌现了一批量子计算系统软件研究工作. 将这些工作归纳入编译器、运行时系统和调试器3个范畴, 通过对它们的分析总结, 梳理量子计算系统软件的研究现状, 揭示其在硬件错误减缓方面的重要作用. 并对未来的研究方向进行展望.
    19  在线教育环境中学习共同体研究综述
    张俊涛,杨先娣,宋伟,张雪龙,贺宇阳,彭智勇
    2023, 34(11):5058-5083. DOI: 10.13328/j.cnki.jos.006735
    [摘要](1357) [HTML](2178) [PDF 9.10 M](4361)
    摘要:
    随着信息技术与教育的深度融合, 蓬勃发展的在线教育已成为教育信息化进程的新常态, 并产生了海量的教育数据, 但也面临辍学率高、课程完成率低、监管不足等问题, 因此如何对海量教育数据进行挖掘和分析是解决这些问题的关键. 学习共同体是以学习者为核心要素的学习组织, 强调学习过程中学习者之间互动交流、资源共享以及协作学习等行为, 从而完成共同的学习任务或目标. 对在线教育环境中学习共同体的研究进行回顾、分析和展望. 首先, 介绍在线教育环境中学习共同体的背景与重要性. 其次, 介绍不同学科中学习共同体的定义. 然后, 总结同质、异质和混合3种类型学习共同体的构建方法. 接着, 从共享、协作和激励3个方面讨论学习共同体的管理机制. 最后, 探讨和展望学习共同体未来的研究方向.
    20  面向异质性医学图像处理的深度学习算法综述
    马梓博,米悦,张波,张征,吴静云,黄海文,王文东
    2023, 34(10):4870-4915. DOI: 10.13328/j.cnki.jos.006680
    [摘要](2262) [HTML](2971) [PDF 20.57 M](4551)
    摘要:
    近年来深度学习技术在诸多计算机视觉任务上取得了令人瞩目的进步, 也让越来越多的研究者尝试将其应用于医学图像处理领域, 如面向高通量医学图像(CT、MRI)的解剖结构分割等, 旨在为医生提供诊断辅助, 提高其阅片效率. 由于训练医学图像处理的深度学习模型同样需要大量的标注数据, 同一医疗机构的数据往往不能满足需求, 而受设备和采集协议的差异的影响, 不同医疗机构的数据具有很大的异质性, 这导致通过某些医疗机构的数据训练得到模型很难在其他医疗机构的数据上取得可靠的结果. 此外, 不同的医疗数据在患者个体病情阶段的分布上也往往是十分不均匀的, 这同样会降低模型的可靠性. 为了减少数据异质性的影响, 提高模型的泛化能力, 域适应、多站点学习等技术应运而生. 其中域适应技术作为迁移学习中的研究热点, 旨在将源域上学习的知识迁移到未标记的目标域数据上; 多站点学习和数据非独立同分布的联邦学习技术则旨在在多个数据集上学习一个共同的表示, 以提高模型的鲁棒性. 从域适应、多站点学习和数据非独立同分布的联邦学习技术入手, 对近年来的相关方法和相关数据集进行了综述、分类和总结, 为相关研究提供参考.
    21  逆向强化学习研究综述
    张立华,刘全,黄志刚,朱斐
    2023, 34(10):4772-4803. DOI: 10.13328/j.cnki.jos.006671
    [摘要](3313) [HTML](4109) [PDF 7.90 M](6706)
    摘要:
    逆向强化学习(inverse reinforcement learning, IRL)也称为逆向最优控制(inverse optimal control, IOC), 是强化学习和模仿学习领域的一种重要研究方法, 该方法通过专家样本求解奖赏函数, 并根据所得奖赏函数求解最优策略, 以达到模仿专家策略的目的. 近年来, 逆向强化学习在模仿学习领域取得了丰富的研究成果, 已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中. 首先介绍逆向强化学习理论基础, 然后从奖赏函数构建方式出发, 讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法, 包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等. 随后从逆向强化学习领域的前沿研究方向进行综述, 比较和分析该领域代表性算法, 包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等. 最后总结分析当前存在的关键问题, 并从理论和应用方面探讨未来的发展方向.
    22  大模型: 基于自然交互的人机协同软件开发与演化工具带来的挑战
    李戈,彭鑫,王千祥,谢涛,金芝,王戟,马晓星,李宣东
    2023, 34(10):4601-4606. DOI: 10.13328/j.cnki.jos.007008
    [摘要](4352) [HTML](1363) [PDF 9.32 M](4189)
    摘要:
    以自然语言生成为核心的大模型技术正在人工智能领域掀起热潮, 并持续向更多的领域穿透其影响力. 以ChatGPT为代表的自然语言生成大模型(以下简称大模型), 已经在软件工程的多项活动中展示出其通过自然交互方式给人提供一定程度帮助的能力和潜力, 正在发展成为一种基于自然交互的人机协同软件开发与演化工具. 从人机协同软件开发与演化的视角, 大模型作为一种软件工具呈现出了两大特征: 其一是基于自然语言的人机交互, 在相当大程度上拓展了人机协同的工作空间、提高了人机协同的效率和灵活性; 其二是基于已积累的软件开发和演化知识、针对给定软件开发和演化任务的预测性内容生成, 可以对软件开发和演化工作提供一定程度的支持和帮助. 然而, 由于大模型本质是基于概率与统计原理和训练数据所形成的数学模型, 具有不可解释性和内生不确定性, 其生成的是缺失可信性判断的预测性内容, 而人在软件开发与演化中所需要完成的是具有可信保障的决策性任务, 所以大模型作为一种软件工具, 在人机协同的软件开发和演化工作环境中给人提供帮助的同时, 也带来了诸多的挑战. 围绕如何构造对软件开发与演化更有帮助的代码大模型、如何引导大模型生成对软件开发与演化更有帮助的预测性内容、如何基于大模型生成的预测性内容开发与演化高质量的软件系统等大模型带来的挑战进行分析和阐述.
    23  知识赋能的新一代信息系统研究现状、发展与挑战
    朱迪,张博闻,程雅琪,刘昕悦,吴文隆,王铁鑫,文浩,李博涵
    2023, 34(10):4439-4462. DOI: 10.13328/j.cnki.jos.006884
    [摘要](2255) [HTML](2596) [PDF 3.27 M](5047)
    摘要:
    信息系统的发展目前正处于感知智能迈向认知智能的关键阶段,传统信息系统难以满足发展要求,数字化转型势在必行.数字线索(digital thread)是面向全生命周期的数据处理框架,通过连接生命周期的各阶段数据,实现物理世界与数字空间的映射与分析.知识图谱(knowledge graph)是结构化的语义知识库,以符号形式描述物理世界中的概念及其相互关系,通过知识驱动形成体系化的构建与推理流程.两者对知识赋能的信息系统研究具有重要意义.综述了知识赋能的新一代信息系统的研究现状、发展与挑战.首先,从数字线索系统出发,介绍数字线索的概念和发展,分析数字线索的六维数据构成和6个数据处理阶段;然后介绍知识图谱系统,给出普遍认同的知识图谱的定义和发展,概括知识图谱的架构与方法;最后,分析和探索数字线索与知识图谱结合的方向,列举KG4DT (knowledge graph for digital thread)和DT4KG (digital thread for knowledge graph)的受益方向,对未来知识赋能的新一代信息系统提出开放问题.
    24  面向智能计算框架的即时缺陷预测
    葛建,虞慧群,范贵生,唐锏浩,黄子杰
    2023, 34(9):3966-3980. DOI: 10.13328/j.cnki.jos.006874
    [摘要](1965) [HTML](1982) [PDF 6.48 M](4076)
    摘要:
    作为人工智能工程化的实现工具, 智能计算框架已在近年来被广泛应用, 其可靠性对于人工智能的有效实现至关重要. 然而, 智能计算框架的可靠性保障具有挑战性, 一方面, 智能计算框架代码迭代迅速、测试困难; 另一方面, 与传统软件不同, 智能计算框架涉及大量张量计算, 其代码规范缺乏软件工程理论指导. 为了解决这一问题, 现有的工作主要使用模糊测试手段实现缺陷定位, 然而, 这类方法只能实现特定类型缺陷的精准定位, 却难以即时地在开发过程中引导开发者关注软件质量. 因此, 将国内外常见的智能计算框架(TensorFlow, 百度飞桨等)作为研究对象, 选取多种变更特征构建数据集, 在代码提交级别对智能计算框架进行即时缺陷预测. 另外, 在此基础上使用LDA主题建模技术挖掘代码和代码提交信息作为新的特征, 并使用随机森林进行预测. 结果发现AUC-ROC平均值为0.77, 且语义信息可以略微提升预测性能. 最后, 使用可解释机器学习方法SHAP分析各特征属性对模型预测输出的影响, 发现: (1)基本特征对于模型的影响符合传统软件开发规律; (2)代码和提交信息中的语义特征对模型的预测结果有重要影响; (3)不同系统中的不同特征对模型预测输出的贡献度排序也存在较大差异.
    25  人工智能系统可信性度量评估研究综述
    刘晗,李凯旋,陈仪香
    2023, 34(8):3774-3792. DOI: 10.13328/j.cnki.jos.006592
    [摘要](3560) [HTML](5039) [PDF 5.37 M](8134)
    摘要:
    近年来, 人工智能技术突飞猛进, 人工智能系统已经渗透到人们生活中, 成为人们生活中不可或缺的一部分. 然而, 人工智能系统需要数据训练模型, 数据扰动会对其结果造成影响. 并且随着人工智能系统业务多样化, 规模复杂化, 人工智能系统的可信性愈发受到人们的关注. 首先, 在梳理不同组织和学者提出的人工智能系统可信属性基础上, 提出人工智能系统的9个可信属性; 接着, 从数据可信性、模型可信性和结果可信性分别介绍现有的人工智能系统数据、模型、结果可信性度量方法, 设计人工智能系统可信证据收集方法. 其次, 总结当前人工智能系统的可信度量评估理论与方法. 然后, 结合基于属性的软件可信评估方法与区块链技术, 建立一个人工智能系统可信度量评估框架, 包括可信属性分解及可信证据获取方法、联邦式可信度量模型与以及基于区块链的人工智能系统可信度量评估架构. 最后, 讨论人工智能系统可信度量技术面临的机遇和挑战.
    26  用户特征请求分析与处理研究综述
    牛菲菲,李传艺,葛季栋,骆斌
    2023, 34(8):3605-3636. DOI: 10.13328/j.cnki.jos.006558
    [摘要](1547) [HTML](3106) [PDF 12.76 M](4503)
    摘要:
    特征请求是软件产品的真实用户在开放平台上提出的对现有特征的改进或者对新特征的请求. 特征请求在一定程度上反映了用户的真实意愿, 代表了用户的需求. 高效、准确地分析和处理用户特征请求对于提升用户满意度、提高产品竞争力起着至关重要的作用. 用户的广泛参与, 使得特征请求成为越来越重要的需求来源. 然而, 特征请求在其来源、内容以及形式等方面均与传统的软件需求不同. 进而将其充分应用于软件开发过程所采用的具体方法, 也有别于传统的需求工程. 目前已经有许多将特征请求应用于软件开发过程中的相关研究, 比如特征请求的获取、分类、排序、质量评估、为特征请求推荐开发者, 以及定位相关代码等. 随着相关工作的不断增加, 形成一个针对特征请求分析与处理研究综述的必要性日益增强. 因此, 调研121篇关于在软件开发过程中分析和处理特征请求的国内外学术研究论文, 从将特征请求应用于软件开发过程的角度对现有成果进行系统地梳理. 总结现有针对特征请求的研究主题, 提出将特征请求应用于软件开发过程的处理流程, 并与传统的需求工程过程进行对比. 此外, 深入分析在各个需求工程活动中使用的具体方法及方法之间的差别. 最后, 对特征请求的未来研究方向进行展望, 以期为同行研究人员提供参考.
    27  前馈神经网络和循环神经网络的鲁棒性验证综述
    刘颖,杨鹏飞,张立军,吴志林,冯元
    2023, 34(7):3134-3166. DOI: 10.13328/j.cnki.jos.006863
    [摘要](1556) [HTML](2333) [PDF 10.65 M](3831)
    摘要:
    随着智能时代的到来,部署了深度神经网络的智能系统应用已经渗透到了人类生活的各个方面.然而,由于神经网络具有黑盒特性和规模庞大的特点,其预测结果难以让人完全信服,当应用于自动驾驶等安全攸关的领域时,如何保证其安全性仍然是学术界和工业界面临的巨大挑战.为此,学术界针对神经网络一种特殊的安全性——鲁棒性展开了研究,并提出了很多鲁棒性的分析和验证方法.目前为止,验证前馈神经网络的方法包括精确验证方法和近似验证方法,已经发展得比较繁荣;而对于其他类型的网络,如循环神经网络的鲁棒性验证研究还处于起步阶段.回顾深度神经网络的发展以及部署到日常生活中面临的挑战;详尽地调研前馈神经网络和循环神经网络的鲁棒性验证方法,并对这些验证方法间的内在联系进行分析和比较;调研循环神经网络在现实应用场景中的安全性验证方法;阐明神经网络鲁棒性验证领域未来可以深入研究的方向.
    28  联邦学习模型安全与隐私研究进展
    顾育豪,白跃彬
    2023, 34(6):2833-2864. DOI: 10.13328/j.cnki.jos.006658
    [摘要](3191) [HTML](5520) [PDF 5.60 M](8523)
    摘要:
    随着数据孤岛现象的出现和个人隐私保护的重视,集中学习的应用模式受到制约,而联邦学习作为一个分布式机器学习框架,可以在不泄露用户数据的前提下完成模型训练,从诞生之初就备受关注.伴随着联邦学习应用的推广,其安全性和隐私保护能力也开始受到质疑.对近年来国内外学者在联邦学习模型安全与隐私的研究成果进行了系统总结与分析.首先,介绍联邦学习的背景知识,明确其定义和工作流程,并分析存在的脆弱点.其次,分别对联邦学习存在的安全威胁和隐私风险进行系统分析和对比,并归纳总结现有的防护手段.最后,展望未来的研究挑战和方向.
    29  面向关系型数据与知识图谱的数据集成技术综述
    高云君,葛丛丛,郭宇翔,陈璐
    2023, 34(5):2365-2391. DOI: 10.13328/j.cnki.jos.006808
    [摘要](2138) [HTML](4310) [PDF 7.38 M](5616)
    摘要:
    目前,各个国家和地区均已将大数据视为重要的战略资源.然而,大数据时代普遍存在数据流通困难、数据监管不足等问题,致使数据孤岛现象严重,数据质量低下,数据要素潜能难以释放.这驱使研究人员探索数据集成技术,以打破数据壁垒、实现信息共享、提升数据质量,进而激活数据要素潜能.关系型数据和知识图谱作为两种至关重要的数据组织与存储形式,在现实生活中应用广泛.为此,聚焦关系型数据和知识图谱,归纳总结并分析实体解析、数据融合、数据清洗3方面的数据集成关键技术,最后展望未来研究方向与趋势.
    30  面向软件工程的情感分析技术研究
    陈震鹏,姚惠涵,曹雁彬,刘譞哲,梅宏
    2023, 34(5):2218-2230. DOI: 10.13328/j.cnki.jos.006428
    [摘要](1508) [HTML](1942) [PDF 6.59 M](3145)
    摘要:
    情感分析在软件工程领域具有广泛的应用场景,例如,从代码提交信息中检测开发者的情绪、从程序员问答论坛中识别开发者的观点等.但是,现有的“开箱即用”的情感分析工具无法在软件工程相关的任务中取得可靠的结果.已有研究表明,导致不可靠结果的最主要原因是,这些工具无法理解一些单词和短语在软件工程领域中的特定含义.此后,研究者们开始为软件工程领域定制监督学习和远程监督学习方法.为了验证这些方法的效果,研究者们使用软件工程相关的标注数据集来对它们进行数据集内验证,即,将同一数据集划分为训练集和测试集,分别用于方法的训练和测试.但是,对软件工程领域的某些情感分析任务来说,尚无标注数据集,且人工标注数据集耗时耗力.在此情况下,一种可选的方法就是使用为了相似任务从同一目标平台上提取的数据集或者使用从其他软件工程平台上提取的数据集.为了验证这两种做法的可行性,需要进一步以平台内设置和跨平台设置来验证现有情感分析方法.平台内设置指的是使用提取自同一平台的不同数据集作为训练集和测试集;跨平台设置指的是使用提取自不同平台的数据集作为训练集和测试集.目标旨在数据集内设置、平台内设置、跨平台设置这3种设置下,综合验证现有的为软件工程定制的情感分析方法.最终,实验结果为相关的研究者和从业者提供了具有现实指导意义的启示.
    31  区块链服务网络的构建机理与技术实现
    单志广,张延强,谭敏,何亦凡
    2023, 34(5):2170-2180. DOI: 10.13328/j.cnki.jos.006392
    [摘要](1287) [HTML](1769) [PDF 7.11 M](2712)
    摘要:
    联盟链技术是我国区块链发展和应用的主阵地.传统联盟链应用存在底层技术平台异构、应用技术门槛高、成链成本大、运维监管难等瓶颈问题,限制了区块链技术与应用发展.提出一种区块链公用基础设施——区块链服务网络(blockchain-based service network,BSN)的构建机理,阐述BSN的技术架构和实现机制.BSN已于2020年4月在中国正式商用,能够显著降低区块链开发、部署、运维、互通和监管成本,有利于区块链技术向企业、政府、行业等领域推广应用,为我国新型智慧城市建设和数字经济发展提供了可信可控的公用基础设施和服务载体.
    32  ChattyGraph:面向异构多协处理器的高可扩展图计算系统
    蒋筱斌,熊轶翔,张珩,武延军,赵琛
    2023, 34(4):1977-1996. DOI: 10.13328/j.cnki.jos.006732
    [摘要](1107) [HTML](1721) [PDF 3.93 M](2821)
    摘要:
    现阶段, 随着数据规模扩大化和结构多样化的趋势日益凸现, 如何利用现代链路内链的异构多协处理器为大规模数据处理提供实时、可靠的并行运行时环境, 已经成为高性能以及数据库领域的研究热点. 利用多协处理器(GPU)设备的现代服务器(multi-GPU server)硬件架构环境, 已经成为分析大规模、非规则性图数据的首选高性能平台. 现有研究工作基于Multi-GPU服务器架构设计的图计算系统和算法(如广度优先遍历和最短路径算法),整体性能已显著优于多核CPU计算环境. 然而, 这类图计算系统中, 多GPU协处理器间的图分块数据传输性能受限于PCI-E总线带宽和局部延迟, 导致通过增加GPU设备数量无法达到整体系统性能的类线性增长趋势, 甚至会出现严重的时延抖动, 进而已无法满足大规模图并行计算系统的高可扩展性要求. 经过一系列基准实验验证发现,现有系统存在如下两类缺陷: (1) 现代GPU设备间数据通路的硬件架构发展日益更新(如NVLink-V1, NVLink-V2), 其链路带宽和延迟得到大幅改进, 然而现有系统受限于PCI-E总线进行数据分块通信, 无法充分利用现代GPU链路资源(包括链路拓扑、连通性和路由); (2) 在应对不规则图数据集时, 这类系统常采用过于单一的设备间数据组织和移动策略, 带来大量不必要GPU设备间经PCI-E总线的数据同步开销, 导致本地性计算同步等待时延开销过大.因此, 充分地利用各类现代Multi-GPU服务器通信链路架构来设计可扩展性强的图数据高性能计算系统亟待解决.为了达到Multi-GPU下图计算系统的高可扩展性, 提出一种基于混合感知的细粒度通信来增强Multi-GPU图计算系统的可伸缩性, 即采用架构链路预感知技术对图结构化数据采用模块化数据链路和通信策略, 为大规模图数据(结构型数据、应用型数据)最优化选择数据交换方法. 综合上述优化策略, 提出并设计了一种面向Multi-GPU图并行计算系统ChattyGraph. 通过对GPU图数据缓冲区优化, 基于OPENMP与NCCL优化多核GPU协同计算, ChattyGraph能在Multi-GPU HPC平台上自适应、高效地支持各类图并行计算应用和算法. 在8-GPU NVIDIA DGX服务器上, 对各种真实世界图数据的若干实验评估表明: ChattyGraph显著实现了图计算效率和可扩展性的提升, 并优于其他最先进的竞争对手性能, 计算效率平均提升了1.2×-1.5×, 加速比平均提升了2×-3×, 包括WS-VR和Groute.
    33  项目上下文增强的自动代码摘要
    胡天翔,谢睿,叶蔚,张世琨
    2023, 34(4):1695-1710. DOI: 10.13328/j.cnki.jos.006723
    [摘要](777) [HTML](2199) [PDF 2.25 M](2205)
    摘要:
    代码摘要通过生成源代码片段的简短自然语言描述, 可帮助开发人员理解代码并减少文档工作. 近期, 关于代码摘要的研究工作主要采用深度学习模型, 这些模型中的大多数都在由独立代码摘要对组成的大型数据集上进行训练. 尽管取得了良好的效果, 这些工作普遍忽略了代码片段和摘要的项目级上下文信息, 而开发人员在编写文档时往往高度依赖这些信息. 针对该问题, 研究了一种与开发者行为和代码摘要工具实现更加一致的代码摘要场景——项目级代码摘要, 其中, 创建了用于项目特定代码摘要的数据集, 该数据集包含800k方法摘要对及其生命周期信息, 用于构建特定时刻准确的项目项目上下文; 提出了一种新颖的深度学习方法, 利用高度相关的代码片段及其相应的摘要来表征上下文语义, 并通过迁移学习整合从大规模跨项目数据集中学到的常识. 实验结果表明: 基于项目级上下文的代码摘要模型不仅能够比通用代码摘要模型获得显著的性能提升, 同时, 针对特定项目能够生成更一致的摘要.
    34  基于区块链的物联网认证机制综述
    程冠杰,邓水光,温盈盈,严学强,赵明宇
    2023, 34(3):1470-1490. DOI: 10.13328/j.cnki.jos.006778
    [摘要](2109) [HTML](5041) [PDF 7.62 M](5299)
    摘要:
    随着物联网(Internet of Things,IoT)技术的高速发展,各类智能设备数量激增,身份认证成为保障IoT安全的首要需求.区块链作为一种分布式账本技术,提供了去信任的协作环境和安全的数据管理平台,使用区块链技术驱动IoT认证成为学术界和工业界关注的热点.基于云计算和云边协同两种架构分析IoT身份认证机制设计的主要需求,总结区块链技术应用于IoT场景面临的挑战;梳理现有IoT身份认证机制的工作,并将其归结为基于密钥的认证、基于证书的认证和基于身份的认证;分析应用区块链技术的IoT认证工作,并根据认证对象和附加属性对相关文献进行归纳和总结.从形式化和非形式化两个方向总结基于区块链的IoT认证机制的安全性分析方法.最后展望了未来研究方向.
    35  数据定价与交易研究综述
    江东,袁野,张小伟,王国仁
    2023, 34(3):1396-1424. DOI: 10.13328/j.cnki.jos.006751
    [摘要](1974) [HTML](5488) [PDF 6.93 M](4901)
    摘要:
    在大数据时代,随着信息技术的发展,各行各业都在收集海量数据.数据是数字经济的基础,蕴含有巨大价值.但是由于缺乏高效可行的共享机制,数据拥有方彼此之间缺乏沟通,形成了一个个数据孤岛.这不利于大数据产业的健康发展.因此,给数据分配一个合适的价格,设计高效的数据交易市场平台成为消除数据孤岛、使数据充分流动的重要途径.系统梳理进行数据定价与交易时涉及的技术性问题.具体来说,介绍数据定价与交易的难点和相关准则;将大数据在市场中的生命周期分为数据收集与集成、数据管理与分析、数据定价和数据交易4个环节;在大数据管理研究的基础上介绍适用于前两个环节的相关方法;然后对数据定价思路和方法进行分类,分析各类方法的适用场景以及优势和短板;介绍数据市场的分类,以博弈论和拍卖为例研究了数据交易中市场类型和参与人行为对交易过程及价格的影响.最后,对数据定价与交易的未来研究方向进行展望.
    36  开源软件供应链安全研究综述
    纪守领,王琴应,陈安莹,赵彬彬,叶童,张旭鸿,吴敬征,李昀,尹建伟,武延军
    2023, 34(3):1330-1364. DOI: 10.13328/j.cnki.jos.006717
    [摘要](3748) [HTML](3773) [PDF 3.90 M](5884)
    摘要:
    随着近年来开源软件的蓬勃发展,现代化软件的开发和供应模式极大地促进了开源软件自身的快速迭代和演进,也提高了社会效益.新兴的开源协作的软件开发模式,使得软件开发供应流程由较为单一的线条转变为复杂的网络形态.在盘根错节的开源软件供应关系中,总体安全风险趋势显著上升,日益受到学术界和产业界的重视.针对开源软件供应链,厘清了其关键环节,基于近10年的攻击事件,归纳了开源软件供应链的威胁模型和安全趋势,并通过对现有安全研究成果的调研分析,从风险识别和加固防御这两个方面总结了开源软件供应链安全的研究现状,最后对开源软件供应链安全所面临的挑战和未来研究方向进行了展望和总结.
    37  联邦学习贡献评估综述
    王勇,李国良,李开宇
    2023, 34(3):1168-1192. DOI: 10.13328/j.cnki.jos.006786
    [摘要](3555) [HTML](5692) [PDF 2.68 M](5965)
    摘要:
    数据不动的联邦学习框架是多个数据持有方合作训练机器学习模型的新范式.多个数据持有方参与联邦学习时的贡献评估是联邦学习的核心问题之一.参与方贡献评估需要兼顾有效性、公平性和合理性等要素,在理论方法与实际应用中均面临多项挑战.贡献评估首先需要明确如何度量数据价值,然而数据估值存在主观性与依赖于实际任务场景的特点,如何设计有效、可靠并对恶意数据鲁棒的数据估值指标是第一大挑战.其次,联邦学习合作中的参与方贡献评估是经典的合作博弈问题,如何制定公平合理的参与方贡献评估方案,实现参与方一致认可的博弈平衡是第二大挑战.最后,参与方贡献评估往往计算复杂度高,同时,联邦学习中围绕模型的数据估值时间开销大,因此,在实践中如何设计高效且准确的近似算法是第三大挑战.近年来,为了有效地解决上述挑战,学术界对联邦学习中的贡献评估问题展开了广泛的研究.首先,简要介绍联邦学习与参与方贡献评估的背景知识;然后,综述数据估值指标、参与方贡献评估方案和相关优化技术;最后,讨论了联邦学习贡献评估仍面临的挑战并展望未来研究的发展方向.
    38  HTAP数据库关键技术综述
    张超,李国良,冯建华,张金涛
    2023, 34(2):761-785. DOI: 10.13328/j.cnki.jos.006713
    [摘要](2976) [HTML](3801) [PDF 2.93 M](6502)
    摘要:
    混合事务与分析处理(hybrid transactional analytical processing,HTAP)技术是一种基于一站式架构同时处理事务请求与查询分析请求的技术.HTAP技术不仅消除了从关系型事务数据库到数据仓库的数据抽取、转换和加载过程,还支持实时地分析最新事务数据.然而,为了同时处理OLTP与OLAP,HTAP系统也需要在系统性能与数据分析新鲜度之间做出取舍,这主要是因为高并发、短时延的OLTP与带宽密集型、高时延的OLAP访问模式不同且互相干扰.目前,主流的HTAP数据库主要以行列共存的方式来支持混合事务与分析处理,但是由于该类数据库面向不同的业务场景,所以它们的存储架构与处理技术各有不同.首先,全面调研HTAP数据库,总结它们主要的应用场景与优缺点,并根据存储架构对它们进行分类、总结与对比.现有综述工作侧重于基于行/列单格式存储的HTAP数据库以及基于Spark的松耦合HTAP系统,而这里侧重于行列共存的实时HTAP数据库.特别地,凝炼了主流HTAP数据库关键技术,包括数据组织技术、数据同步技术、查询优化技术、资源调度技术这4个部分.同时总结分析了HTAP数据库构建技术与评测基准.最后,讨论了HTAP技术未来的研究方向与挑战.
    39  动态图划分算法研究综述
    李贺,刘延娜,袁航,杨舒琪,韵晋鹏,乔少杰,黄健斌,崔江涛
    2023, 34(2):539-564. DOI: 10.13328/j.cnki.jos.006705
    [摘要](2399) [HTML](4942) [PDF 2.84 M](7342)
    摘要:
    图划分是大规模分布式图处理的首要工作,对图应用的存储、查询、处理和挖掘起基础支撑作用.随着图数据规模的不断扩大,真实世界中的图表现出动态性.如何对动态图进行划分,已成为目前图划分研究的热点问题.从不同动态图划分算法的关注点和特点出发,系统性地介绍当前可用于解决动态图划分问题的各类算法,包括流式图划分算法、增量式图划分算法和图重划分算法.首先介绍图划分的3种不同的划分策略及问题定义、图的两种不同的动态性来源以及动态图划分问题;然后介绍3种不同的流式图划分算法,包括基于Hash的划分算法、基于邻居分布的划分算法以及基于流的优化划分算法;其次介绍单元素增量式划分和批量增量式划分这两种不同的增量式图划分算法;再次,分别介绍针对图结构动态的重划分算法和针对图计算动态的重划分算法;最后,在对已有方法分析和比较的基础上,总结目前动态图划分面临的主要挑战,提出相应的研究问题.
    40  演化多任务优化研究综述
    李豪,汪磊,张元侨,武越,公茂果
    2023, 34(2):509-538. DOI: 10.13328/j.cnki.jos.006704
    [摘要](1845) [HTML](3428) [PDF 3.02 M](5311)
    摘要:
    演化多任务优化研究利用种群进行优化搜索、借助任务间遗传信息的迁移达到多任务同时处理的目的.演化多任务优化被认为是继单目标优化、多目标优化后的第三种问题优化研究范例,是近年来计算智能领域兴起的一大研究热点.演化多任务优化算法模拟自然界选型交配和垂直文化传播的生物文化现象,通过任务间和任务内的知识迁移来促进多个优化任务各自的收敛.对近年来演化多任务优化领域的研究进展做出了系统总结:首先,引入了演化多任务优化问题的概念,给出了其相关的5个定义,并从知识迁移优化的角度对这一问题做出阐述;然后,详细介绍了演化多任务优化算法的基本框架,总结了这一算法近年来的改进情况和基于这一算法框架下其他经典算法的实现情况;之后,对演化多任务优化算法的学术、工程应用情况做出了较为完整的归纳介绍;最后,指出了演化多任务优化领域目前存在的主要问题和挑战,并对这一方向的进一步发展做出了展望.
    41  面向大数据处理框架的JVM优化技术综述
    汪钇丞,曾鸿斌,许利杰,王伟,魏峻,黄涛
    2023, 34(1):463-488. DOI: 10.13328/j.cnki.jos.006502
    [摘要](2334) [HTML](4274) [PDF 12.94 M](5890)
    摘要:
    当前, 以Hadoop、Spark为代表的大数据处理框架, 已经在学术界和工业界被广泛应用于大规模数据的处理和分析. 这些大数据处理框架采用分布式架构, 使用Java、Scala等面向对象语言编写, 在集群节点上以Java虚拟机(JVM)为运行时环境执行计算任务, 因此依赖JVM的自动内存管理机制来分配和回收数据对象. 然而, 当前的JVM并不是针对大数据处理框架的计算特征设计的, 在实际运行大数据应用时经常出现垃圾回收(GC)时间长、数据对象序列化和反序列化开销大等问题. 在一些大数据场景下, JVM的垃圾回收耗时甚至超过应用整体运行时间的50%, 已经成为大数据处理框架的性能瓶颈和优化热点. 对近年来相关领域的研究成果进行了系统性综述: (1)总结了大数据应用在JVM中运行时性能下降的原因; (2)总结了现有面向大数据处理框架的JVM优化技术, 对相关优化技术进行了层次划分, 并分析比较了各种方法的优化效果、适用范围、使用负担等优缺点; (3)探讨了JVM未来的优化方向, 有助于进一步提升大数据处理框架的性能.
    42  知识图谱嵌入技术研究综述
    张天成,田雪,孙相会,于明鹤,孙艳红,于戈
    2023, 34(1):277-311. DOI: 10.13328/j.cnki.jos.006429
    [摘要](7346) [HTML](5661) [PDF 5.78 M](11464)
    摘要:
    知识图谱(KG)是一种用图模型来描述知识和建模事物之间关联关系的技术. 知识图谱嵌入(KGE)作为一种被广泛采用的知识表示方法, 其主要思想是将知识图谱中的实体和关系嵌入到连续的向量空间中, 用来简化操作, 同时保留KG的固有结构. 可以使得多种下游任务受益, 例如KG补全和关系提取等. 首先对现有的知识图谱嵌入技术进行全面回顾, 不仅包括使用KG中观察到的事实进行嵌入的技术, 还包括添加时间维度的动态KG嵌入方法, 以及融合多源信息的KG嵌入技术. 对相关模型从实体嵌入、关系嵌入、评分函数等方面进行分析、对比与总结. 然后简要介绍KG嵌入技术在下游任务中的典型应用, 包括问答系统、推荐系统和关系提取等. 最后阐述知识图谱嵌入面临的挑战, 对未来的研究方向进行展望.
    43  联邦学习中的隐私问题研究进展
    汤凌韬,陈左宁,张鲁飞,吴东
    2023, 34(1):197-229. DOI: 10.13328/j.cnki.jos.006411
    [摘要](3531) [HTML](4721) [PDF 7.89 M](8140)
    摘要:
    随着大数据、云计算等领域的蓬勃发展, 重视数据安全与隐私已经成为世界性的趋势, 不同团体为保护自身利益和隐私不愿贡献数据, 形成了数据孤岛. 联邦学习使数据不出本地就可被多方利用, 为解决数据碎片化和数据隔离等问题提供了解决思路. 然而越来越多研究表明, 由谷歌首先提出的联邦学习算法不足以抵抗精心设计的隐私攻击, 因此如何进一步加强隐私防护, 保护联邦学习场景下的用户数据隐私成为一个重要问题. 对近些年来联邦学习隐私攻击与防护领域取得的成果进行了系统总结. 首先介绍了联邦学习的定义、特点和分类; 然后分析了联邦学习场景下隐私威胁的敌手模型, 并根据敌手攻击目标对隐私攻击方法进行了分类和梳理; 介绍了联邦学习中的主流隐私防护技术, 并比较了各技术在实际应用中的优缺点; 分析并总结了6类目前联邦学习的隐私保护方案; 最后指出目前联邦学习隐私保护面临的挑战, 展望了未来可能的研究方向.
    44  轻量级区块链技术综述
    谢晴晴,董凡
    2023, 34(1):33-49. DOI: 10.13328/j.cnki.jos.006421
    [摘要](3202) [HTML](3774) [PDF 10.77 M](7131)
    摘要:
    传统的区块链技术为了保证交易账本的全网共识和不可篡改性, 要求矿工节点具有强大的计算能力和足够的存储空间, 这就限制了资源受限的设备加入区块链. 近几年, 区块链技术已经拓展到金融经济、医疗健康、物联网、供应链等多个领域, 但是这些应用场景存在大量算力弱、存储容量低的设备, 这给区块链的应用带来了巨大挑战. 为此轻量级的区块链技术应运而生. 从轻量级计算和轻量级存储两方面出发, 总结当前轻量级区块链的研究现状, 对比分析各个方案的优缺点. 最后展望未来轻量级区块链的发展.
    45  区块链数据安全服务综述
    王利朋,关志,李青山,陈钟,胡明生
    2023, 34(1):1-32. DOI: 10.13328/j.cnki.jos.006402
    [摘要](4507) [HTML](4428) [PDF 10.36 M](8028)
    摘要:
    区块链是由一系列网络节点构建的一种分布式账本, 本身具有不可篡改性、去中心化、去信任化、密码算法安全性和不可否认性等安全属性, 对基于区块链实现的安全服务进行了综述, 这些安全服务包括数据机密性、数据完整性、身份认证、数据隐私、数据可信删除. 首先介绍了区块链和公钥密码学的基础知识, 并围绕上述5种安全服务, 给出了用户真实场景中面临的安全问题以及传统的解决方案, 讨论了这些传统实现方案所面临的问题, 之后介绍了使用区块链技术解决相关问题的实现方案, 最后讨论了区块链的价值以及面临的问题.
    46  文本风格迁移研究综述
    陈可佳,费子阳,陈景强,杨子农
    2022, 33(12):4668-4687. DOI: 10.13328/j.cnki.jos.006544
    [摘要](2563) [HTML](5040) [PDF 17.32 M](5754)
    摘要:
    文本风格迁移是近年来自然语言处理领域的热点问题之一,旨在保留文本内容的基础上通过编辑或生成的方式更改文本的特定风格或属性(如情感、时态和性别等).旨在梳理已有的技术,以推进该方向的研究.首先,给出文本风格迁移问题的定义及其面临的挑战;然后,对已有方法进行分类综述,重点介绍基于无监督学习的文本风格迁移方法并将其进一步分为隐式和显式两类方法,对各类方法在实现机制、优势、局限性和性能等方面进行分析和比较;同时,还通过实验比较了几种代表性方法在风格迁移准确率、文本内容保留和困惑度等自动化评价指标上的性能;最后,对文本风格迁移研究进行总结和展望.
    47  对话推荐算法研究综述
    赵梦媛,黄晓雯,桑基韬,于剑
    2022, 33(12):4616-4643. DOI: 10.13328/j.cnki.jos.006521
    [摘要](2816) [HTML](3960) [PDF 27.77 M](6165)
    摘要:
    推荐系统是一种通过理解用户的兴趣和偏好帮助用户过滤大量无效信息并获取感兴趣的信息或者物品的信息过滤系统.目前主流的推荐系统主要基于离线的、历史的用户数据,不断训练和优化线下模型,继而为在线的用户推荐物品,这类训练方式主要存在3个问题:基于稀疏且具有噪声的历史数据估计用户偏好的不可靠估计、对影响用户行为的在线上下文环境因素的忽略和默认用户清楚自身偏好的不可靠假设.由于对话系统关注于用户的实时反馈数据,获取用户当前交互的意图,因此“对话推荐”通过结合对话形式与推荐任务成为解决传统推荐问题的有效手段.对话推荐将对话系统实时交互的数据获取方式应用到推荐系统中,采用了与传统推荐系统不同的推荐思路,通过利用在线交互信息,引导和捕捉用户当前的偏好兴趣,并及时进行反馈和更新.在过去的几年里,越来越多的研究者开始关注对话推荐系统,这一方面归功于自然语言处理领域中语音助手以及聊天机器人技术的广泛使用,另一方面受益于强化学习、知识图谱等技术在推荐策略中的成熟应用.将对话推荐系统的整体框架进行梳理,将对话推荐算法研究所使用的数据集进行分类,同时对评价对话推荐效果的相关指标进行讨论,重点关注于对话推荐系统中的后台对话策略与推荐逻辑,对近年来的对话推荐算法进行综述,最后对对话推荐领域的未来发展方向进行展望.
    48  个性化学习路径推荐综述
    云岳,代欢,张育培,尚学群,李战怀
    2022, 33(12):4590-4615. DOI: 10.13328/j.cnki.jos.006518
    [摘要](3763) [HTML](6112) [PDF 24.08 M](14318)
    摘要:
    近年来,伴随着现代信息技术的迅猛发展,以人工智能为代表的新兴技术在教育领域得到了广泛应用,引发了学习理念和方式的深刻变革.在这种大背景下,在线学习超越了时空的限制,为学习者“随时随地”学习提供了更多的可能性,从而得到了蓬勃发展.然而,在线学习中师生时间、空间分离的特征,导致教师无法及时掌握学生的学习状态,一定程度上制约了在线学习中教学质量的提升.面对多元化的学习需求及海量学习资源,如何迅速完成学习目标、降低学习成本、合理分配学习资源等问题成为限制个人和时代发展的重大问题.然而,传统的“一刀切”的教育模式已经不能满足人们获取知识的需求了,需要一个更高效、更科学的个性化教育模式,以帮助学习者以最小的学习成本最大限度地完成学习目标.基于以上背景,如何自动高效识别学习者特征,高效地组织和分配学习资源,为每一位学习者规划个性化路径,成为面向个体的精准化教育资源匹配机制研究中亟待解决的问题.系统地综述并分析了当前个性化学习路径推荐的研究现状,并从多学科领域的角度分析了对于同一问题的不同研究思路,同时也归纳总结了当前研究中最为主流的核心推荐算法.最后,强调当前研究存在的主要不足之处.
    49  基于互联网群体智能的知识图谱构造方法
    蒋逸,张伟,王佩,张馨月,梅宏
    2022, 33(7):2646-2666. DOI: 10.13328/j.cnki.jos.006313
    [摘要](3048) [HTML](2182) [PDF 2.44 M](4945)
    摘要:
    知识图谱是一种基于图的结构化知识表示方式.如何构造大规模高质量的知识图谱,是研究和实践面临的一个重要问题.提出了一种基于互联网群体智能的协同式知识图谱构造方法.该方法的核心是一个持续运行的回路,其中包含自由探索、自动融合、主动反馈3个活动.在自由探索活动中,每一参与者独立进行知识图谱的构造活动.在自动融合活动中,所有参与者的个体知识图谱被实时融合在一起,形成群体知识图谱.在主动反馈活动中,支撑环境根据每一参与者的个体知识图谱和当前时刻的群体知识图谱,向该参与者推荐特定的知识图谱片段信息,以提高其构造知识图谱的效率.针对这3个活动,建立了一种层次式的个体知识图谱表示机制,提出了一种以最小化广义熵为目标的个体知识图谱融合算法,设计了情境无关和情境相关两种类型的信息反馈方式.为了验证所提方法及关键技术的可行性,设计并实施了3种类型的实验:仅包含结构信息的仿真图融合实验、大规模真实知识图谱的融合实验,以及真实知识图谱的协同式构造实验.实验结果表明,该知识图谱融合算法能够有效利用知识图谱的结构信息以及节点的语义信息,形成高质量的知识图谱融合方案;基于“探索-融合-反馈”回路的协同方法能够提升群体构造知识图谱的规模和个体构造知识图谱的效率,并展现出较好的群体规模可扩展性.
    50  代码审查中代码变更恢复的经验研究
    王青叶,万志远,李善平,夏鑫
    2022, 33(7):2581-2598. DOI: 10.13328/j.cnki.jos.006312
    [摘要](1298) [HTML](1738) [PDF 2.25 M](3131)
    摘要:
    代码审查是一种由其他开发者而非代码作者本人评审代码的形式.在代码审查系统中,开发者通过提交代码变更来修复软件缺陷或添加软件特性.并非所有的代码变更都会被集成到代码库中,部分代码变更会被拒收.被拒收的代码变更有可能被恢复,并继续接受审查,提供代码贡献者改进代码变更的机会.然而,审查恢复过的代码变更需要花费更多的时间.收集了4个开源项目中的920 700条代码变更,采用主题分析方法识别出11类代码变更恢复的原因,并定量分析被恢复的代码变更的特征.主要发现包括:1)导致代码变更恢复的原因中,“提升改进”类型占比最大;2)不同项目之间,代码变更被恢复的原因类别分布存在差异,但并不显著;3)与从未恢复过的代码变更相比,恢复的代码变更接收率低10%,评论数量平均多1.9倍,审查所用时间平均多5.8倍;4)81%的恢复代码变更被接收,19%的恢复代码变更被拒收.
    51  人脸识别反欺诈研究进展
    张帆,赵世坤,袁操,陈伟,刘小丽,赵涵捷
    2022, 33(7):2411-2446. DOI: 10.13328/j.cnki.jos.006590
    [摘要](2907) [HTML](3678) [PDF 3.23 M](5451)
    摘要:
    当前,人脸识别理论和技术取得了巨大的成功,被广泛应用于政府、金融和军事等关键领域.与其他信息系统类似,人脸识别系统也面临着各类安全问题,其中,人脸欺诈(face spoofing,FS)是最主要的安全问题之一.所谓的人脸欺诈,是指攻击者采用打印照片、视频回放和3D面具等攻击方式,诱骗人脸识别系统做出错误判断,因而是人脸识别系统所必须解决的关键问题.对人脸反欺诈(face anti-spoofing,FAS)的最新进展进行研究:首先,概述了FAS的基本概念;其次,介绍了当前FAS所面临的主要科学问题以及主要的解决方法及其优缺点;在此基础上,将已有的FAS工作分为传统方法和深度学习方法两大类,并分别进行详细论述;接着,针对基于深度学习的FAS域泛化和可解释性问题,从理论和实践的角度进行说明;然后,介绍了FAS研究所使用的典型数据集及其特点,并给出了FAS算法的评估标准和实验对比结果;最后,总结了FAS未来的研究方向并对发展趋势进行展望.
    52  可信系统性质的分类和形式化研究综述
    王淑灵,詹博华,盛欢欢,吴昊,易士程,王令泰,金翔宇,薛白,李静辉,向霜晴,向展,毛碧飞
    2022, 33(7):2367-2410. DOI: 10.13328/j.cnki.jos.006587
    [摘要](2606) [HTML](4813) [PDF 3.92 M](5585)
    摘要:
    计算机系统被应用于各种重要领域,这些系统的失效可能会带来重大灾难.不同应用领域的系统对于可信性具有不同的要求,如何建立高质量的可信计算机系统,是这些领域共同面临的巨大挑战.近年来,具有严格数学基础的形式化方法已经被公认为开发高可靠软硬件系统的有效方法.目标是对形式化方法在不同系统的应用进行不同维度的分类,以更好地支撑可信软硬件系统的设计.首先从系统的特征出发,考虑6种系统特征:顺序系统、反应式系统、并发与通信系统、实时系统、概率随机系统以及混成系统.同时,这些系统又运行在众多应用场景,分别具有各自的需求.考虑4种应用场景:硬件系统、通信协议、信息流以及人工智能系统.对于以上的每个类别,介绍和总结其形式建模、性质描述以及验证方法与工具.这将允许形式化方法的使用者对不同的系统和应用场景,能够更准确地选择恰当的建模、验证技术与工具,帮助设计人员开发更加可靠的系统.
    53  基于预测编码的样本自适应行动策略规划
    梁星星,马扬,冯旸赫,张驭龙,张龙飞,廖世江,刘忠
    2022, 33(4):1477-1500. DOI: 10.13328/j.cnki.jos.006472
    [摘要](2093) [HTML](3032) [PDF 1.31 M](5132)
    摘要:
    军事行动、反恐突击等强对抗场景中,实时信息的碎片化、不确定性对制定具有博弈优势的弹性行动方案提出了更高的要求,研究具有自学习能力的智能行动策略规划方法已成为编队级强对抗任务的核心问题.针对复杂场景下行动策略规划状态表征困难、数据效率低下等问题,提出了基于预测编码的样本自适应行动策略规划方法.利用自编码模型压缩表示任务的原始状态空间,通过任务环境的状态转移样本,在低维度状态空间中使用混合密度分布网络对任务环境的动态模型进行学习,获得了表征环境动态性的预测编码;基于预测编码展开行动策略规划研究,利用时间差分敏感的样本自适应方法对状态评估值函数进行预测,改善了数据效率,加速了算法收敛.为了验证算法的有效性,基于全国兵棋推演大赛机机挑战赛的想定,构建了包含大赛获奖选手操作策略的5种规则智能体,利用消融实验验证编码方式、样本采样策略等不同因子组合对算法的影响,并使用Elo评分机制对各个智能体进行排序;实验结果表明:基于预测编码的样本自适应算法——MDN-AF得分排序最高,对战平均胜率为71%,其中大比分获胜局占比为67.6%,而且学习到了自主波次划分、补充侦察策略、“蛇形”打击策略、轰炸机靠后突袭等4种长时行动策略.该算法框架应用于2020年全国兵棋推演大赛的智能体开发,并获得了全国一等奖.
    54  ReChorus: 综合高效易扩展的轻量级推荐算法框架
    王晨阳,任一,马为之,张敏,刘奕群,马少平
    2022, 33(4):1430-1438. DOI: 10.13328/j.cnki.jos.006473
    [摘要](1768) [HTML](2882) [PDF 449.92 K](4860)
    摘要:
    近年来,各种各样的推荐算法层出不穷,特别是深度学习的发展,极大地推动了推荐系统的研究.然而,各个推荐算法在实现细节、评价方式、数据集处理等方面存在众多差异,越来越多的研究者开始对推荐领域的可复现性产生担忧.为了帮助缓解上述问题,基于PyTorch实现了一个综合、高效、易扩展的轻量级推荐算法框架ReChorus,意为构建一个推荐算法的“合唱团”.ReChorus框架中实现了多种不同类型的推荐算法,类别涵盖常规推荐、序列推荐、引入知识图谱的推荐、引入时间动态性的推荐等;同时,对于一些常见的数据集也提供统一的预处理范式.相比其他推荐系统库,ReChorus在保证综合高效的基础上尽可能做到了轻量实用,同时具有较高的可扩展性,尤其以方便学术研究为导向,非常容易上手实现新的模型.不同的推荐算法在ReChorus框架中能够在相同的实验设定下进行训练和评测,从而实现推荐算法间的有效对比.该项目目前已在GitHub发布:https://github.com/THUwangcy/ReChorus.
    55  类脑超大规模深度神经网络系统
    吕建成,叶庆,田煜鑫,韩军伟,吴枫
    2022, 33(4):1412-1429. DOI: 10.13328/j.cnki.jos.006470
    [摘要](2162) [HTML](3825) [PDF 920.08 K](5064)
    摘要:
    大规模神经网络展现出强大的端到端表示能力和非线性函数的无限逼近能力,在多个领域表现出优异的性能,成为一个重要的发展方向.如自然语言处理(NLP)模型GPT,经过几年的发展,目前拥有1 750亿网络参数,在多个NLP基准上到达最先进性能.然而,按照现有的神经网络组织方式,目前的大规模神经网络难以到达人脑生物神经网络连接的规模.同时,现有的大规模神经网络在多通道协同处理、知识存储和迁移、持续学习方面表现不佳.提出构建一种启发于人脑功能机制的大规模神经网络模型,该模型以脑区划分和脑区功能机制为启发,集成大量现有数据和预训练模型,借鉴脑功能分区来模块化构建大规模神经网络模型,并由脑功能机制提出相应的学习算法,根据场景输入和目标,自动构建神经网络通路,设计神经网络模型来获得输出.该神经网络模型关注输入到输出空间的关系构建,通过不断学习,提升模型的关系映射能力,目标在于让该模型具备多通道协同处理能力,实现知识存储和持续学习,向通用人工智能迈进.整个模型和所有数据、类脑功能区使用数据库系统进行管理,该系统了还集成了分布式神经网络训练算法,为实现超大规模神经网络的高效训练提供支撑.提出了一种迈向通用人工智能的思路,并在多个不同模态任务验证该模型的可行性.
    56  基于K近邻和优化分配策略的密度峰值聚类算法
    孙林,秦小营,徐久成,薛占熬
    2022, 33(4):1390-1411. DOI: 10.13328/j.cnki.jos.006462
    [摘要](2283) [HTML](3019) [PDF 1.55 M](5116)
    摘要:
    密度峰值聚类(density peak clustering,DPC)是一种简单有效的聚类分析方法.但在实际应用中,对于簇间密度差别大或者簇中存在多密度峰的数据集,DPC很难选择正确的簇中心;同时,DPC中点的分配方法存在多米诺骨牌效应.针对这些问题,提出一种基于K近邻(K-nearest neighbors,KNN)和优化分配策略的密度峰值聚类算法.首先,基于KNN、点的局部密度和边界点确定候选簇中心;定义路径距离以反映候选簇中心之间的相似度,基于路径距离提出密度因子和距离因子来量化候选簇中心作为簇中心的可能性,确定簇中心.然后,为了提升点的分配的准确性,依据共享近邻、高密度最近邻、密度差值和KNN之间距离构建相似度,并给出邻域、相似集和相似域等概念,以协助点的分配;根据相似域和边界点确定初始聚类结果,并基于簇中心获得中间聚类结果.最后,依据中间聚类结果和相似集,从簇中心到簇边界将簇划分为多层,分别设计点的分配策略;对于具体层次中的点,基于相似域和积极域提出积极值以确定点的分配顺序,将点分配给其积极域中占主导地位的簇,获得最终聚类结果.在11个合成数据集和27个真实数据集上进行仿真实验,与最新的基于密度峰值的聚类算法作对比,结果表明:所提算法在纯度、F度量、准确度、兰德系数、调整兰德系数和标准互信息上均表现出良好的聚类性能.
    57  概念漂移数据流半监督分类综述
    文益民,刘帅,缪裕青,易新河,刘长杰
    2022, 33(4):1287-1314. DOI: 10.13328/j.cnki.jos.006476
    [摘要](1860) [HTML](3758) [PDF 801.83 K](5927)
    摘要:
    在开放环境下,数据流具有数据高速生成、数据量无限和概念漂移等特性.在数据流分类任务中,利用人工标注产生大量训练数据的方式昂贵且不切实际.包含少量有标记样本和大量无标记样本且还带概念漂移的数据流给机器学习带来了极大挑战.然而,现有研究主要关注有监督的数据流分类,针对带概念漂移的数据流的半监督分类的研究尚未引起足够的重视.因此,在全面收集数据流半监督分类研究工作的基础上,对现有带概念漂移的数据流的半监督分类算法进行了多角度划分;并以算法采用的分类器类型为线索,对已有的多个算法进行了介绍与总结,包括现有数据流半监督分类采用的概念漂移检测方法;在一些被广泛使用的真实数据集和人工数据集上,对部分代表性数据流半监督分类算法进行了多方面的比较与分析;最后,提出了当前概念漂移数据流半监督分类中一些值得进一步深入探讨的问题.实验结果表明:数据流半监督分类算法的分类准确率与众多因素有关,但与数据分布的变化关系最大.本综述将有助于感兴趣的研究者快速进入数据流半监督分类问题领域.
    58  标签推荐方法研究综述
    徐鹏宇,刘华锋,刘冰,景丽萍,于剑
    2022, 33(4):1244-1266. DOI: 10.13328/j.cnki.jos.006481
    [摘要](2756) [HTML](3400) [PDF 1.33 M](7002)
    摘要:
    随着互联网信息的爆炸式增长,标签(由用户指定用来描述项目的关键词)在互联网信息检索领域中变得越来越重要.为在线内容赋予合适的标签,有利于更高效的内容组织和内容消费.而标签推荐通过辅助用户进行打标签的操作,极大地提升了标签的质量,标签推荐也因此受到了研究者们的广泛关注.总结出标签推荐任务的三大特性,即项目内容的多样性、标签之间的相关性以及用户偏好的差异性.根据这些特性,将标签推荐方法划分为3个类别,分别是基于内容的方法、基于标签相关性的方法以及基于用户偏好的方法.之后,针对这3个类别下的对应方法进行了梳理和剖析.最后,提出了当前标签推荐领域面临的主要挑战,例如标签的长尾问题、用户偏好的动态性以及多模态信息的融合问题等,并对未来研究方向进行了展望.
    59  面向多方安全的数据联邦系统
    李书缘,季与点,史鼎元,廖旺冬,张利鹏,童咏昕,许可
    2022, 33(3):1111-1127. DOI: 10.13328/j.cnki.jos.006458
    [摘要](2583) [HTML](3469) [PDF 2.36 M](6009)
    摘要:
    大数据时代,数据作为生产要素具有重要价值.因此,通过数据共享实现大规模数据的分析挖掘与利用具有重要意义.然而,近年来日益严格的隐私安全保护要求使得数据分散异质的多方之间不能任意共享数据,加剧了“数据孤岛”问题.数据联邦能让多数据拥有方在保护隐私的前提下完成联合查询.因此,基于“数据不动计算动”的联邦计算思想实现了一种多方安全的关系型数据联邦系统.该系统适配多种关系型数据库,能够为用户屏蔽底层多数据拥有方的数据异构性.系统基于秘密共享实现了支持多方安全的基础操作多方安全算子库,优化了算子的结果重建过程,提高了其执行效率.在此基础上,系统支持求和、求均值、求最值、等值连接和任意连接等查询操作,并充分利用多方特点减少各数据拥有方之间的数据交互,降低安全开销,从而有效支持高效数据共享.最后,在标准测试数据集TPC-H上进行实验,实验结果说明:与目前的数据联邦系统SMCQL和Conclave相比,该系统能够支持更多的数据拥有方参与,并且在多种查询操作上有更高的执行效率,最快可超越现有系统3.75倍.
    60  联邦学习中的隐私保护技术
    刘艺璇,陈红,刘宇涵,李翠平
    2022, 33(3):1057-1092. DOI: 10.13328/j.cnki.jos.006446
    [摘要](4953) [HTML](4831) [PDF 3.36 M](14066)
    摘要:
    联邦学习是顺应大数据时代和人工智能技术发展而兴起的一种协调多个参与方共同训练模型的机制.它允许各个参与方将数据保留在本地,在打破数据孤岛的同时保证参与方对数据的控制权.然而联邦学习引入了大量参数交换过程,不仅和集中式训练一样受到模型使用者的威胁,还可能受到来自不可信的参与设备的攻击,因此亟需更强的隐私手段保护各方持有的数据.分析并展望了联邦学习中的隐私保护技术的研究进展和趋势.简要介绍联邦学习的架构和类型,分析联邦学习过程中面临的隐私风险,总结重建、推断两种攻击策略,然后依据联邦学习中的隐私保护机制归纳隐私保护技术,并深入调研应用上述技术的隐私保护算法,从中心、本地、中心与本地结合这3个层面总结现有的保护策略.最后讨论联邦学习隐私保护面临的挑战并展望未来的发展方向.
    61  基于键值存储的分布式时序相似性搜索方法
    俞自生,李瑞远,郭阳,蒋忠元,鲍捷,郑宇
    2022, 33(3):950-967. DOI: 10.13328/j.cnki.jos.006445
    [摘要](1793) [HTML](2872) [PDF 1.93 M](4568)
    摘要:
    时序相似性搜索是时序数据分析最基本的操作之一,具有广泛的应用场景.针对现有分布式算法无法应对维度增长、扫描范围过大和相似性计算耗时的问题,提出一种面向键值存储的分布式时序相似性搜索方法KV-Search.首先对时序数据分块,并设计其键值存入键值数据库,解决了时序数据维度高且不断增长的问题;其次,基于切比雪夫距离计算其下界,并利用键值范围扫描提前过滤无效数据,减少了数据传输;最后,利用基于分块的时序表示计算距离下界,避免了更高维度真实数据的计算,加快了查询效率.使用HBase实现了KV-Search,并利用真实的大规模数据集做了大量实验.实验结果表明,KV-Search算法在效率和扩展性方面均优于基准实验.
    62  基于大数据的分布式社会治理智能系统
    吕卫锋,郑志明,童咏昕,张瑞升,魏淑越,李卫华
    2022, 33(3):931-949. DOI: 10.13328/j.cnki.jos.006455
    [摘要](2280) [HTML](3287) [PDF 2.08 M](5308)
    摘要:
    近年来,推动社会治理的协同化、智能化,完善共建共治共享的社会治理制度,是国家的重要发展方向.数据作为一种生产要素,在社会治理中起着愈发关键的作用.如何实现多方海量数据的安全查询、协同管理、智能分析,是提升社会治理效果的关键问题.在新冠疫情防控等重大公共事件中,分布式社会治理面临着安全计算效率低、多方可信协同差、复杂任务决策难的三大挑战.针对以上挑战,基于安全多方计算、区块链技术与精准智能理论,提出了一种基于大数据的分布式社会治理智能系统.所提出的系统能够支撑社会治理的各类应用,为新时代社会治理水平的提升提供决策支撑.
    63  内存数据库并发控制算法的实验研究
    赵泓尧,赵展浩,杨皖晴,卢卫,李海翔,杜小勇
    2022, 33(3):867-890. DOI: 10.13328/j.cnki.jos.006454
    [摘要](2370) [HTML](4110) [PDF 2.57 M](5174)
    摘要:
    并发控制算法是数据库系统保证事务执行正确且高效的重要手段,一直是数据库工业界和学术界研究的核心问题之一.将并发控制算法的基本思想归纳为“先定序后检验”,并基于该思想对现有各类并发控制算法进行了重新描述和分类总结.基于在开源内存型分布式事务测试床3TS上的实际对比实验,系统性地探究了各类算法的优缺点和适用场景,为面向内存数据库的并发控制算法的后续研究提供参考.
    64  一种基于图模型的网络攻击溯源方法
    黄克振,连一峰,冯登国,张海霞,吴迪,马向亮
    2022, 33(2):683-698. DOI: 10.13328/j.cnki.jos.006314
    [摘要](2243) [HTML](3091) [PDF 542.63 K](5366)
    摘要:
    随着信息技术的飞速发展, 网络攻击事件频发, 造成了日益严重的经济损失或社会影响. 为了减少损失或预防未来潜在的攻击, 需要对网络攻击事件进行溯源以实现对攻击者的挖掘追责. 当前的溯源过程主要依赖于人工完成, 效率低下. 面对日益增加的海量溯源数据和日趋全面的溯源建模分析维度, 亟需半自动化或自动化的网络攻击者挖掘方法. 提出一种基于图模型的网络攻击溯源方法, 建立网络攻击事件溯源本体模型, 融合网络攻击事件中提取的线索数据和威胁情报数据, 形成网络攻击事件溯源关系图; 引入图嵌入算法自动学习嵌有关联线索特征的网络攻击事件特征向量, 进而利用历史网络攻击事件特征向量训练SVM(support vector machine)分类器, 并基于SVM分类器完成网络攻击者的挖掘溯源; 最后, 通过实验验证了该方法的可行性和有效性.
    65  异质信息网络分析与应用综述
    石川,王睿嘉,王啸
    2022, 33(2):598-621. DOI: 10.13328/j.cnki.jos.006357
    [摘要](3414) [HTML](5148) [PDF 627.62 K](9081)
    摘要:
    实际系统往往由大量类型各异、彼此交互的组件构成. 目前, 大多数工作将这些交互系统建模为同质信息网络, 并未考虑不同类型对象的复杂异质交互关系, 因而造成大量信息损失. 近年来, 越来越多的研究者将这些交互数据建模为由不同类型节点和边构成的异质信息网络, 从而利用网络中全面的结构信息和丰富的语义信息进行更精准的知识发现. 特别是随着大数据时代的到来, 异质信息网络能够自然融合异构多源数据的优势使其成为解决大数据多样性的重要途径. 因此, 异质信息网络分析迅速成为数据挖掘研究和产业应用的热点. 对异质信息网络分析与应用进行了全面的综述. 除了介绍异质信息网络领域的基本概念外, 重点聚焦基于异质网络元路径的数据挖掘方法、异质信息网络的表示学习技术和实际应用这3个方面的最新研究进展, 并对未来的发展方向进行了展望.
    66  超图学习综述: 算法分类与应用分析
    胡秉德,王新根,王新宇,宋明黎,陈纯
    2022, 33(2):498-523. DOI: 10.13328/j.cnki.jos.006353
    [摘要](4535) [HTML](10053) [PDF 728.05 K](12397)
    摘要:
    随着图结构化数据挖掘的兴起, 超图作为一种特殊的图结构化数据, 在社交网络分析、图像处理、生物反应解析等领域受到广泛关注. 研究者通过解析超图中的拓扑结构与节点属性等信息, 能够有效解决实际应用场景中所遇到的如兴趣推荐、社群划分等问题. 根据超图学习算法的设计特点, 将其划分为谱分析方法和神经网络方法, 根据方法对超图处理的不同手段, 可进一步划分为展开式方法和非展开式方法. 若将展开式方法用于不可分解超图, 则很有可能会造成信息损失. 然而, 现有的超图相关综述文章鲜有就超图学习方法适用于哪类超图这一问题做出相关归纳. 因此, 分别从超图上的谱分析方法和神经网络方法两方面出发, 对展开式方法和非展开式方法展开讨论, 并结合其算法特性和应用场景作进一步细分; 然后, 分析比较各类算法的设计思路, 结合实验结果总结各类算法的优缺点; 最后, 对超图学习未来可能的研究方向进行了展望.
    67  基于硬件虚拟化的内核同层多域隔离模型
    钟炳南,邓良,曾庆凯
    2022, 33(2):473-497. DOI: 10.13328/j.cnki.jos.006211
    [摘要](1935) [HTML](2626) [PDF 523.96 K](4377)
    摘要:
    为了解决内核不可信带来的问题, 很多工作提出了同层可信基的架构, 即, 在内核同一硬件特权水平构建可部署安全机制的唯一保护域. 但是, 实际过程中往往面临多样化的安全需求, 将多种对应的安全机制集中于唯一的保护域必然导致只要其中任何一个安全机制被攻陷, 同一个保护域内其他所有安全机制都可能被攻击者恶意篡改或者破坏. 为了解决上述问题, 提出了内核同层多域隔离模型, 即在内核同一硬件特权水平构建多个保护域实现了不同安全机制的内部隔离, 缓解了传统方法将所有安全机制绑定在唯一保护域带来的安全风险. 实现了内核同层多域隔离模型的原型系统Decentralized-KPD, 其利用硬件虚拟化技术和地址重映射技术, 将不同安全机制部署在与内核同一特权水平的多个保护域中, 并不会引起较大的性能开销. 总体而言, 实验结果展示了内核同层多域隔离模型的安全性和实用性.
    68  分布式数字资产交易平台的问题与评估
    蔡维德,王荣,何娟,邓恩艳
    2022, 33(2):410-433. DOI: 10.13328/j.cnki.jos.006329
    [摘要](1582) [HTML](2416) [PDF 660.97 K](4301)
    摘要:
    近年来, 分布式数字资产交易平台(decentralized digital asset exchanges, DDAE)受到了广泛的关注. 基于金融市场基础设施(principles for financial market infrastructures, PFMI)原理, 提出了评估数字资产交易平台的5项基本原则. 并基于这些原则, 从通信技术和交换协议技术两个方面对现有的分布式数字资产交易平台进行了讨论和评估, 阐述了几种典型技术解决方案的实施原理, 将各种技术归纳为不同的模型进行分析. 然后讨论了当前分布式数字资产交易平台存在的监管问题, 并针对之前监管中出现的监管数据不完整和数据被篡改的问题, 提出一种分布式监管模型, 该模型由区块链系统、监管执行引擎以及监管法规库这3部分组成, 能够通过读取区块链中的交易数据进行分析, 自动执行监管法规库中的规则, 对满足监管规则的交易自动生成监管报告, 从而实现自动化监管. 最后, 对分布式数字资产交易平台的发展进行了总结和展望.
    69  自适应推导下的统一化调试加速技术
    娄一翎,张令明,郝丹,张皓天,张路
    2022, 33(2):377-396. DOI: 10.13328/j.cnki.jos.006347
    [摘要](1868) [HTML](1585) [PDF 684.93 K](3361)
    摘要:
    在传统调试过程中, 缺陷定位通常作为程序修复的前置步骤. 最近, 一种新型调试框架(统一化调试)被提出. 不同于传统调试中缺陷定位和程序修复的单向连接方式, 统一化调试首次建立了定位与修复之间的双向连接机制, 从而达到同时提升两个领域的效果. 作为首个统一化调试技术, ProFL利用程序修复过程中伴随产生的大量补丁执行信息逆向地提升已有缺陷定位技术的效果. 统一化调试技术不仅修复了可被修复的缺陷, 而且也为不能被自动修复技术修复的缺陷提供了有效的调试线索. 虽然统一化调试是一个很有前景的研究方向, 但其在补丁验证过程中涉及到了大量的测试用例执行(比如百万量级的测试执行), 因此时间开销问题严重. 提出一种针对于统一化调试框架的加速技术(AUDE), 该技术通过减少对缺陷定位效果无提升的测试执行, 以提升统一化调试的效率. 具体来说, AUDE首先通过马尔可夫链蒙特卡洛采样方法构建补丁执行的初始序列, 随后在补丁执行过程中将已执行的补丁信息作为反馈信息, 自适应性地估计每一个未执行补丁可能提供有效反馈信息的概率. 在广泛使用的数据集Defects4J上对该技术进行了验证, 发现AUDE在显著加速ProFL的同时, 并没有降低其在缺陷定位和程序修复的效果. 例如: 在减少了ProFL中70.29%的测试执行的同时, AUDE仍在Top-1/Top-3/Top-5指标上与ProFL保持了相同的定位效果.
    70  网络行为仿真综述
    符永铨,赵辉,王晓锋,刘红日,安伦
    2022, 33(1):274-296. DOI: 10.13328/j.cnki.jos.006338
    [摘要](2530) [HTML](6124) [PDF 14.32 M](6426)
    摘要:
    网络行为描述了网络上各类元素对象动态交互过程. 它以各类网络服务协议及应用为运行载体, 形成不断变化的丰富多样的网络行为, 反映出网络拓扑结构给定时间内网络上的场景特点. 网络行为仿真主要包括运行框架、背景流仿真、前景流仿真, 将生产网络环境下网络行为按需映射到测试网络环境, 提供一种按需灵活定制仿真再现能力. 网络仿真应用场景不断发展, 包括性能分析评估、产品和技术验证、网络入侵检测、网络攻防演练与研究发展等. 为总结现有研究成果和存在的不足, 分析未来发展趋势, 梳理了网络行为仿真的相关概念和研究框架, 从框架、背景流、前景流等技术层面总结了网络行为仿真的国内外研究现状, 并对相关商业产品和开源软件工具进行了系统地分析调研, 最后对网络行为仿真的未来发展进行了展望.
    71  大规模图神经网络系统综述
    赵港,王千阁,姚烽,张岩峰,于戈
    2022, 33(1):150-170. DOI: 10.13328/j.cnki.jos.006311
    [摘要](6853) [HTML](6745) [PDF 3.57 M](14332)
    摘要:
    图神经网络(GNN)是一类基于深度学习的处理图域信息的方法, 它通过将图广播操作和深度学习算法结合, 可以让图的结构信息和顶点属性信息都参与到学习中, 在顶点分类、图分类、链接预测等应用中表现出良好的效果和可解释性, 已成为一种广泛应用的图分析方法. 然而现有主流的深度学习框架(如TensorFlow、PyTorch等)没有为图神经网络计算提供高效的存储支持和图上的消息传递支持, 这限制了图神经网络算法在大规模图数据上的应用. 目前已有诸多工作针对图结构的数据特点和图神经网络的计算特点, 探索了大规模图神经网络系统的设计和实现方案. 首先对图神经网络的发展进行简要概述, 总结了设计图神经网络系统需要面对的挑战; 随后对目前图神经网络系统的工作进行介绍, 从系统架构、编程模型、消息传递优化、图分区策略、通信优化等多个方面对系统进行分析; 最后使用部分已开源的图神经网络系统进行实验评估, 从精确度、性能、扩展性等多个方面验证这些系统的有效性.
    72  神经结构搜索的研究进展综述
    李航宇,王楠楠,朱明瑞,杨曦,高新波
    2022, 33(1):129-149. DOI: 10.13328/j.cnki.jos.006306
    [摘要](3730) [HTML](5195) [PDF 7.60 M](9525)
    摘要:
    近年来, 深度神经网络(DNNs)在许多人工智能任务中取得卓越表现, 例如计算机视觉(CV)、自然语言处理(NLP). 然而, 网络设计严重依赖专家知识, 这是一个耗时且易出错的工作. 于是, 作为自动化机器学习(AutoML)的重要子领域之一, 神经结构搜索(NAS)受到越来越多的关注, 旨在以自动化的方式设计表现优异的深度神经网络模型. 全面细致地回顾神经结构搜索的发展过程, 进行了系统总结. 首先, 给出了神经结构搜索的研究框架, 并分析每个研究内容的作用; 接着, 根据其发展阶段, 将现有工作划分为4个方面, 介绍各阶段发展的特点; 然后, 介绍现阶段验证结构搜索效果经常使用的数据库, 创新性地总结该领域的规范化评估标准, 保证实验对比的公平性, 促进该领域的长久发展; 最后, 对神经结构搜索研究面临的挑战进行了展望与分析.
    73  自承认技术债的研究: 问题、进展与挑战
    郭肇强,刘释然,谭婷婷,李言辉,陈林,周毓明,徐宝文
    2022, 33(1):26-54. DOI: 10.13328/j.cnki.jos.006292
    [摘要](2968) [HTML](5357) [PDF 10.25 M](6799)
    摘要:
    技术债是一个指以牺牲长期代码质量为代价来实现短期项目目标的隐喻. 其中, 那些由开发者有意引入项目中的技术债被称为自承认技术债(self-admitted technical debt, SATD), 通常以代码注释的形式存在于软件项目中. SATD的存在给软件质量和鲁棒性带来了巨大挑战. 为了识别并且及时地偿还SATD来保障代码质量, 研究者从特性分析和识别模型两方面进行了大量研究并且取得了较大的进展. 与此同时, 相关研究工作中仍存在一些亟待解决的挑战. 对近年来国内外学者在该领域的研究成果进行系统性的总结. 首先, 描述自承认技术债的研究问题. 然后, 分别从特性分析和识别模型两方面总结相关的研究进展, 并对具体的理论和技术途径进行梳理. 接着, 简要介绍技术债的其他相关技术. 最后, 指出目前该领域研究过程中面临的挑战并给出建议的研究方向.
    74  动态手势理解与交互综述
    张维,林泽一,程坚,柯铭雨,邓小明,王宏安
    2021, 32(10):3051-3067. DOI: 10.13328/j.cnki.jos.006217
    [摘要](2919) [HTML](5785) [PDF 414.86 K](10341)
    摘要:
    近年来,手势作为一种输入通道,已在人机交互、虚拟现实等领域得到了广泛的应用,引起了研究者的关注.特别是随着先进人机交互技术的出现以及计算机技术(特别是深度学习、GPU并行计算等)的飞速发展,手势理解和交互方法取得了突破性的成果,引发了研究的热潮.综述了动态手势理解与交互的研究进展与典型应用:首先阐述手势交互的核心概念,分析了动态手势识别与检测进展;而后阐述了动态手势交互在人机交互中的代表性应用,并总结了手势交互现状,分析了下一步的发展趋势.
    75  神威太湖之光上分子动力学模拟的性能优化
    田卓,陈一峯
    2021, 32(9):2945-2962. DOI: 10.13328/j.cnki.jos.005978
    [摘要](846) [HTML](2776) [PDF 1.69 M](3195)
    摘要:
    “神威·太湖之光”国产超级计算机的特点是适用于高通量计算系统,此类系统往往存储器访问延迟,网络延迟较长.在实际应用中,有一大类问题是时间演化的模拟问题,往往需要高频状态迭代,每次迭代需要通信.此类应用问题的典型代表是分子动力学模拟,分子的性质依赖于时间演化,导致状态相关的时间尺度上难以并行化.实际应用中,全原子模型需要模拟超过ms时间尺度,每一步的物理时间为1fs~2.5fs,这意味着所需时间步个数超过1012个.众核处理器中,不同核心访存时需较长的“排队”等待,造成访存延迟.另外,网卡通信延迟以及较长的数据通路会带来网络延迟,由此导致在长延迟的众核处理器上进行一次有效的模拟几乎是不可能的.解决此类问题的主要挑战是提高迭代频率,即每秒执行尽可能多的迭代步.针对神威高性能芯片处理器的体系结构特点,以分子动力学模拟为例,研究了一系列优化策略以提高迭代频率:(1)单核通信与片上核间同步相结合,降低通信成本;(2)共享内存等待与从核同步相结合,优化异构体系结构中的核间同步;(3)改变计算模式,减少核间数据关联和依赖关系;(4)数据传输与计算重叠,掩盖访存延迟;(5)规则化问题,以提高访存凝聚性.
    76  碎片化家谱数据的融合技术
    吴信东,李娇,周鹏,卜晨阳
    2021, 32(9):2816-2836. DOI: 10.13328/j.cnki.jos.006010
    [摘要](3060) [HTML](2170) [PDF 1.92 M](6652)
    摘要:
    家谱数据是典型的碎片化数据,具有海量、多源、异构、自治的特点.通过数据融合技术将互联网中零散分布的家谱数据融合成一个全面、准确的家谱数据库,有利于针对家谱数据进行知识挖掘和推理,从而为用户提供姓氏起源、姓氏变迁和姓氏间关联等隐含信息.在大数据知识工程BigKE模型的基础上,提出了一个结合HAO智能模型的碎片化数据融合框架FDF-HAO (fragmented data fusion with human intelligence,artificial intelligence and organizational intelligence),阐述了架构中每层的作用、关键技术和需要解决的问题,并以家谱数据为例,验证了该数据融合框架的有效性.最后,对碎片化数据融合的前景进行展望.
    77  软件缺陷自动修复技术综述
    姜佳君,陈俊洁,熊英飞
    2021, 32(9):2665-2690. DOI: 10.13328/j.cnki.jos.006274
    [摘要](4543) [HTML](6720) [PDF 2.40 M](10142)
    摘要:
    软件缺陷是软件开发和维护过程中不可避免的.随着现代软件规模的不断变大,软件缺陷的数量以及修复难度随之增加,为企业带来了巨大的经济损失.修复软件缺陷,成为了开发人员维护软件质量的重大负担.软件缺陷自动修复技术有希望将开发者从繁重的调试中解脱出来,近年来成为热门的研究领域之一.搜集了94篇该领域最新的高水平论文,进行了详细的分析和总结.基于缺陷修复技术在补丁生成阶段所使用的技术手段不同,系统性地将软件自动修复技术分为4大类,分别是基于启发式搜索、基于人工模板、基于语义约束和基于统计分析的修复技术.特殊地,根据对近几年最新研究的总结,首次提出了基于统计分析的技术分类,对已有分类进行了补充和完善.随后,基于对已有研究的分析,总结了该领域研究所面临的关键挑战及对未来研究的启示.最后,对缺陷修复领域常用的基准数据集和开源工具进行了总结.
    78  领域驱动设计模式的收益与挑战:系统综述
    贾子甲,钟陈星,周世旗,荣国平,章程
    2021, 32(9):2642-2664. DOI: 10.13328/j.cnki.jos.006275
    [摘要](3216) [HTML](4973) [PDF 2.69 M](6007)
    摘要:
    背景:近年来,领域驱动设计(domain driven design,简称DDD)作为一种软件设计方法在业界中逐渐流行起来,并形成了若干应用的固有范式,即领域驱动设计模式(domain driven design pattern,简称DDDP).然而,目前软件开发社区却仍然对DDDP在软件项目中的作用缺少较为全面的了解.目的:旨在揭示DDDP的应用情况,即哪些DDDP被应用到了软件开发中,以及其所带来的收益、挑战及相应的缓解挑战方法.方法:应用系统化文献综述方法,对2003年~2019年7月之间发表的相关文献进行了识别、筛选、汇总和分析.结果:通过结合手动检索、自动检索和滚雪球等过程,覆盖了1 884篇相关文献,经过筛选,最终得到26篇高质量文献,对应26个独立的研究.总结了基础研究中DDDP的应用概况,即已经被应用到软件开发中的DDDP以及应用DDDP所获得的11项收益、17个挑战以及相应的缓解挑战方法.结论:因为对领域知识非常重视,领域驱动设计能够帮助实践者更好地进行软件设计,但在具体应用领域驱动设计模式时却存在着诸多挑战.虽然目前存在一些缓解方法能够在一定程度上应对挑战,但是仍然存在很多不足.通过系统文献综述,填补了学术界在这一领域的空白.考虑到DDDP的实践价值与当前理论成熟度的不匹配,未来工业界和学术界应该给予该领域更多关注.
    79  视觉问答研究综述
    包希港,周春来,肖克晶,覃飙
    2021, 32(8):2522-2544. DOI: 10.13328/j.cnki.jos.006215
    [摘要](3972) [HTML](6541) [PDF 972.98 K](8955)
    摘要:
    视觉问答是计算机视觉领域和自然语言处理领域的交叉方向,近年来受到了广泛关注.在视觉问答任务中,算法需要回答基于特定图片(或视频)的问题.自2014年第一个视觉问答数据集发布以来,若干大规模数据集在近5年内被陆续发布,并有大量算法在此基础上被提出.已有的综述性研究重点针对视觉问答任务的发展进行了总结,但近年来,有研究发现,视觉问答模型强烈依赖语言偏见和数据集的分布,特别是自VQA-CP数据集发布以来,许多模型的效果大幅度下降.主要详细介绍近年来提出的算法以及发布的数据集,特别是讨论了算法在加强鲁棒性方面的研究.对视觉问答任务的算法进行分类总结,介绍了其动机、细节以及局限性.最后讨论了视觉问答任务的挑战及展望.
    80  浏览器同源策略安全研究综述
    罗武,沈晴霓,吴中海,吴鹏飞,董春涛,夏玉堂
    2021, 32(8):2469-2504. DOI: 10.13328/j.cnki.jos.006153
    [摘要](3018) [HTML](4215) [PDF 1.48 M](11679)
    摘要:
    随着云计算和移动计算的普及,浏览器应用呈现多样化和规模化的特点,浏览器的安全问题也日益突出.为了保证Web应用资源的安全性,浏览器同源策略被提出.目前,RFC6454、W3C和HTML5标准都对同源策略进行了描述与定义,诸如Chrome、Firefox、Safari、Edge等主流浏览器均将其作为基本的访问控制策略.然而,浏览器同源策略在实际应用中面临着无法处理第三方脚本引入的安全威胁、无法限制同源不同frame的权限、与其他浏览器机制协作时还会为不同源的frame赋予过多权限等问题,并且无法保证跨域/跨源通信机制的安全性以及内存攻击下的同源策略安全.对浏览器同源策略安全研究进行综述,介绍了同源策略的规则,并概括了同源策略的威胁模型与研究方向,主要包括同源策略规则不足及应对、跨域与跨源通信机制安全威胁及应对以及内存攻击下的同源策略安全,并且展望了同源策略安全研究的未来发展方向.
    81  国产复杂异构高性能数值软件的研制与测试专题前言
    孙家昶,李会元
    2021, 32(8):2287-2288. DOI: 10.13328/j.cnki.jos.006009
    [摘要](1759) [HTML](2602) [PDF 128.29 K](4212)
    摘要:
    中国科学院首个 C 类战略性先导科技专项 XDC01000000 主要目标已经达到.在数值软件层面,该先导专项第 1 阶段的主要任务是在复杂异构先进计算系统上研制高水平的基准测试软件 HPL(high performance Linpack)和 HPCG(high performance conjugate gradients). HPL 与 HPCG 是国际上最受关注的用于评测高性能计算机浮点运算性能的两款基准测试软件.HPL 通过高斯消去法求解稠密线性代数方程组来评测高性能计算机浮点性能的实际持续峰值,是目前全球超级计算机TOP500 以及中国高性能计算机 TOP100 排行榜的依据.HPCG 是求解稀疏代数方程组的一种迭代算法.HPCG基准测试在国际上受到广泛关注,与 HPL 相比,在一定程度上更能真实地反映高性能计算机的实际应用性能.全球超级计算机 TOP500 以及中国高性能计算机 TOP100 均提供 HPCG 性能排行榜.如今,以计算速度为目标的HPL 与 HPCG 基准测试,不仅为高性能计算机性能排名提供一种依据,更已成为一种被高性能计算提供商、研究机构与应用部门广为接受的工业标准. 先导专项先后两次开展了 HPL 与 HPCG 基准测试,其效率和可扩展性超过了先导专项的要求.据此,先导专项顺利通过了中国高性能计算机性能 TOP100 排行榜专家组的鉴定,并得到了中国计算机协会专家组的肯定. 为此,《软件学报》编辑部特开设“国产复杂异构高性能数值软件的研制与测试”专题.专题拟聚焦国产复杂异构先进计算系统下的高性能计算软件、算法与测试技术,探讨软硬件总体结构与软件在先进计算系统中的地位与作用.专题定向邀请参与先导专项的兄弟单位研究团队,从学术层面交流复杂异构系统下的高性能计算基础软件的研制和优化的各种关键技术,总结高性能计算软件和应用研究中的挑战与对策.内容重点涵盖先进计算系统基准评测软件 HPL、HPCG 等的研制、调优与测试及相应 BLAS 等基础代数库的优化,也包含了若干高性能应用算法与软件的研制进展. 专题收到 8 篇投稿,先后邀请了十几位领域专家参与审稿,每篇稿件都由 3 位专家历经 2 轮或 3 轮审稿,最终有 7 篇论文入选本专题.
    82  区块链系统中身份管理技术研究综述
    姚前,张大伟
    2021, 32(7):2260-2286. DOI: 10.13328/j.cnki.jos.006309
    [摘要](5320) [HTML](4742) [PDF 2.61 M](11173)
    摘要:
    区块链技术是一种通过块链式结构、共识算法和智能合约来生成、存储、操作和验证数据的新型分布式基础架构和计算范式,其所构建的新型信任机制有助于推动互联网技术由信息互联网向价值互联网的转化.由于区块链中的账本数据采用公开交易记录、多节点共识确认的方式进行存储和验证,因此对系统中的身份管理及隐私保护提出了极大的挑战.首先分析了区块链系统交易模型的特点及其与传统中心化系统在身份认证、数据存储和交易确认方面的不同,阐述了区块链系统中身份管理技术涵盖的主要内容、关键问题及安全挑战;其次,从身份标识、身份认证和身份隐藏3个方面比较分析了目前主流区块链平台中身份管理和隐私保护的不同实现技术;最后,分析了现有区块链系统中身份管理的不足并对未来的研究方向进行了展望.
    83  代码注释自动生成方法综述
    陈翔,杨光,崔展齐,孟国柱,王赞
    2021, 32(7):2118-2141. DOI: 10.13328/j.cnki.jos.006258
    [摘要](4817) [HTML](5913) [PDF 2.12 M](11400)
    摘要:
    在软件的开发和维护过程中,与代码对应的注释经常存在缺失、不足或者与代码实际内容不匹配等问题,但手工编写代码注释对开发人员来说费时费力,且注释质量难以保证,因此亟需研究人员提出有效的代码注释自动生成方法.代码注释自动生成问题是当前程序理解研究领域的一个研究热点,对该问题进行了系统综述.主要将已有的自动生成方法细分为3类:基于模板的方法、基于信息检索的方法和基于深度学习的方法.依次对每一类方法的已有研究成果进行了系统的梳理、总结和点评.随后分析了已有的实证研究中经常使用的语料库和主要的注释质量评估方法,以利于针对该问题的后续研究可以进行合理的实验设计.最后进行总结,并对未来值得关注的研究方向进行了展望.
    84  自动驾驶智能系统测试研究综述
    朱向雷,王海弛,尤翰墨,张蔚珩,张颖异,刘爽,陈俊洁,王赞,李克秋
    2021, 32(7):2056-2077. DOI: 10.13328/j.cnki.jos.006266
    [摘要](4825) [HTML](5027) [PDF 2.19 M](13783)
    摘要:
    随着人工智能技术的深入发展,自动驾驶已成为人工智能技术的典型应用,近十年来得到了长足的发展,作为一类非确定性系统,自动驾驶车辆的质量和安全性得到越来越多的关注.对自动驾驶系统,特别是自动驾驶智能系统(如感知模块、决策模块、综合功能及整车)的测试技术得到了业界和学界的深入研究.调研了56篇相关领域的学术论文,分别就感知模块、决策模块、综合功能模块及整车系统的测试技术、用例生成方法和测试覆盖度量等维度对目前已有的研究成果进行了梳理,并描述了自动驾驶智能系统测试中的数据集及工具集.最后,对自动驾驶智能系统测试的未来工作进行了展望,从而为该领域的研究人员提供参考.
    85  操作系统内核并发错误检测研究进展
    石剑君,计卫星,石峰
    2021, 32(7):2016-2038. DOI: 10.13328/j.cnki.jos.006265
    [摘要](2803) [HTML](6031) [PDF 2.11 M](7080)
    摘要:
    并发错误是程序设计语言和软件工程领域的研究热点之一.近年来,针对应用程序并发错误检测的研究已取得了很大进展.但是由于操作系统内核的并发和同步机制复杂、代码规模庞大,与应用程序级并发错误检测相比,操作系统内核的并发错误检测研究仍面临巨大的挑战.对此,国内外学者提出了各种用于操作系统内核并发错误检测的方法.首先介绍了并发错误的基本类型、检测方法和评价指标,讨论了现有的并发错误检测方法和工具的局限性;然后,从形式化验证、静态分析、动态分析和静态动态相结合4个方面,对现有的操作系统内核并发错误检测的研究工作进行了分类阐述,并作了系统总结和对比分析;最后,探讨了操作系统内核并发错误检测研究面临的挑战,并对该领域未来的研究趋势进行了展望.
    86  面向非确定性的软件质量保障方法与技术专题前言
    陈俊洁,汤恩义,何啸,马晓星
    2021, 32(7):1923-1925. DOI: 10.13328/j.cnki.jos.006273
    [摘要](1780) [HTML](2378) [PDF 374.89 K](4045)
    摘要:
    随着互联网、物联网、云计算等新计算平台、新应用模式、及智能化等新软件模式的广泛运用,软件系统内外各种来源的非确定性不断增强.从软件系统内部的不确定性看,并发程序是一类典型的非确定性软件系统.并发程序由于其随机性高的特点,容易导致并发缺陷且难以调试.从软件系统外部的不确定性看,软件所处的网络环境和所服务的用户需求变得更加动态多变,这就要求软件系统能够主动应对这些动态变化.具有自适应和持续演化能力的软件系统需要在环境和需求的自动感知与理解、适应行为的自主决策、以及适应行为的精准实施等环节处理各种不确定性,以保障系统能够持续稳定地提供服务.从软件构造途径的不确定性看,包含深度神经网络部件的数据驱动智能化软件系统是另一类非确定性软件系统,其非确定性来自于机器学习模型的归纳本质.此类系统日益应用于一些安全相关的领域,这就对其软件质量提出了更高的要求.本专题关注软件质量保障中非确定性问题所面临的挑战以及相关软件质量保障技术. 本专题采取自由投稿的方式,共收到24篇投稿.特约编辑邀请了近20位领域专家参与审稿,每篇稿件至少邀请2位专家进行评审,每篇稿件均经过至少两轮审稿.共计16篇稿件通过评审,并在中国软件大会上进行了报告,最终该16篇论文入选本专题.
    87  形式化方法与应用专题前言
    田聪,邓玉欣,姜宇
    2021, 32(6):1579-1580. DOI: 10.13328/j.cnki.jos.006256
    [摘要](1758) [HTML](2599) [PDF 297.02 K](4635)
    摘要:
    计算机科学的发展主要涉及硬件和软件的发展,而软、硬件发展的核心问题之一是如何保证它们是安全可靠的。如今,硬件性能变得越来越高,运算速度变得越来越快,体系结构变得越来越复杂,软件的功能也变得越来越复杂,如何开发可靠的软、硬件系统,己经成为计算机科学发展的巨大挑战。特别是现在计算机系统广泛应用于许多安全攸关系统中,如高速列车控制系统、航空航天控制系统、核反应堆控制系统、医疗设备控制系统等等,这些系统中的任何错误都可能导致灾难性后果。 形式化方法己经成功应用于各种硬件设计,特别是芯片的设计。各大硬件制造商都有一个非常强大的形式化方法团队为保障系统的可靠性提供技术支持,例如IBM、AMD等等。近年来,随着形式验证技术和工具的发展,特别是在程序验证中的成功应用,形式化方法在处理软件开发复杂性和提高软件可靠性方面已显示出无可取代的潜力。各个著名的研究机构都投入了大量人力和物力从事这方面的研究。例如,美国宇航局NASA拥有一支庞大的形式化方法研究团队,他们在保证美国航天器控制软件正确性方面发挥了巨大作用,在美国研发“好奇号”火星探测器时,为了提高控制软件的可靠性和生产率,广泛使用了形式化方法。在新兴领域,如区块链及人工智能等领域,形式化方法也逐步得到应用,提升系统的整体安全可控。 本专题公开征文,共征得投稿27篇。特约编辑先后邀请了国内外在该领域比较活跃的学者参与审稿工作,每篇投稿至少邀请2位专家进行初审。大部分稿件经过初审和复审两轮评审,部分稿件经过了两轮复审。通过初审的稿件还在FMAC 2020大会上进行了现场报告,作者现场回答了与会者的问题,并听取了与会者的修改建议。最终有18篇论文入选本专题。
    88  区块链系统攻击与防御技术研究进展
    田国华,胡云瀚,陈晓峰
    2021, 32(5):1495-1525. DOI: 10.13328/j.cnki.jos.006213
    [摘要](4203) [HTML](4253) [PDF 781.51 K](12242)
    摘要:
    区块链作为一种多技术融合的新兴服务架构,因其去中心化、不可篡改等特点,受到了学术界和工业界的广泛关注.然而,由于区块链技术架构的复杂性,针对区块链的攻击方式层出不穷,逐年增加的安全事件导致了巨大的经济损失,严重影响了区块链技术的发展与应用.从层级分类、攻击关联分析两个维度对区块链已有安全问题的系统架构、攻击原理、防御策略展开研究.首先,按照区块链层级架构对现有区块链攻击进行归类,介绍了这些攻击方式的攻击原理,分析了它们的共性与特性;其次,分析总结了已有解决方案的思路,提出了一些有效的建议和防御措施;最后,通过攻击关联分析归纳出多个区块链攻击簇,构建了一个相对完整的区块链安全防御体系,展望了区块链技术在未来复杂服务场景下的安全态势.
    89  基于深度学习的数字病理图像分割综述与展望
    宋杰,肖亮,练智超,蔡子贇,蒋国平
    2021, 32(5):1427-1460. DOI: 10.13328/j.cnki.jos.006205
    [摘要](5032) [HTML](6077) [PDF 1.34 M](19821)
    摘要:
    数字病理图像分析对于乳腺癌、前列腺癌等良恶性分级诊断具有重要意义,其中,组织基元的形态和目标测量是量化分析的重要依据.然而,由于病理数据多样性和复杂性等新特点,其分割任务面临着特征提取困难、实例分割困难等挑战.人工智能辅助病理量化分析将复杂病理数据转化为可挖掘的图像特征,使得自动提取组织基元的定量化信息成为可能.特别是随着计算机计算能力的快速发展,深度学习技术凭借其强大的特征学习、设计灵活等特性在数字病理量化分析领域取得了突破性成果.系统概述目前代表性深度学习方法,包括卷积神经网络、全卷积网络、编码器-解码器模型、循环神经网络、生成对抗网络等方法体系,总结深度学习在病理图像分割等任务中的建模机理和应用,并梳理了现有方法的方法理论、关键技术、优缺点和性能分析.最后讨论了未来数字病理图像分割深度学习建模的开放性挑战和新趋势.
    90  可信机器学习的公平性综述
    刘文炎,沈楚云,王祥丰,金博,卢兴见,王晓玲,查宏远,何积丰
    2021, 32(5):1404-1426. DOI: 10.13328/j.cnki.jos.006214
    [摘要](4835) [HTML](5569) [PDF 1.37 M](11301)
    摘要:
    人工智能在与人类生活息息相关的场景中自主决策时,正逐渐面临法律或伦理的问题或风险.可信机器学习是建立安全人工智能系统的核心技术,是人工智能领域的热门研究方向,而公平性是可信机器学习的重要考量.公平性旨在研究机器学习算法决策对个人或群体不存在因其固有或后天属性所引起的偏见或偏爱.从公平表征、公平建模和公平决策这3个角度出发,以典型案例中不公平问题及其危害为驱动,分析数据和算法中造成不公平的潜在原因,建立机器学习中的公平性抽象定义及其分类体系,进一步研究用于消除不公平的机制.可信机器学习中的公平性研究在人工智能多个领域中处于起步阶段,如计算机视觉、自然语言处理、推荐系统、多智能体系统和联邦学习等.建立具备公平决策能力的人工智能算法,是加速推广人工智能落地的必要条件,且极具理论意义和应用价值.
    91  程序智能合成技术研究进展
    顾斌,于波,董晓刚,李晓锋,钟睿明,杨孟飞
    2021, 32(5):1373-1384. DOI: 10.13328/j.cnki.jos.006200
    [摘要](3151) [HTML](5136) [PDF 458.73 K](6896)
    摘要:
    近年来,随着信息技术快速发展,软件重要性与日俱增,极大地推动了国民经济的发展.然而,由于软件业务形态越来越复杂和需求变化越来越快,软件的开发和维护成本急剧增加,迫切需要探索新的软件开发模式和技术.目前,各行业在软件活动中积累了规模巨大的软件代码和数据,这些软件资产为软件智能化开发建立了数据基础.与此同时,深度学习等人工智能技术在多个领域取得的成功应用,促使研究者考虑使用智能化技术与软件工程技术相结合,解决程序自动生成问题.程序智能合成方法是程序自动生成的新途径,通过实现软件开发过程的自动化,提高软件的生产率.首先分析了软件工程的发展历程及挑战,进而研究了智能化程序合成技术领域的研究布局以及各方法的优势和劣势.最后,对程序智能合成技术加以总结,并给出了未来的研究建议.
    92  面向持续软件工程的微服务架构技术专题前言
    张贺,王忠杰,陈连平,彭鑫
    2021, 32(5):1229-1230. DOI: 10.13328/j.cnki.jos.006237
    [摘要](2659) [HTML](2272) [PDF 284.13 K](5327)
    摘要:
    随着软件互联网化和服务化的高度发展,持续性(continuity)成为现代软件系统的基本特性之一,覆盖从商业策划、软件开发、运维、演化的所有环节,使得软件系统在持续稳定提供功能和服务的同时,软件系统的边界和内部结构始终处于不断变化、持续更新和适应之中,持续软件工程(continuous software engineering)由此被提出并迅速得到广泛的实践应用.微服务(microservice)架构作为一种全新的去中心化分布式架构,在软件架构层面成为适应持续软件工程发展的必然趋势,而领域驱动设计(domain-driven design,简称DDD)伴随着微服务架构的兴起也重新获得了业界的广泛关注,二者共同关注服务自顶向下的合理设计和分解.微服务架构与领域驱动设计共同支持实现现代软件系统的持续性特征.为了反映中国学者和实践者在求解以微服务架构为代表的持续软件工程所面临的架构难题和挑战过程中取得的理论、技术或实验方面的创新性、突破性的高水平研究成果,特设立此专题. 本专题采取公开征稿的方式,共收到19篇投稿并通过了形式审查.特约编辑邀请了20余位领域专家参与审稿,每篇稿件至少邀请2位评审专家并经过两轮审稿.共计10篇稿件通过第1轮评审,并在CCF中国软件大会上进行了报告.经过第2轮终审,最终有6篇论文入选本专题.其中, 论文“基于混沌工程的微服务韧性风险识别和分析”研究微服务架构系统的韧性风险识别问题,通过向系统引入随机环境扰动并观察服务性能的变化来寻找潜在韧性风险,向运维人员提供参考. 论文“面向微服务架构的开发组织适应性评估框架”通过系统化文献综述得出了使用微服务架构对组织产生的7个方面的影响,进一步提出了一个用于评估并提高开发组织对于微服务架构的适应性的评估框架. 论文“一种优化的数据流驱动的微服务化拆分方法”提出了一种自动化的微服务拆分与评估方法DFD-A,支持从数据收集分析、服务拆分到候选微服务架构评估的自动化设计过程,并实现了原型工具. 论文“一种监控系统的链路跟踪型日志数据的存储设计”基于开源的应用性能监控系统CAT,提出了一种针对tracing类型日志数据的存储设计方案,提升了存储效率和查询效率,并在美团点评线上系统中得到真实 应用. 论文“基于多源特征空间的微服务可维护性评估”提出了一种多源特征空间模型以统一表示软件维护过程中产生的多源数据.基于该模型提出了微服务代码可维护性度量,并实现了原型工具MicroEvaluator. 论文“多版本共存的微服务系统自适应演化方法”针对微服务系统中的多版本共存现象和用户/运维需求的变化,提出了最优化微服务系统演化方案的设计方法,实现了相应的编程框架以支持微服务系统自适应演化. 本专题面向持续软件工程和微服务架构的研究人员和工程实践人员,内容涵盖系统软件、软件工程等领域,反映了我国学者在以微服务架构为代表的持续软件工程方法、技术以及支持工具等方面的高水平研究成果.感谢《软件学报》编委会、中国计算机学会软件工程专委会与系统软件专委会对专题工作的指导和帮助,感谢专题全体评审专家及时、耐心、细致的评审工作,感谢踊跃投稿的所有作者.希望本专题能够对国内持续软件工程和微服务领域的科研工作有所促进.
    93  多尺度目标检测的深度学习研究综述
    陈科圻,朱志亮,邓小明,马翠霞,王宏安
    2021, 32(4):1201-1227. DOI: 10.13328/j.cnki.jos.006166
    [摘要](5338) [HTML](5797) [PDF 2.34 M](13592)
    摘要:
    目标检测一直以来都是计算机视觉领域的研究热点之一,其任务是返回给定图像中的单个或多个特定目标的类别与矩形包围框坐标.随着神经网络研究的飞速进展,R-CNN检测器的诞生标志着目标检测正式进入深度学习时代,速度和精度相较于传统算法均有了极大的提升.但是,目标检测的尺度问题对于深度学习算法而言也始终是一个难题,即检测器对于尺度极大或极小目标的检测精度会显著下降,因此,近年来有不少学者在研究如何才能更好地实现多尺度目标检测.虽然已有一系列的综述文章从算法流程、网络结构、训练方式和数据集等方面对基于深度学习的目标检测算法进行了总结与分析,但对多尺度目标检测的归纳和整理却鲜有人涉足.因此,首先对基于深度学习的目标检测的两个主要算法流派的奠基过程进行了回顾,包括以R-CNN系列为代表的两阶段算法和以YOLO、SSD为代表的一阶段算法;然后,以多尺度目标检测的实现为核心,重点诠释了图像金字塔、构建网络内的特征金字塔等典型策略;最后,对多尺度目标检测的现状进行总结,并针对未来的研究方向进行展望.
    94  后量子密码算法的侧信道攻击与防御综述
    吴伟彬,刘哲,杨昊,张吉鹏
    2021, 32(4):1165-1185. DOI: 10.13328/j.cnki.jos.006165
    [摘要](3077) [HTML](5315) [PDF 2.07 M](10343)
    摘要:
    为了解决量子计算对公钥密码安全的威胁,后量子密码成为密码领域的前沿焦点研究问题.后量子密码通过数学理论保证了算法的安全性,但在具体实现和应用中易受侧信道攻击,这严重威胁到后量子密码的安全性.基于美国NIST第2轮候选算法和中国CACR公钥密码竞赛第2轮的候选算法,针对基于格、基于编码、基于哈希、基于多变量等多种后量子密码算法进行分类调研,分析其抗侧信道攻击的安全性现状和现有防护策略.为了深入分析后量子密码的侧信道攻击方法,按照算法核心算子和攻击类型进行分类,总结了针对各类后量子密码常用的攻击手段、攻击点及攻击评价指标.进一步地,根据攻击类型和攻击点,梳理了现有防护策略及相应的开销代价.最后,根据攻击方法、防护手段和防护代价提出了一些安全建议,并且还分析了未来潜在的侧信道攻击手段与防御方案.
    95  学习索引:现状与研究展望
    张洲,金培权,谢希科
    2021, 32(4):1129-1150. DOI: 10.13328/j.cnki.jos.006168
    [摘要](3529) [HTML](5833) [PDF 1.03 M](8966)
    摘要:
    索引是数据库系统中用于提升数据存取性能的主要技术之一.在大数据时代,随着数据量的不断增长,传统索引(如B+树)的问题日益突出:(1)空间代价过高.例如,B+树索引需要借助O(n)规模的额外空间来索引原始的数据,这对于大数据环境而言是难以容忍的.(2)每次查询需要多次的间接搜索.例如,B+树中的每次查询都需要访问从树根到叶节点路径上的所有节点,这使得B+树的查找性能受限于数据规模.自2018年以来,人工智能与数据库领域的结合催生了“学习索引”这一新的研究方向.学习索引利用机器学习技术学习数据分布和查询负载特征,并用基于数据分布拟合函数的直接式查找代替传统的间接式索引查找,从而降低了索引的空间代价并提升了查询性能.首先对学习索引技术的现有工作进行了系统梳理和分类;然后,介绍了各种学习索引技术的研究动机与关键技术,对比分析了各种索引结构的优劣;最后,对学习索引的未来研究方向进行了展望.
    96  基于深度学习的语言模型研究进展
    王乃钰,叶育鑫,刘露,凤丽洲,包铁,彭涛
    2021, 32(4):1082-1115. DOI: 10.13328/j.cnki.jos.006169
    [摘要](3794) [HTML](4457) [PDF 635.55 K](12107)
    摘要:
    语言模型旨在对语言的内隐知识进行表示,作为自然语言处理的基本问题,一直广受关注.基于深度学习的语言模型是目前自然语言处理领域的研究热点,通过预训练-微调技术展现了内在强大的表示能力,并能够大幅提升下游任务性能.围绕语言模型基本原理和不同应用方向,以神经概率语言模型与预训练语言模型作为深度学习与自然语言处理结合的切入点,从语言模型的基本概念和理论出发,介绍了神经概率与预训练模型的应用情况和当前面临的挑战,对现有神经概率、预训练语言模型及方法进行了对比和分析.同时又从新型训练任务和改进网络结构两方面对预训练语言模型训练方法进行了详细阐述,并对目前预训练模型在规模压缩、知识融合、多模态和跨语言等研究方向进行了概述和评价.最后总结了语言模型在当前自然语言处理应用中的瓶颈,对未来可能的研究重点做出展望.
    97  可靠多模态学习综述
    杨杨,詹德川,姜远,熊辉
    2021, 32(4):1067-1081. DOI: 10.13328/j.cnki.jos.006167
    [摘要](3973) [HTML](5690) [PDF 887.21 K](11521)
    摘要:
    近年来,多模态学习逐步成为机器学习、数据挖掘领域的研究热点之一,并成功地应用于诸多现实场景中,如跨媒介搜索、多语言处理、辅助信息点击率预估等.传统多模态学习方法通常利用模态间的一致性或互补性设计相应的损失函数或正则化项进行联合训练,进而提升单模态及集成的性能.而在开放环境下,受数据缺失及噪声等因素的影响,多模态数据呈现不均衡性.具体表现为单模态信息不充分或缺失,从而导致“模态表示强弱不一致”“模态对齐关联不一致”两大挑战,而针对不均衡多模态数据直接利用传统的多模态方法甚至会退化单模态和集成的性能.针对这类问题,可靠多模态学习被提出并进行了广泛研究,系统地总结和分析了目前国内外学者针对可靠多模态学习取得的进展,并对未来研究可能面临的挑战进行展望.
    98  面向领域的软件系统构造与质量保障专题前言
    潘敏学,魏峻,崔展齐
    2021, 32(4):887-888. DOI: 10.13328/j.cnki.jos.006230
    [摘要](1941) [HTML](2228) [PDF 283.26 K](4610)
    摘要:
    软件是推动新一代信息技术发展的驱动力.随着互联网、云计算、人工智能等技术的快速发展,软件与物联网、区块链、自动驾驶等众多领域的融合进一步加强,正引领并促进这些领域向数字化、智能化发展,为社会、经济的加速演进和创新发展带来了新的契机.因此,面向领域的软件技术不仅是软件领域,也是众多其他领域国内外学者的关注焦点和研究重点.与传统的软件系统相比,面向领域的软件系统(简称领域软件)带来了研究与应用上的新挑战.面对领域软件的特点和需求,如何有效地构造领域软件,实现领域应用的软件定义与智能化,如何通过验证、分析、测试等多种手段严格保障系统控制行为的正确性、实时性、协同性等重要质量特性,是一个重大挑战. 本专题采取自由投稿的方式,共收到37篇投稿,其中36篇通过了形式审查.特约编辑邀请了30位领域专家参与审稿,每篇稿件至少邀请2位专家进行评审,每篇稿件都经过两轮审稿.共计16篇稿件通过第1轮评审,并在CCF软件工程专业委员会、系统软件专业委员会、形式化方法专业委员会年会2020 CCF中国软件大会(Chinasoft)上进行了报告.经过第2轮终审,最终有10篇论文入选本专题.其中,   论文“基于反例确认的CPS不确定性模型校准”研究了CPS中不确定性模型的准确性问题,提出了一种基于反例确认的校准方法以提高不确定性模型的准确度并精化CPS系统模型的验证结果.   论文“安全关键异构软件混合建模及代码生成方法”提出了一种AADL和SDL的混合建模方法,支持以自底向上的方式对安全关键软件系统进行混合建模,并给出了面向多核处理器平台的代码自动生成方法.   论文“基于环境建模的物联网系统TAP规则生成方法”提出了一种基于环境建模的TAP规则生成方法,自动地基于环境模型从服务需求中推导系统行为,检测系统行为的完整性与一致性,并最后转换为TAP规则.   论文“区块链赋能的高效物联网数据激励共享方案”提出了一个高效的区块链物联网数据激励共享框架,利用分片技术构建能够并行处理数据共享交易的异步共识区,并在云/边缘服务器和分片异步共识区上部署高效的共识机制,从而提高数据共享交易的处理效率.   论文“时空轨迹数据驱动的自动驾驶场景元建模方法”提出一种面向自动驾驶领域的时空轨迹数据元建模方法以实现数据的统一、处理与重用,并基于自动驾驶安全场景建模语言ADSML讨论了如何使用ADSML实现场景实例化.   论文“基于深度学习的混合模糊测试方法”提出了一个基于深度学习将符号执行与模糊测试相结合的混合测试方法,并实现了相应的混合测试工具SmartFuSE.   论文“一种结构信息增强的代码修改自动转换方法”基于深度学习提出了一种结构信息增强的代码修改自动转换方法,增强了模型对代码的结构信息和依赖信息的捕获能力,从而提升了代码修改自动转换的准确性.   论文“融合代码与文档的软件功能特征挖掘方法”提出了一种融合代码与文档的软件功能特征挖掘方法.通过迭代挖掘软件源代码和以Stack Overflow讨论帖为代表的软件文档,自动提取开源软件的功能特征描述,并构造层次化的软件功能特征视图.   论文“基于偶然正确性概率的错误定位技术”通过对基于代码覆盖的错误定位技术中可疑度的计算方法进行修正,提出了一种错误定位技术,以消除偶然正确性现象对错误定位技术的影响.   论文“面向神经机器翻译系统的多粒度蜕变测试”提出了一种基于蜕变测试的多粒度测试框架,用于在没有参考译文的情况下评估神经机器翻译系统的翻译质量及其翻译鲁棒性.   本专题面向领域软件的研究人员和工程人员,内容涵盖领域软件的需求分析、设计与建模、开发与构造、测试与验证等领域,反映了我国学者在相关领域的高水平研究成果.感谢《软件学报》编委会、CCF软件工程专委会、系统软件专委会、形式化方法专委会对专题工作的指导和帮助,感谢专题全体评审专家及时、耐心、细致的评审工作,感谢踊跃投稿的所有作者.希望本专题能够对领域软件的科研工作有所促进.
    99  GPU数据库核心技术综述
    裴威,李战怀,潘巍
    2021, 32(3):859-885. DOI: 10.13328/j.cnki.jos.006175
    [摘要](3131) [HTML](5149) [PDF 2.40 M](8484)
    摘要:
    GPU以其超高速计算能力和超大数据处理带宽受到数据库厂商及研究人员的青睐,以GPU计算为核心的数据库分支(GDBMS)蓬勃发展,以其吞吐量大、响应时间短、成本低廉、易于扩展的特点,与人工智能、时空数据分析、数据可视化、商务智能交互融合能力,彻底改变了数据分析领域的格局.将对GDBMS的四大核心组件——查询编译器、查询处理器、查询优化器和存储管理器进行综述,希望促进未来的GDBMS研究和商业应用.
    100  支撑人工智能的数据管理与分析技术专刊前言
    陈雷,王宏志,童咏昕,高宏
    2021, 32(3):601-603. DOI: 10.13328/j.cnki.jos.006187
    [摘要](2446) [HTML](2822) [PDF 385.65 K](4856)
    摘要:
    近年来,支撑人工智能的数据管理与分析技术正成为大数据和人工智能领域研究的热点问题之一.利用和发展数据管理与分析理论技术,为提升人工智能系统全生命周期的效率和有效性提供基础性支撑,必将进一步促进基于大数据的人工智能技术发展与其在更大范围的推广应用.本专刊聚焦在数据管理与人工智能融合发展的过程中,数据库技术对人工智能的优化支撑作用,包括两方面:(1) 传统数据管理分析的理论技术对人工智能的数据和计算过程的优化;(2) 传统数据管理系统设计理念对开发通用且易用型人工智能平台的促进作用.因此,需要利用和发展现有数据库理论,构建形成新的技术和系统经验.专刊重点立足于数据库核心技术,探讨数据管理与分析技术对人工智能研究发展推动作用,特别是数据管理分析的理论技术对人工智能在数据和计算密集环节的优化,以及数据管理系统设计理念与开发经验对构建通用型人工智能平台的促进作用,重点关注数据管理与分析技术对人工智能在数据存储、算法优化、模型管理、模型服务、系统构建等方面的支撑作用. 本专刊公开征文,共收到投稿36篇.论文均通过了形式审查,内容涉及支撑人工智能的数据管理、分析、系统与应用.特约编辑先后邀请了 60多位专家参与审稿工作,每篇投稿至少邀请2位专家进行评审.稿件经初审、复审、NDBC 2020会议宣读和终审共4个阶段,历时6个月,最终有17篇论文入选本专刊.根据主题,这些论文可以分为5组.

    当期目录


    文章目录

    过刊浏览

    年份

    刊期

    联系方式
    • 《软件学报 》
    • 主办单位:中国科学院软件研究所
                       中国计算机学会
    • 邮编:100190
    • 电话:010-62562563
    • 电子邮箱:jos@iscas.ac.cn
    • 网址:https://www.jos.org.cn
    • 刊号:ISSN 1000-9825
    •           CN 11-2560/TP
    • 国内定价:70元
    您是第位访问者
    版权所有:中国科学院软件研究所 京ICP备05046678号-3
    地址:北京市海淀区中关村南四街4号,邮政编码:100190
    电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
    技术支持:北京勤云科技发展有限公司

    京公网安备 11040202500063号