• 当期目录
  • 优先出版
  • 过刊浏览
  • 点击排行
  • 下载排行
  • 综述文章
  • 专刊文章
  • 分辑系列
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    2022,33(11):3903-3916, DOI: 10.13328/j.cnki.jos.006327
    [摘要] (558) [HTML] (96) [PDF 1.81 M] (435)
    摘要:
    特征选择是机器学习领域的热点问题.元启发式算法作为特征选择的重要方法之一,其性能会对问题求解产生直接影响.乌鸦搜索算法(CSA)是受乌鸦智能群体行为启发提出的一种元启发式算法,由于其具有简单、高效的特点,广大学者将其用来解决特征选择问题.然而,CSA易陷入局部最优解且收敛速度较慢,严重限制了算法求解能力.针对这一问题,采用logistic混沌映射、反向学习方法和差分进化这3种算子,结合乌鸦搜索算法,提出一种特征选择算法BICSA来选取最优特征子集.实验阶段,使用UCI数据库中的16个数据集来测试BICSA的性能.实验结果表明,与其他特征选择算法相比,BICSA求得的特征子集具有更高的分类准确率和较高的维度压缩能力,这说明BICSA在处理特征选择问题上具有很强的竞争力与足够的优越性.
    2022,33(11):3917-3929, DOI: 10.13328/j.cnki.jos.006328
    [摘要] (180) [HTML] (36) [PDF 1.65 M] (255)
    摘要:
    子集和问题是计算机科学中的重要问题,也是构建多种公钥密码体制的基础.提出了采样归约算法,使用随机采样方法降低问题维度,将原问题分解并归约为多个更小规模的格上最短向量,降低了构造格的半径,从而提高求解的效率,得到原问题的精确解或提高近似解的逼近程度.给出了理论上采样归约算法最差情况的成功率.更进一步地,在目标解重量较低的情况下,可以进行分段采样,对问题增加限定条件,提高解题效率.实验结果表明,对于高维度的子集和问题,与CJLOSS等已有的格归约子集和问题方法相比,该算法可以更高效地求解出问题的精确解,而且可以提高近似解的逼近程度,输出近似解的平均长度达到了CJLOSS算法的0.55倍、DR算法的0.64倍.
    2022,33(11):3930-3943, DOI: 10.13328/j.cnki.jos.006324
    [摘要] (956) [HTML] (39) [PDF 1.84 M] (193)
    摘要:
    在软件工程领域,代码补全是集成开发环境(integrated development environment,IDE)中最有用的技术之一,提高了软件开发效率,成为了加速现代软件开发的重要技术.通过代码补全技术进行类名、方法名、关键字等预测,在一定程度上提高了代码规范,降低了编程人员的工作强度.近年来,人工智能技术的发展促进了代码补全技术的发展.总体来说,智能代码补全技术利用源代码训练深度学习网络,从语料库学习代码特征,根据待补全位置的上下文代码特征进行推荐和预测.现有的代码特征表征方式大多基于程序语法,没有反映出程序的语义信息.同时,目前使用到的网络结构在面对长代码序列时,解决长距离依赖问题的能力依旧不足.因此,提出了基于程序控制依赖关系和语法信息结合共同表征代码的方法,并将代码补全问题作为一个基于时间卷积网络(time convolution network,TCN)的抽象语法树(abstract grammar tree,AST)节点预测问题,使得网络模型可以更好地学习程序的语法和语义信息,并且可以捕获更长范围的依赖关系.实验结果表明,该方法比现有方法的准确率提高了约2.8%.
    2022,33(11):3944-3966, DOI: 10.13328/j.cnki.jos.006330
    [摘要] (594) [HTML] (47) [PDF 3.01 M] (1232)
    摘要:
    数据中心的虚拟机(virtual machine,VM)整合技术是当今云计算领域的一个研究热点.要在保证服务质量(QoS)的前提下尽可能地降低云数据中心的服务器能耗,本质上是一个多目标优化的NP难问题.为了更好地解决该问题,面向异构服务器云环境提出了一种基于差分进化与粒子群优化的混合群智能节能虚拟机整合方法(HSI-VMC).该方法包括基于峰值效能比的静态阈值超载服务器检测策略(PEBST)、基于迁移价值比的待迁移虚拟机选择策略(MRB)、目标服务器选择策略、混合离散化启发式差分进化粒子群优化虚拟机放置算法(HDH-DEPSO)以及基于负载均值的欠载服务器处理策略(AVG).其中,PEBST,MRB,AVG策略的结合能够根据服务器的峰值效能比和CPU的负载均值检测出超载和欠载服务器,并选出合适的虚拟机进行迁移,降低负载波动引起的服务水平协议违约率(SLAV)和虚拟机迁移的次数;HDH-DEPSO算法结合DE和PSO的优点,能够搜索出更优的虚拟机放置方案,使服务器尽可能地保持在峰值效能比下运行,降低服务器的能耗开销.基于真实云环境数据集(PlanetLab/Mix/Gan)的一系列实验结果表明:HSI-VMC方法与当前主流的几种节能虚拟机整合方法相比,能够更好地兼顾多个QoS指标,并有效地降低云数据中心的服务器能耗开销.
    2022,33(11):3967-3982, DOI: 10.13328/j.cnki.jos.006331
    [摘要] (838) [HTML] (43) [PDF 1.97 M] (1096)
    摘要:
    定向灰盒模糊测试技术在度量种子对目标执行状态的搜索能力时,除了考虑种子逼近目标代码的程度之外,还需要分析种子对多样化执行状态的发现能力,从而避免陷入局部最优.现有的定向灰盒模糊测试主要根据全程序的覆盖统计来度量种子搜索多样化执行路径的能力.然而,目标执行状态仅依赖于部分程序代码.如果带来新覆盖的种子并未探索到目标状态计算所依赖的新执行状态,其不仅不能扩大种子队列对目标执行状态的搜索能力,而且会诱导测试目标无关的代码和功能,阻碍定向测试向目标代码的收敛.为了缓解该问题,从待发现目标执行状态依赖代码的覆盖统计着手,提出了一种有效覆盖引导的定向灰盒模糊测试方法.利用程序切片技术提取影响目标执行状态计算的代码.通过能量调度(即控制种子后代生成数量),提升引发该部分代码控制流新覆盖变化的种子能量,降低其他冗余种子的能量,使定向灰盒模糊测试专注于搜索目标相关的执行状态.在测试集上的实验结果显示,该方法显著提升了目标状态发现效率.
    2022,33(11):3983-4007, DOI: 10.13328/j.cnki.jos.006332
    [摘要] (104) [HTML] (26) [PDF 2.99 M] (136)
    摘要:
    缺陷追踪是软件项目管理的一个重要环节,是保证现代大规模开源软件开发顺利进行并持续提高软件质量的必要手段.目前,大部分开源软件都使用开放的缺陷跟踪系统进行软件缺陷的管理.它允许用户向开发者提交系统故障(即defect类型缺陷)以及系统改进建议(即enhancement类型缺陷),但是这些用户的反馈所起的作用尚未得到充分研究.针对这一问题,对Firefox的缺陷跟踪系统进行实证研究,收集了2018年和2019年提交的19 474份Firefox Desktop以及3 057份Firefox for Android缺陷报告.在此基础上,对比分析了普通用户和核心开发者提交的缺陷在数量、严重性、组件分布、修复率、修复速度以及修复者上的差别,并调查了缺陷报告的撰写质量与缺陷处理结果和修复时间的关系.主要发现包括:(1)当前缺陷追踪系统中普通用户人数众多,但参与程度较浅,86%的用户只提交过一个缺陷,其中,高严重等级的缺陷不超过3%;(2)普通用户提交的缺陷主要分布在和用户交互相关的UI组件上(例如地址栏、音频/视频等),然而还有43%的缺陷由于缺乏充分描述信息而难以准确地定位到具体的关联组件;(3)在缺陷处理结果上,由于查重系统以及缺陷填报系统在设计上过于简单,致使普通用户提交的大量缺陷被处理为“无用”缺陷,缺陷修复率低于10%;(4)在缺陷修复流程上,由于普通用户难以准确、充分地描述缺陷,导致系统对其重视程度不足,普通用户提交缺陷的处理流程也比核心开发者提交的复杂,平均需要多花至少8天的时间进行修复.上述研究结果揭示了当前缺陷追踪系统在用户参与激励机制、缺陷自动查重以及缺陷报告填写智能辅助等方面的不足,能够为缺陷跟踪系统开发者和管理者改进系统、提高普通用户对开源软件的贡献提供参考.
    2022,33(11):4008-4026, DOI: 10.13328/j.cnki.jos.006339
    [摘要] (875) [HTML] (44) [PDF 2.32 M] (1042)
    摘要:
    基于信息检索的缺陷定位技术,利用跨语言的语义相似性构造检索模型,通过缺陷报告定位源代码错误,具有方法直观、通用性强的特点.但是由于传统基于信息检索的缺陷定位方法将代码作为纯文本进行处理,只利用了源代码的词汇语义信息,导致在细粒度缺陷定位中面临候选代码语义匮乏产生的准确性低的问题,其结果有用性还有待改进.通过分析程序演化场景下代码改动与缺陷产生间的关系,提出一种基于源代码扩展信息的细粒度缺陷定位方法,以代码词汇语义显性信息及代码执行隐性信息共同丰富源代码语义实现细粒度缺陷定位.利用定位候选点的语义相关上下文丰富代码量,以代码执行中间形式的结构语义实现细粒度代码的可区分,同时以自然语言语义指导基于注意力机制的代码语言表征生成,实现细粒度代码与自然语言间的语义映射,从而实现细粒度缺陷定位方法FlowLocator.实验分析结果表明:与经典的IR缺陷定位方法相比,该方法定位准确性在Top-N排名、平均准确率及平均倒数排名上都有显著提高.
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    优先出版日期:  2022-11-24 , DOI: 10.13328/j.cnki.jos.006498
    摘要:
    在软件开发中, 错误定位是修复软件缺陷的必要前提. 为此, 研究者们提出了一系列自动化的错误定位方法. 这些方法利用了测试用例运行时的覆盖路径和运行结果等信息, 大幅减少了定位错误代码的难度. 在竞争性众包软件开发中, 往往存在多个竞争性实现(解决方案), 提出一种专门面向众包软件工程的错误定位方法. 主要思想是, 在定位错误语句时, 将其多个竞争性实现作为参考程序. 针对程序中的各个语句, 在参考程序中搜索参考语句, 并利用参考语句计算其错误概率. 给定一个错误程序和相应的测试用例, 首先运行测试用例并使用广泛流行的基于频谱的错误定位方法计算其初始错误概率. 然后, 根据此语句与其参考语句的相似性调整错误概率. 在118个真实的错误程序上进行实验, 结果表明所提方法相比基于频谱的方法, 定位错误的成本降低了25%以上.
    优先出版日期:  2022-11-16 , DOI: 10.13328/j.cnki.jos.006496
    摘要:
    垂直数据分区技术从逻辑上将满足一定语义条件的数据库表属性存放在同一个物理块中, 进而降低数据访问成本, 提高查询效率. 数据库查询负载中的每条查询通常只与数据库表中的部分属性有关, 因此只需使用数据库表的某个属性子集便可以得到准确的查询结果. 合理的垂直数据分区方式可以使大多数查询负载不需要扫描完整数据库就可以完成查询任务, 从而达到减少数据访问量, 提高查询处理效率的目的. 传统的数据库垂直分区方法主要基于专家设置的启发式规则, 分区策略粒度较粗, 且不能根据负载的特征进行有针对性的分区优化. 同时, 当负载规模较大或者属性个数较多时, 现有垂直分区方法执行时间过长, 尤其无法满足数据库在线实时调优的性能需求. 为此, 提出在线环境下基于谱聚类的垂直数据分区方法(spectral clustering based vertical partitioning, SCVP), 采用分阶段求解的思想, 减少算法时间复杂度, 加快分区执行速度. 首先通过增加约束条件缩小解空间(即根据谱聚类生成初始分区), 然后对解空间设计算法进行精细的搜索(即采用频繁项集和贪心搜索相结合的策略对初始分区进行优化). 为了进一步提升SCVP在高维属性下的性能, 提出了SCVP的改进版本SCVP-R (spectral clustering based vertical partitioning redesign). SCVP-R通过引入同域竞争机制、双败淘汰机制和循环机制, 对SCVP在分区优化过程中的合并方案进行了进一步的优化. 在不同数据集上的实验结果表明, 相比于目前最好的垂直分区方法, SCVP和SCVP-R有着更快的执行时间和更好的性能表现.
    优先出版日期:  2022-11-16 , DOI: 10.13328/j.cnki.jos.006506
    摘要:
    在软件交付越来越强调迅速、可靠的当下, 持续集成成为一项备受关注的技术. 开发人员不断将工作副本集成到代码主干完成软件演化, 每次集成会通过自动构建测试来验证代码更新是否引入错误. 但随着软件规模的增大, 测试用例集包含的测试用例越来越多, 测试用例的覆盖范围、检错效果等特征也随着集成周期的延长而变化, 传统的测试用例排序技术难以适用. 基于强化学习的测试排序技术可以根据测试反馈动态调整排序策略, 但现有的相关技术不能综合考虑测试用例集中的信息进行排序, 这限制了它们的性能. 提出一种新的基于强化学习的持续集成环境中测试用例排序方法——指针排序方法: 方法使用测试用例的历史信息等特征作为输入, 在每个集成周期中, 智能体利用指针注意力机制获得对所有备选测试用例的关注程度, 由此得到排序结果, 并从测试执行的反馈得到策略更新的方向, 在“排序-运行测试-反馈”的过程中不断调整排序策略, 最终达到良好的排序性能. 在5个规模较大的数据集上验证了所提方法的效果, 并探究了使用的历史信息长度对方法性能的影响, 方法在仅含回归测试用例的数据集上的排序效果, 以及方法的执行效率. 最后, 得到如下结论: (1)与现有方法相比, 指针排序方法能够随着软件版本的演化调整排序策略, 在持续集成环境下有效地提升测试序列的检错能力. (2)指针排序方法对输入的历史信息长度有较好的鲁棒性, 少量的历史信息即可使其达到最优效果. (3)指针排序方法能够很好地处理回归测试用例和新增测试用例. (4)指针排序方法的时间开销不大, 结合其更好、更稳定的排序性能, 可以认为指针排序方法是一个非常有竞争力的方法.
    优先出版日期:  2022-10-28 , DOI: 10.13328/j.cnki.jos.006495
    摘要:
    异构缺陷预测(heterogeneous defect prediction, HDP)在具有异构特征的项目间进行缺陷预测, 可以有效解决源项目和目标项目使用了不同特征的问题. 当前大多数HDP方法都是通过学习域不变特征子空间以减少域之间的差异来解决异构特征问题. 但是, 源域和目标域通常呈现出巨大的异质性, 使得域对齐效果并不好. 究其原因, 这些方法都忽视了分类器对于两个域中的同一类别应产生相似的分类概率分布这一潜在知识, 没有挖掘数据中包含的内在语义信息. 另一方面, 由于在新启动项目或历史遗留项目中搜集训练数据依赖于专家知识, 费时费力且容易出错, 探究了基于目标项目内少数标记模块来进行异构缺陷预测的可能性. 鉴于此, 提出了一种基于同步语义对齐的异构缺陷预测方法(SHSSAN). 一方面, 探索从标记的源项目中学到的隐性知识, 从而在类别之间传递相关性, 达到隐式语义信息迁移. 另一方面, 为了学习未标记目标数据的语义表示, 通过目标伪标签进行质心匹配达到显式语义对齐. 同时, SHSSAN可以有效解决异构缺陷数据集中常见的类不平衡和数据线性不可分问题, 并充分利用目标项目中的标签信息. 对包含30个不同项目的公共异构数据集进行的实验表明, 与目前表现优异的CTKCCA、CLSUP、MSMDA、KSETE和CDAA方法相比, 在F-measure和AUC上分别提升了6.96%、19.68%、19.43%、13.55%、9.32%和2.02%、3.62%、2.96%、3.48%、2.47%.
    优先出版日期:  2022-10-26 , DOI: 10.13328/j.cnki.jos.006753
    [摘要] (176) [HTML] (0) [PDF 1.17 M] (131)
    摘要:
    作为地面网络的补充和延伸,卫星网络有助于加速弥合区域间的数字鸿沟,扩展地面网络的覆盖和服务范围。然而卫星网络拓扑动态性高、传播时延大、星上计算能力和存储能力均受限,因此实现卫星网络与地面网络的有机融合,构建覆盖全球的天地一体化网络面临路由扩展性、传输稳定性等技术挑战。针对天地一体化网络的研究挑战,本文从网络架构、路由、传输和基于组播的内容分发等方面介绍了国内外的研究现状,并展望了天地一体化网络的发展趋势。
    优先出版日期:  2022-10-26 , DOI: 10.13328/j.cnki.jos.006755
    摘要:
    分布式系统的可靠性和可用性至关重要.然而,不正确的失效恢复机制及其实现会引发失效恢复缺陷,威胁分布式系统的可靠性和可用性.只有发生在特定时机的节点失效才会触发失效恢复缺陷,因此,检测分布式系统中的失效恢复缺陷具有挑战性.本文提出了一种新方法Deminer来自动检测分布式系统中的失效恢复缺陷.我们观察到,同一份数据(即共用数据)可能被一组I/O写操作存储到不同位置(如不同的存储路径或节点).而打断这样一组共用数据写操作执行的节点失效更容易触发失效恢复缺陷.因此,Deminer以共用数据的使用为指导,通过自动识别和注入这类容易引发故障的节点失效来检测失效恢复缺陷.首先,Deminer追踪目标系统的一次正确执行中关键数据的使用.然后,Deminer基于执行轨迹识别使用共用数据的I/O写操作对,并预测容易引发错误的节点失效注入点.最后,Deminer通过测试预测的节点失效注入点以及检查故障征兆来暴露和确认失效恢复缺陷.我们实现了Deminer原型工具,并在4个流行的开源分布式系统ZooKeeper、HBase、YARN和HDFS的最新版本上进行了验证.实验结果表明Deminer方法能够有效检测分布式系统中的失效恢复缺陷.Deminer已经检测到6个失效恢复缺陷.
    优先出版日期:  2022-10-26 , DOI: 10.13328/j.cnki.jos.006648
    摘要:
    基于分解的超多目标进化算法是求解各类超多目标优化问题的主流方法,其性能在很大程度上依赖于所采用参考向量与真实帕累托前沿面(Praeto front,PF)的匹配程度.现有基于分解的超多目标进化算法尚难以同时有效处理各类PF不同的优化问题.为此,本文提出了一种基于PF曲率预估的超多目标进化算法(MaOEA-CE).该算法的核心包括两个方面,首先基于对PF曲率的预估,在每次迭代过程中生成不同的参考向量,以渐进匹配不同类型问题的真实PF;其次在环境选择过程中,再基于预估的曲率选择合适的聚合函数对精英解进行挑选,并对参考向量进行动态调整,在维护种群多样性的同时提升种群的收敛性.为验证MaOEA-CE的有效性,将其与7个先进的超多目标算法在3个主流测试问题集DTLZ、WFG和MaF上进行对比,实验结果表明MaOEA-CE具有明显的竞争力.
    优先出版日期:  2022-10-26 , DOI: 10.13328/j.cnki.jos.006749
    [摘要] (169) [HTML] (0) [PDF 1.71 M] (102)
    摘要:
    代码变更是软件演化过程中的关键行为,其质量与软件质量密切相关。对代码变更进行建模和表示是众多软件工程任务的基础,例如即时缺陷预测、软件制品可追溯性恢复等。近年来,代码变更表示学习技术得到了广泛的关注与应用。该类技术旨在学习将代码变更的语义信息表示为稠密低维实值向量,即学习代码变更的分布式表示,相比于传统的人工设计代码变更特征的方法具有自动学习、端到端训练和表示准确等优点。但同时该领域目前也存在如结构信息利用困难、基准数据集缺失等挑战。本文对近期代码变更表示学习技术的研究及应用进展进行了梳理和总结,主要内容包括:(1)介绍了代码变更表示学习及其应用的一般框架。(2)梳理了现有的代码变更表示学习技术,总结了不同技术的优缺点。(3)总结并归类了代码变更表示学习技术的下游应用。(4)归纳了代码变更表示学习技术现存的挑战和潜在的机遇,展望了该类技术的未来发展方向。
    优先出版日期:  2022-10-26 , DOI: 10.13328/j.cnki.jos.006751
    摘要:
    在大数据时代,随着信息技术的发展,各行各业都在收集海量数据.数据是数字经济的基础,蕴含有巨大价值.但是由于缺乏高效可行的共享机制,数据拥有方彼此之间缺乏沟通,形成了一个个数据孤岛.这不利于大数据产业的健康发展.因此,给数据分配一个合适的价格,设计高效的数据交易市场平台成为了消除数据孤岛、使数据充分流动的重要途径.本文系统梳理了进行数据定价与交易时涉及到的技术性问题.具体来说,介绍了数据定价与交易的难点和相关准则;将大数据在市场中的生命周期分为了数据收集与集成、数据管理与分析、数据定价和数据交易四个环节;在大数据管理研究的基础上介绍了适用于前两个环节的相关方法;然后对数据定价思路和方法进行了分类,分析了各类方法的适用场景以及优势和短板;介绍了数据市场的分类,以博弈论和拍卖为例研究了数据交易中市场类型和参与人行为对交易过程及价格的影响.最后,对数据定价与交易的未来研究方向进行了展望.
    优先出版日期:  2022-10-26 , DOI: 10.13328/j.cnki.jos.006752
    摘要:
    传统的信息隐藏算法大都通过修改载体达到隐藏秘密信息的目的,但不可避免地会在载体数据中留下修改痕迹,故常难以抵抗隐写分析技术的检测,为此无载体信息隐藏应运而生。无载体信息隐藏并非不使用载体,而是不对载体数据进行修改。为了提高无载体信息隐藏算法的隐藏容量和鲁棒性,本文提出了一种基于风格迁移纹理合成与识别的构造式信息隐藏算法。该算法首先选取不同类别的自然图像和纹理图像分别建立内容图像库和纹理风格图像库,并根据内容图像库中自然图像的类别构建二进制码的映射字典;其次为了接收方能够从含密图像中提取出秘密信息,需要构建带标签的纹理图像库,并将其作为训练集输入·到卷积神经网络中,通过迭代训练获得纹理图像识别模型。在秘密信息隐藏时,根据秘密信息片段选择对应类别的自然图像,并按照一定的顺序组合成含密拼接图像,随后从纹理图像库中随机选择一张纹理图像,通过风格迁移的方法将含密拼接图像转换成含密纹理图像,从而完成秘密信息隐藏过程。在信息提取过程中,通过纹理图像识别模型可准确识别出含密纹理图像原本对应的图像类别,再对照映射字典即可提取出秘密信息。实验结果表明,本文算法生成的含密纹理图像具有良好的视觉效果,秘密信息隐藏容量较高,且对JPEG压缩、高斯噪声等攻击具有较强的鲁棒性。
    优先出版日期:  2022-10-14 , DOI: 10.13328/j.cnki.jos.006526
    摘要:
    文件分层的密文策略基于属性的加密(FH-CP-ABE)方案实现了同一访问策略的多层次文件加密, 节省了加解密的计算开销和密文的存储开销. 然而, 目前的文件分层CP-ABE方案不支持分级用户访问, 且存在越权访问的问题. 为此, 提出一种支持分级用户访问的文件分层CP-ABE方案. 在所提方案中, 通过构造分级用户访问树, 并重新构造密文子项以支持分级用户的访问需求, 同时消除用户进行越权访问的可能性. 安全性分析表明, 所提方案能够抵御选择明文攻击. 理论分析和实验分析均表明, 与相关方案相比, 所提方案在计算和存储方面具有更高的效率.
    优先出版日期:  2022-10-14 , DOI: 10.13328/j.cnki.jos.006491
    摘要:
    大量访问越界、内存耗尽、性能故障等缺陷是输入中有效数据的规模过大, 超过临界值引起的. 而现有灰盒模糊测试技术中的数据依赖识别和变异优化技术大都针对固定规模输入数据格式, 对规模递增输入数据的构造效率不高. 为此, 针对这类累积型缺陷模糊测试对应的状态特征值最优化问题, 提出了一种对特征值依赖的输入数据的格式判别和差分变异方法. 根据引发特征值最值更新的有效变异的位置分布和发现频次特征, 判别待发现缺陷状态优化是否依赖于输入中相关数据规模的增长, 将引发最值更新的有效变异内容应用于规模递增输入数据生成, 提升该类累积型缺陷的复现和定向测试效率. 依据该思想, 实现了模糊测试工具Jigsaw, 在测评实验数据集上的实验结果表明提出的判别方法能够高效地区分特征值依赖的输入数据组织形式, 且提出的差分变异方法显著提升了需要大量输入才能触发累积型缺陷的复现效率.
    优先出版日期:  2022-10-14 , DOI: 10.13328/j.cnki.jos.006493
    摘要:
    近年来, 与二阶段实例分割方法相比, 单阶段实例分割方法由于实时性强, 已在实际应用中取得了初步进展, 但目前仍然存在以下两个主要缺点. (1)精度较低: 单阶段方法缺少多轮优化环节, 因此其精度离实际应用仍存在差距; (2)不够灵活: 目前大多数单阶段方法是独立设计的, 难以兼容实际应用中不同类型的物体检测框架, 因此适用范围相对有限. 提出了一种精确且灵活的单阶段实例分割框架——网格实例分割方法(GridMask), 其中两个关键步骤如下: (1)为了提高实例分割精度, 提出了一种网格切分二值化算法, 将物体边界框内的区域划分为多个独立的网格, 然后在每个网格上进行实例分割. 该步骤将物体分割任务简化成了多个网格切片的分割, 有效降低了特征表示的复杂程度, 进而提高了实例分割的精度; (2)为了兼容不同的物体检测方法, 设计了一个可以即插即用的子网络模块. 该模块可以无缝地接入到目前大多数主流物体检测框架中, 以增强这些方法的分割性能. 所提方法在公共数据集MS COCO上取得了出色的性能, 优于现有的大部分单阶段方法, 甚至一些二阶段方法.
    优先出版日期:  2022-10-14 , DOI: 10.13328/j.cnki.jos.006494
    摘要:
    软件定义网络(SDN)是一种将控制与转发平面分离的新型网络架构, 可以基于全局信息进行网络资源的调度和优化, 而精确的调度需要对全网信息(包括网络中所有交换设备状态及拓扑中所有链路信息)进行准确的测量. 带内网络遥测可以在转发数据包的同时实现相关信息的采集, 其中配置全网覆盖的探测路径是带内网络遥测需要解决的关键问题之一. 但现有SDN网络中全网覆盖的带内网络遥测路径配置方案存在以下问题: (1)需要提前部署大量探测节点导致维护开销增大; (2)探测路径过长导致探测分组长度超过网络中的MTU值; (3)冗余的探测路径导致测量引入的流量负荷在网络整体流量中占比过大; (4)动态变化拓扑下探测路径调整恢复时间长等. 为解决上述问题, 提出了SDN中基于图分割的自适应带内网络遥测探测路径配置(ACGS)方法, 其基本思想是: 利用图分割对网络拓扑图进行划分, 通过控制拓扑规模来限制探测路径长度; 在分割后的子图中求解欧拉回路得到只遍历子图中有向边一次的探测路径, 以避免探测节点数量过多、探测路径冗余度高的问题; 并利用局部调整与整体调整相结合的方式解决拓扑动态变化时探测路径恢复时间长的问题. 实验结果证明ACGS方法能够在SDN网络环境下, 实现探测路径长度适中、探测节点数量较少、探测路径冗余程度更低的全网覆盖带内网络遥测探测路径配置, 并实现其在拓扑动态变化后更快速的调整.
    优先出版日期:  2022-10-14 , DOI: 10.13328/j.cnki.jos.006487
    摘要:
    图像美学评价和情感分析任务旨在使计算机可以辨认人类由受到图像视觉刺激而产生的审美和情感反应. 现有研究通常将它们当作两个相互独立的任务. 但是, 人类的美感与情感反应并不是孤立出现的; 相反, 在心理认知层面上, 两种感受的出现应是相互关联和相互影响的. 受此启发, 采用深度多任务学习方法在统一的框架下处理图像美学评价和情感分析任务, 深入探索两个任务间的内在关联. 具体来说, 提出了一种自适应特征交互模块将两个单任务的基干网络进行关联, 以完成图像美学评价和情感分析任务的联合预测. 该模块中引入了一种特征动态交互机制, 可以根据任务间的特征依赖关系自适应地决定任务间需要进行特征交互的程度. 在多任务网络结构的参数更新过程中, 根据美学评价与情感分析任务的学习复杂度和收敛速度等差异, 提出了一种任务间梯度平衡策略, 以保证各个任务可以在联合预测的框架下平衡学习. 此外, 构建了一个大规模的图像美学情感联合数据集UAE. 据已有研究, 该数据集是首个同时包含美感和情感标签的图像集合. 本模型代码以及UAE数据集已经公布在https://github.com/zhenshen-mla/Aesthetic-Emotion-Dataset.
    优先出版日期:  2022-10-14 , DOI: 10.13328/j.cnki.jos.006489
    摘要:
    基于模型的强化学习方法利用已收集的样本对环境进行建模并使用构建的环境模型生成虚拟样本以辅助训练, 因而有望提高样本效率. 但由于训练样本不足等问题, 构建的环境模型往往是不精确的, 其生成的样本也会因携带的预测误差而对训练过程产生干扰. 针对这一问题, 提出了一种可学习的样本加权机制, 通过对生成样本重加权以减少它们对训练过程的负面影响. 该影响的量化方法为, 先使用待评估样本更新价值和策略网络, 再在真实样本上计算更新前后的损失值, 使用损失值的变化量来衡量待评估样本对训练过程的影响. 实验结果表明, 按照该加权机制设计的强化学习算法在多个任务上均优于现有的基于模型和无模型的算法.
    优先出版日期:  2022-10-14 , DOI: 10.13328/j.cnki.jos.006460
    摘要:
    分布式数据库系统出现了支持多协调器和多副本存储的新架构, 这给事务调度的正确性带来了新的挑战, 包括缺少中心协调器带来的新数据异常以及多副本机制带来的读取数据一致性等问题. 基于事务隔离级别和分布式系统一致性协议的定义, 为多协调器多副本分布式数据库的事务多级一致性构建了一个混合依赖图模型. 该形式化模型为事务的正确调度提供具有鲁棒性的评价标准, 可以方便地对数据库事务调度情况进行动态或静态分析检验.
    优先出版日期:  2022-09-30 , DOI: 10.13328/j.cnki.jos.006438
    摘要:
    自步学习是一种受人类和动物学习过程启发的学习机制, 它赋予训练样本不同的权重, 从而逐步将简单到更复杂的样本纳入训练集进行学习. 自步学习在目标函数中加入自步正则项控制学习过程. 目前存在多种形式的自步权重正则项, 不同的正则项可能会导致不同的学习性能. 其中, 混合权重正则项同时具有硬权重和软权重的特点, 因而被广泛应用在众多自步学习问题中. 然而, 当前的混合权重方法只结合了对数软权重, 形式较为单一. 此外, 相较于软权重或硬权重方式, 混合权重方法引入了更多的参数. 提出一种自适应混合权重的自步正则方法来克服形式单一和参数难以调节的问题. 一方面, 在学习的过程中权重的表示形式能够自适应进行调整, 另一方面, 可以根据样本损失分布特点来自适应混合权重引入的自步参数, 从而减少参数对人为经验的依赖. 行为识别和多媒体事件检测上的实验结果表明提出的方法可以有效地解决权重形式和参数的自适应问题.
    优先出版日期:  2022-09-30 , DOI: 10.13328/j.cnki.jos.006439
    [摘要] (127) [HTML] (0) [PDF 6.30 M] (110)
    摘要:
    随着人口老龄化问题日益严重, 人们对家庭环境中老年人的安全问题越来越重视. 目前, 国内外一些研究机构正在试图研究通过家用摄像头对老年人的日常行为进行智能化看护, 实现对一些危险行为的预警、报警与报备. 为了助推这些技术的产业化, 主要研究如何自动识别出老年人的日常行为, 如“喝水”“洗手”“读书”“看报”等. 通过对老年人的日常行为视频的调研发现, 老年人的日常行为语义具有非常明显的细粒度特性, 如“喝水”与“吃药”两种行为的语义高度相似, 且只有少量的关键帧能准确体现出其类别语义. 为了有效解决老年人行为识别问题, 提出了一种新的多模态多粒度图卷积网络(multimodal and multi-granularity graph convolutional networks, MM-GCN), 通过利用图卷积网络分别从人体骨骼点(“点”)和人体骨架(“线”)、关键帧(“面”)和视频提名段(“段”)两种模态对老年人行为进行建模, 捕捉“点-线-面-段”这4种颗粒度对象下的语义信息. 最后, 在目前最大规模的老年人日常行为数据集ETRI-Activity3D (11万+视频段、50+行为类别)上进行老年人行为识别性能评测, 相比于当前最好的方法, 提出的MM-GCN方法取得了最高的识别性能. 此外, 为了验证MM-GCN方法对常规人体行为识别任务的鲁棒性能, 在业界标准的NTU RGB+D数据集上进行实验, MM-GCN方法也表现出了很不错的性能.
    优先出版日期:  2022-09-30 , DOI: 10.13328/j.cnki.jos.006440
    摘要:
    口令增强加密是一个近年来新出现的原语, 可以通过增加一个第三方密码服务提供商承担辅助解密的功能, 抵抗已有的服务器猜测低熵口令即可解密带来的恶意离线攻击风险, 即实现了对口令认证进行增强并增加加密的功能. 结合近年来新出现的算法替换攻击威胁, 对提出该原语工作中的方案给出了一种服务器积极攻击的方法, 该攻击具有不可检测性且可以让服务器仍然能实施离线攻击, 从而证明原方案不具备其声称的抵抗恶意服务器的功能. 接着讨论与总结能够抵抗恶意服务器实施算法替换攻击的方案应当具备的性质与构造特点; 随后, 给出一个能够真正抵抗恶意服务器算法替换攻击的方案并给出了仿真结果; 最后, 对于复杂交互式协议受到算法替换攻击时的安全性影响需要的系统性研究进行了展望.
    优先出版日期:  2022-09-30 , DOI: 10.13328/j.cnki.jos.006436
    [摘要] (127) [HTML] (0) [PDF 7.67 M] (102)
    摘要:
    控制流劫持攻击利用程序内存漏洞获取程序的控制权, 进而控制程序执行恶意代码, 对系统安全造成极大的威胁. 为了应对控制流劫持攻击, 研究人员提出了一系列的防御手段. 控制流完整性是一种运行时防御方法, 通过阻止进程控制流的非法转移, 来确保控制流始终处于程序要求的范围之内. 近年来, 越来越多的研究致力于解决控制流完整性的相关问题, 例如提出新的控制流完整性方案、新的控制流完整性方案评估方法等. 首先阐述了控制流完整性的基本原理, 然后对现有控制流完整性方案进行了分类, 并分别进行了分析, 同时介绍了现有针对控制流完整性方案的评估方法与评价指标. 最后, 对控制流完整性的未来工作进行了展望, 以期对未来的控制流完整性研究提供参考.
    优先出版日期:  2022-09-30 , DOI: 10.13328/j.cnki.jos.006536
    摘要:
    跨模态哈希通过将不同模态的数据映射为同一空间中更紧凑的哈希码, 可以大大提升跨模态检索的效率. 然而现有跨模态哈希方法通常使用二元相似性矩阵, 不能准确描述样本间的语义相似关系, 并且存在平方复杂度问题. 为了更好地挖掘数据间的语义相似关系, 提出了一个基于标记增强的离散跨模态哈希方法. 首先借助迁移学习的先验知识生成样本的标记分布, 然后通过标记分布构建描述度更强的语义相似性矩阵, 再通过一个高效的离散优化算法生成哈希码, 避免了量化误差问题. 最后, 在两个基准数据集上的实验结果验证了所提方法在跨模态检索任务上的有效性.
    优先出版日期:  2022-09-30 , DOI: 10.13328/j.cnki.jos.006541
    摘要:
    数据中心边界广泛部署的地址转换技术产生的非对称流为负载均衡系统的设计带来了挑战. 为了解决软件负载均衡系统不能充分发挥多核处理器和网卡硬件能力的问题, 提出一种基于流特征的非对称流负载均衡方法. 首先, 分析网卡的数据包散列机制, 提出数据包调度算法, 将数据包调度至预期的CPU核; 然后, 基于会话报文序列的时间与空间特征, 构建大象流识别算法; 最后, 基于识别结果, 提出负载均衡方法. 实验结果表明, 非对称流负载均衡方法可以正确处理非对称流的负载均衡, 平均吞吐率提升约14.5%.
    优先出版日期:  2022-09-30 , DOI: 10.13328/j.cnki.jos.006545
    摘要:
    近年来, 随着电影、游戏、虚拟现实应用等对真实感要求的不断提高, 针对人体组织、牛奶等半透明材质的实时渲染变得越发重要. 针对当前大部分次表面散射计算方法难以正确估计散射范围的问题, 提出了一种全新的次表面散射计算方法用以精确表示最大散射距离. 首先, 针对暴力蒙特卡洛光子追踪结果进行模拟, 以得到反射剖面结果. 其次通过多项式模型进行反射剖面拟合, 计算精确着色点处的最大散射范围. 最后, 提出了一种新的重要性采样方案以减少蒙特卡洛所需的采样数, 进一步提高计算效率. 此外, 方法所需的参数仅由着色点上的反射率以及材质平均自由程提供, 以便于灵活调整渲染效果. 实验证明, 所提模型避免了之前对于散射范围的错误估计, 对材质反射率复杂的区域具有更好的渲染精度, 且渲染速率满足实时要求.
    优先出版日期:  2022-09-30 , DOI: 10.13328/j.cnki.jos.006432
    摘要:
    针对粒子群算法无法有效兼顾开采与勘探的问题, 提出一种基于密度峰值的依维度重置多种群粒子群算法. 首先采用密度峰值聚类中相对距离的思想并结合适应度值将种群分为两个子种群: 顶层群和底层群. 之后为顶层群设计专注于开采的学习策略而为底层群设计倾向于勘探的学习策略, 以均衡种群的勘探与开采. 最后依维度将陷入局部最优的粒子与全局最优粒子交叉重置, 在有效避免早熟收敛的同时也显著减少了无效计算次数. 将提出的算法与其他改进的优化算法在基础优化问题与CEC2017测试集上进行实验对比, 实验结果均值的统计检验证明了提出算法的改进具有统计学显著性.
    优先出版日期:  2022-09-30 , DOI: 10.13328/j.cnki.jos.006433
    摘要:
    借助预置任务创建的免费监督信号/标记, 自监督学习(SSL)能学得无标记数据的有效表示, 并已在多种下游任务中获得了验证. 现有预置任务通常先对原视图数据作显式的线性或非线性变换, 由此形成了多个增广视图数据, 然后通过预测上述视图或变换的对应标记或最大化视图间的一致性达成学习表示. 发现这种自监督增广(即数据自身与自监督标记的增广)不仅有益无监督预置任务而且也有益监督分类任务的学习, 而当前鲜有工作对此关注, 它们要么将预置任务作为下游分类任务的学习辅助, 采用多任务学习建模; 要么采用多标记学习, 联合建模下游任务标记与自监督标记. 然而, 下游任务与预置任务间往往存在固有差异(语义, 任务难度等), 由此不可避免地造成二者学习间的竞争, 给下游任务的学习带来风险. 为挑战该问题, 提出一种简单但有效的自监督多视图学习框架(SSL-MV), 通过在增广数据视图上执行与下游任务相同的学习来避免自监督标记对下游标记学习的干扰. 更有意思的是, 借助多视图学习, 设计的框架自然拥有了集成推断能力, 因而显著提升了下游分类任务的学习性能. 最后, 基于基准数据集的广泛实验验证了SSL-MV的有效性.
    优先出版日期:  2022-09-23 , DOI: 10.13328/j.cnki.jos.006543
    摘要:
    传统密码算法的安全性建立在黑盒攻击模型下. 在这种攻击模型下, 攻击者只能获取密码算法的输入输出, 而无法得知密码算法运行时的内部细节. 近年来白盒攻击模型的概念被提出. 在白盒攻击模型下, 攻击者既可以获取密码算法的输入输出, 也可以直接观测或更改密码算法运行时的内部数据. 为保证已有密码算法在白盒攻击环境下的安全性, 在不改变其功能的基础上通过白盒密码技术对其进行重新设计被称为已有密码算法的白盒实现. 研究白盒实现方案的设计与分析对于解决数字版权管理问题具有重要意义. 近年来, 出现了一类针对白盒实现方案的旁信道分析方法. 这类分析手段只需要知道很少白盒实现方案的内部细节, 却可以提取到密钥, 因此是一类对现有白盒实现方案具有实际威胁的分析手段. 对现有白盒实现方案进行此类分析对于确保方案安全性具有重要现实意义. 此类分析方法中的典型代表是基于差分功耗分析原理的差分计算分析. 基于差分计算分析, 对白-武白盒SM4方案进行了安全性分析. 基于对GF(2)上n阶均匀随机可逆矩阵统计特征的研究结果, 提出了一种改进型差分计算分析(IDCA), 可以在分析成功率几乎不变的前提下显著提升分析效率. 结果表明, 白-武白盒SM4方案在面对差分计算分析时不能保证安全性, 必须对其进行进一步改进使之满足实际应用场景下的安全性需求.
    优先出版日期:  2022-09-23 , DOI: 10.13328/j.cnki.jos.006530
    摘要:
    提出一种基于卷积神经网络的Transformer模型来解决全景分割任务, 方法借鉴CNN在图像特征学习方面的先天优势, 避免了Transformer被移植到视觉任务中所导致的计算量增加. 基于卷积神经网络的Transformer模型由执行特征域变换的映射器和负责特征提取的提取器这两种基本结构构成, 映射器和提取器的有效结合构成了该模型的网络框架. 映射器由一种Lattice卷积模型实现, 通过对卷积滤波器进行设计和优化来模拟图像的空间关系. 提取器由链式网络实现, 通过链式单元堆叠提高特征提取能力. 基于全景分割的结构和功能, 构建了基于CNN的全景分割Transformer网络. 在MS COCO和Cityscapes数据集的实验结果表明, 所提方法具有优异的性能.
    优先出版日期:  2022-09-23 , DOI: 10.13328/j.cnki.jos.006532
    摘要:
    模型学习是一种获取黑盒软件系统行为模型的有效方法, 可分为主动学习和被动学习. 主动学习是基于字母表构造测试用例, 通过与黑盒系统主动交互, 可在多项式时间内得到目标系统的最小完备自动机, 其中等价查询仍是开发和应用主动自动机学习工具的障碍之一. 通过探讨反例对于学习算法的影响, 定义假设的比较规则, 提出测试用例构造的两个原则, 同时依据原则对Wp-method等价查询算法改进, 产生更优的假设, 有效降低查询的数量, 并基于LearnLib开源工具, 分别以3类自动机为实验对象验证原则和改进算法的有效性.
    优先出版日期:  2022-09-20 , DOI: 10.13328/j.cnki.jos.006531
    摘要:
    选择密文安全模型能有效刻画主动攻击,更接近现实环境.现有抵抗选择密文攻击的密码算法以国外算法为主,缺乏我国自主设计且能抵抗选择密文攻击的密码算法.虽然实现选择密文安全存在通用转化方法,代价是同时增加计算开销和通信开销.本文基于国密SM9标识加密算法,提出一种具有选择密文安全的标识广播加密方案.方案的设计继承了SM9标识加密算法结构,用户密钥和密文的大小都是固定的,其中用户密钥由一个群元素组成,密文由三个元素组成,与实际参与加密的接收者数量无关.借助随机谕言器,基于GDDHE困难问题可证明方案满足CCA安全.加密算法的设计引入虚设标识,通过该标识可成功回复密文解密询问,实现CCA的安全性.分析表明,本文方案与现有高效标识广播加密方案在计算效率和存储效率上相当.
    优先出版日期:  2022-09-20 , DOI: 10.13328/j.cnki.jos.006658
    [摘要] (519) [HTML] (0) [PDF 1.25 M] (368)
    摘要:
    随着数据孤岛现象的出现和个人隐私保护的重视,集中学习的应用模式受到制约,而联邦学习作为一个分布式机器学习框架,可以在不泄露用户数据的前提下完成模型训练,从诞生之初就备受关注.伴随着联邦学习应用的推广,其安全性和隐私保护能力也开始受到质疑.本文对近年来国内外学者在联邦学习模型安全与隐私的研究成果进行了系统总结与分析.首先,介绍联邦学习的背景知识,明确其定义和工作流程,并分析存在的脆弱点.其次,分别对联邦学习存在的安全威胁和隐私风险进行系统分析和对比,并归纳总结现有的防护手段.最后,展望未来的研究挑战和方向.
    优先出版日期:  2022-09-20 , DOI: 10.13328/j.cnki.jos.006664
    摘要:
    区块链上运行的智能合约具有一经部署难以修改、调用执行需经过共识等特点,现有的需要修改智能合约代码或打断其执行过程的调试方法难以直接应用到智能合约上.由于智能合约的运行过程由区块链交易顺序执行过程组成,实现对区块链交易执行过程的追溯是提升智能合约可调试性的一个有效途径.对区块链交易执行过程进行追溯主要目标是找出一条已经出块的区块链交易是如何得到当前的执行结果的.区块链交易的执行依赖于区块链内部状态,且该状态取决于之前区块链交易的执行结果,因此存在着传递性依赖.区块链交易的依赖性和区块链所提供的执行环境的特点给区块链交易执行追溯带来了挑战.区块链交易执行追溯面临的挑战主要有三方面,即如何从智能合约部署的生产环境中获取足够追溯的信息、如何获取区块链交易之间的依赖关系,以及如何保证追溯结果与实际在线执行过程一致.本文提出了一种基于录制重放的区块链交易执行追溯方法,在合约容器中建立录制重放机制,无需修改合约代码即可支持交易执行中对状态读写操作的录制,并且不会打断智能合约运行;提出了基于状态读写的交易依赖分析算法,支持对存在依赖关系的前序交易进行按需回溯;此外,设计了录制读写操作记录的验证机制,确保重放的执行过程与真实执行过程之间的一致性可被验证.所提出的方法能够追溯区块链交易调用智能合约的执行过程,可用于智能合约调试,并且当智能合约异常造成损失时可用于举证.在实验中对比了将录制的读写操作记录存储于链上和存储于链下之间的性能差异,通过案例研究展示了本方法在追溯区块链交易执行方面的有效性和优点.
    优先出版日期:  2022-09-20 , DOI: 10.13328/j.cnki.jos.006683
    摘要:
    局部几何形状的描述能力对不规则的点云形状表示是十分重要的.然而现有的网络仍然很难有效的捕捉准确的局部形状信息.在本文中,我们在点云中模拟深度可分离卷积计算方式提出一种新型的动态覆盖卷积(dynamic cover convolution,DC-Conv),以聚合局部特征.DC-Conv的核心是空间覆盖算子(space cover operator,SCOP),该算子通过在局部区域中构建各向异性的空间几何体覆盖局部特征空间,以加强局部特征的紧凑性.DC-Conv通过在局部邻域中动态组合多个SCOP实现局部形状的捕捉.其中SCOP的注意力系数通过数据驱动的方式由点位置自适应地学习得到.在3D点云形状识别基准数据集ModelNet40、ModelNet10和ScanObjectNN上的实验表明,该方法能有效提高3D点云形状识别的性能和对稀疏点云的鲁棒性.最后,我们也提供了充分的消融实验验证该方法的有效性.开源代码发布在https://github.com/changshuowang/DC-CNN.
    优先出版日期:  2022-09-16 , DOI: 10.13328/j.cnki.jos.006427
    摘要:
    针对在实际环境下无线传感器网络出现随机丢包、能量消耗快的问题, 结合传感器网络的特点和压缩感知的优势设计了一个边缘计算场景下的可靠的数据收集方法, 首先对网络进行分簇, 在数据采集阶段设计基于实际链路状态的测量矩阵并构造适合该传感器数据的稀疏基, 在数据传输阶段即从簇头传输到汇聚节点, 采取最优最差蚁群算法对链路质量进行评估, 然后进行基于链路质量的多路径传输, 最后将数据重构任务卸载到边缘节点执行.实验结果证明所提数据收集方法与其他方法对比, 在链路出现随机丢包的情况下, 数据传输的可靠性与网络的能耗都表现出较好的效果.
    优先出版日期:  2022-09-16 , DOI: 10.13328/j.cnki.jos.006428
    摘要:
    情感分析在软件工程领域具有广泛的应用场景, 例如, 从代码提交信息中检测开发者的情绪、从程序员问答论坛中识别开发者的观点等. 但是, 现有的“开箱即用”的情感分析工具无法在软件工程相关的任务中取得可靠的结果. 已有研究表明, 导致不可靠结果的最主要原因是, 这些工具无法理解一些单词和短语在软件工程领域中的特定含义. 此后, 研究者们开始为软件工程领域定制监督学习和远程监督学习方法. 为了验证这些方法的效果, 研究者们使用软件工程相关的标注数据集来对它们进行数据集内验证, 即, 将同一数据集划分为训练集和测试集, 分别用于方法的训练和测试. 但是, 对软件工程领域的某些情感分析任务来说, 尚无标注数据集, 且人工标注数据集耗时耗力. 在此情况下, 一种可选的方法就是使用为了相似任务从同一目标平台上提取的数据集或者使用从其他软件工程平台上提取的数据集. 为了验证这两种做法的可行性, 需要进一步以平台内设置和跨平台设置来验证现有情感分析方法. 平台内设置指的是使用提取自同一平台的不同数据集作为训练集和测试集; 跨平台设置指的是使用提取自不同平台的数据集作为训练集和测试集. 目标旨在数据集内设置、平台内设置、跨平台设置这3种设置下, 综合验证现有的为软件工程定制的情感分析方法. 最终, 实验结果为相关的研究者和从业者提供了具有现实指导意义的启示.
    优先出版日期:  2022-09-16 , DOI: 10.13328/j.cnki.jos.006422
    摘要:
    深度学习软件的结构特征与传统软件存在明显差异, 因此即使展开了大量测试, 依然无法有效衡量测试数据对深度学习软件的覆盖情况和测试充分性, 并造成后续使用过程中依然可能存在大量未知错误. 深度森林是一种新型深度学习模型, 其克服了深度神经网络存在一些的缺点, 例如: 需要大量训练数据、需要高算力平台、需要大量超参数. 但目前还没有相关工作对深度森林的测试方法进行研究. 针对深度森林的结构特点, 制定了一组由随机森林结点覆盖率、随机森林叶子覆盖率、级联森林类型覆盖率和级联森林输出覆盖率组成的测试覆盖率评价指标. 在此基础上, 基于遗传算法设计了覆盖制导的测试数据自动生成方法DeepRanger, 可自动生成能有效提高模型覆盖率的测试数据集. 为对所提出覆盖指标的有效性进行验证, 在深度森林开源项目gcForest和MNIST数据集上设计并进行了一组实验. 实验结果表明, 所提出的4种覆盖指标均能有效评价测试数据集对深度森林模型的测试充分性. 此外, 与基于随机选择的遗传算法相比, 使用覆盖信息制导的测试数据生成方法DeepRanger能达到更高的模型覆盖率.
    优先出版日期:  2022-09-16 , DOI: 10.13328/j.cnki.jos.006424
    摘要:
    为了缓解城市交通拥堵、避免交通事故的发生, 城市路网的路径选择一直以来是一个热门的研究课题. 随着边缘计算和车辆智能终端技术的发展, 城市路网中的行驶车辆从自组织网络朝着车联网(Internet of vehicles, IoV)范式过渡, 这使得车辆路径选择问题从基于静态历史交通数据的计算向实时交通信息计算转变. 在城市路网路径选择问题上, 众多学者的研究主要聚焦如何提高出行效率, 减少出行时间等. 然而这些研究并没有考虑所选路径是否存在风险等问题. 基于以上问题, 首次构造了一个基于边缘计算技术的道路风险实时评估模型(real-time road risk assessment model based on edge computing, R3A-EC), 并提出基于该模型的城市路网实时路径选择方法(real-time route selection method based on risk assessment, R2S-RA). R3A-EC模型利用边缘计算技术的低延迟, 高可靠性等特点对城市道路进行实时风险评估, 并利用最小风险贝叶斯决策验证道路是否存在风险问题, 最后在此基础上对城市路网路径选择进行优化, 实现实时动态低风险的路径选择方法. 实验通过与传统的最短路径Dijkstra算法、基于VANET的最短时间算法、基于MEC的动态路径规划算法以及双向A*最短路径优化算法对比, 得出R2S-RA方法可以更好地选择兼顾道路风险和行驶时间的优化路径, 从而大大减少交通拥堵和交通事故等事件的发生.
    优先出版日期:  2022-09-16 , DOI: 10.13328/j.cnki.jos.006396
    [摘要] (100) [HTML] (0) [PDF 5.88 M] (101)
    摘要:
    可验证定时签名(VTS)方案允许在给定的时间内对已知消息上的签名进行锁定, 在执行时间为T的顺序计算后, 任何人都可从时间锁(time-lock)中提取出该签名. 可验证性保证了在无需解开时间锁的情况下, 任何人都可以公开地验证时间锁中是否包含已知消息上的合理签名, 且可以在执行时间T的顺序计算后获得该签名. 提出了可验证的属性基定时签名(verifiable attribute-based timed signatures, VABTS)概念, 并给出了一个可撤销和可追溯的VABTS方案(RT-VABTS)的具体构造. RT-VABTS方案可同时支持签名者身份隐私保护、动态的用户撤销、可追溯性和定时性, 并能解决属性基密码中的密钥托管问题. VABTS具有非常广阔的应用前景, 特别列举了VABTS的两种应用场景: 构建准入区块链中隐私保护的支付通道网络和实现公平的隐私多方计算. 最后, 通过形式化的安全性分析和性能评估证明实例化的RT-VABTS方案是安全且高效的.
    优先出版日期:  2022-09-09 , DOI: 10.13328/j.cnki.jos.006525
    [摘要] (173) [HTML] (0) [PDF 5.87 M] (126)
    摘要:
    随着近年来机器学习方法在自然语言处理领域的应用越发广泛, 自然语言处理任务的安全性也引起了研究者们重视. 现有研究发现, 向样本施加细微扰动可能令机器学习模型得到错误结果, 这种方法称之为对抗攻击. 文本对抗攻击能够有效发现自然语言模型的弱点从而进行改进. 然而, 目前的文本对抗攻击方法都着重于设计复杂的对抗样本生成策略, 对抗攻击成功率提升有限, 且对样本进行高侵入性修改容易导致样本质量下降. 如何更简单、更高效地提升对抗攻击效果, 并输出高质量对抗样本已经成为重要需求. 为解决此问题, 从改进对抗攻击过程的新角度, 设计了义原级语句稀释法(sememe-level sentence dilution algorithm, SSDA)及稀释池构建算法(dilution pool construction algorithm, DPCA). SSDA是一种可以自由嵌入经典对抗攻击过程中的新过程, 它利用DPCA构建的稀释池先对输入样本进行稀释, 再进行对抗样本生成. 在未知文本数据集与自然语言模型的情况下, 不仅能够提升任意文本对抗攻击方法的攻击成功率, 还能够获得相较于原方法更高的对抗样本质量. 通过对不同文本数据集、稀释池规模、自然语言模型, 以及多种主流文本对抗攻击方法进行对照实验, 验证了SSDA对文本对抗攻击方法成功率的提升效果以及DPCA构建的稀释池对SSDA稀释能力的提升效果. 实验结果显示, SSDA稀释过程能够比经典对抗攻击过程发现更多模型漏洞, 且DPCA能够帮助SSDA在提升成功率的同时进一步提升对抗样本的文本质量.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006687
    [摘要] (111) [HTML] (0) [PDF 1.68 M] (195)
    摘要:
    异质信息网络(HINs)是包含多种类型对象(顶点)和链接(边)的有向图,能够表达丰富复杂的语义和结构信息.HINs中的稠密子图查询问题,即给定一个查询点q,在HINs中查询包含q的稠密子图,已成为该领域的热点和重点研究问题,并在活动策划、生物分析和商品推荐等领域具有广泛应用.但现有方法主要存在以下两个问题:(1)基于模体团和关系约束查询的稠密子图具有多种类型顶点,导致其不能解决仅关注某种特定类型顶点的场景;(2)基于元路径的方法虽然可查询到某种特定类型顶点的稠密子图,但是它忽略了子图中顶点之间基于元路径的连通度.为此,本文首先在HINs中提出基于元路径的边不相交路径的连通度,即路径连通度;然后,基于路径连通度提出k-路径连通分量(k-PCC)模型,该模型要求子图的路径连通度至少为k;其次,基于k-PCC模型提出最大路径连通Steiner分量(SMPCC)概念,其为包含q的具有最大路径连通度的k-PCC;最后,提出一种高效的基于图分解的k-PCC发现算法,并在此基础上提出优化查询SMPCC算法.大量基于真实和合成HINs数据的实验结果验证了本文所提出模型和算法的有效性和高效性.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006692
    [摘要] (806) [HTML] (0) [PDF 11.12 M] (532)
    摘要:
    在互联网快速发展、大数据的挖掘与应用已渗透到各行各业的今天,如何安全且高效地共享、使用海量数据成为新的热点研究问题.安全多方计算是解决该问题的关键技术之一,它允许一组参与方在不泄露隐私输入的前提下进行交互,共同计算一个函数并得到输出结果.不经意传输协议,也叫茫然传输协议,是一种保护隐私的两方通信协议,消息发送者持有两条待发送的消息,接收者选择一条进行接收,事后发送者对接收者获取哪一条消息毫不知情,接收者对于未选择的消息也无法获取任何信息.不经意传输协议是安全多方计算技术的关键模块之一,其效率优化可有效推动安全多方计算技术的应用落地,对于特殊的两方安全计算协议如隐私集合交集计算尤为重要.本文总结了不经意传输协议的分类及几种常见的变体,分别阐述了基于公钥密码的不经意传输协议的构造和研究进展,以及不经意传输扩展协议的构造和研究进展,由此引出不经意传输扩展协议的效率优化研究的重要性.同时,在半诚实敌手和恶意敌手这两种敌手模型下,分别对不经意传输协议和不经意传输扩展协议的效率优化研究进展进行了全面梳理.另一方面,从应用角度对不经意传输协议和不经意传输扩展协议在工程实现中常用的优化技术进行了系统化分析.最后,总结了不经意传输协议和不经意传输扩展协议研究目前所面临的主要问题及未来发展趋势.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006694
    摘要:
    作为数字货币的底层核心技术之一,区块链随着数字货币的快速发展而受到了广泛关注.由于区块链具有去中心化、防篡改、可追溯等性质,如今越来越多的企业和个人用户选择利用区块链技术来实现数据的传输和记录.区块链公开透明的特性,一方面充分保证了数据的可用性,但另一方面又给用户的隐私信息带来了严重威胁.为了同时兼顾用户数据的机密性和可用性,同态加密常常被用到区块链的安全解决方案之中.然而,现实应用对于所部署的同态加密方案的安全强度要求也很可能会随着时间推移而有所变化.考虑到区块链应用场景的复杂多样性和分布式特点,同态加密方案一旦部署下去,之后随着时间推移需要调整安全性强度时,相应的工作量将会非常繁重.此外,在区块链的现实应用中,考虑到监管方面的需求,很多情况下(尤其是针对某些群组成员发布和传输的数据)需要允许某可信第三方(比如监管方)能够对链上的相应密文数据进行解密.如果采用传统的同态加密方案对数据进行加密,可信第三方需要存储所有用户的私钥,这将给密钥管理和存储带来巨大压力.针对当前的区块链应用场景和安全需求,提出了一个基于kk)上的判定性k-Lin假设的加法同态加密方案.我们的方案不仅在标准模型下能满足IND-CCA1安全性,还具有三个特殊优势:(i)可以通过对参数k的调控来细粒度调节加密方案的安全性强度;(ii)加密方案具有双解密机制:存在两种私钥,一种由用户本人持有,另一种由可信第三方持有,其中可信第三方的私钥可用于该加密体制所有用户的密文解密;(iii)加密方案可以极为便利地退化为IND-CPA安全的公钥加密方案,退化后的方案不仅其公私钥长度和密文长度变得更短,而且同样具有加法同态性和双解密机制.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006697
    [摘要] (133) [HTML] (0) [PDF 1.60 M] (224)
    摘要:
    手机用户提交的App评论为开发者提供了一个了解用户满意度的沟通渠道.许多用户通常使用“send a video”和“crash”等关键短语来描述有缺陷的功能(即用户操作)和App的异常行为(即异常行为),而这些短语可能会与其他琐碎信息(如用户的抱怨)一起交杂在评论文本中.掌握这些细粒度信息可以帮助开发者理解来自用户的功能需求或缺陷报告,进而有利于提升App的质量.现有的基于模式的目标短语提取方法只能对评论的高层主题/方面进行总结,并且由于对评论的语义理解不足,短语提取的性能较差.本文提出了一种语义感知的细粒度App评论缺陷挖掘方法(Arab),来提取用户操作和异常行为,并挖掘两者之间的关联关系.我们设计了一种新颖的用于提取细粒度目标短语的神经网络模型,该模型将文本描述和评论属性相结合,能更好地建模评论的语义.Arab还根据语义关系对提取的短语进行聚类,并将用户操作和异常行为之间的关联关系进行了可视化.我们使用6个App的3,426条评论进行评估实验,实验结果证实了Arab在短语提取方面的有效性.我们进一步使用Arab对15个热门App的301,415条评论进行了案例研究,以探索其潜在的应用,并验证其在大规模数据上的实用性.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006700
    [摘要] (638) [HTML] (0) [PDF 2.79 M] (476)
    摘要:
    受人类的视觉注意力机制启发,显著性目标检测任务旨在定位给定场景中最吸引人注意的目标或区域.近年来,随着深度相机的发展和普及,深度图像已经被成功应用于各类计算机视觉任务,这也为显著性目标检测技术提供了新思路.通过引入深度图像不仅能使计算机更加全面地模拟人类视觉系统,而且深度图像所提供的结构、位置等补充信息也可以为低对比度、复杂背景等困难场景的检测提供新的解决方案.鉴于深度学习时代下RGB-D显著目标检测任务发展迅速,本文旨在从该任务关键问题的解决方案出发,对现有相关研究成果进行归纳、总结和梳理,并在常用RGB-D SOD数据集上进行不同方法的定量分析和定性比较.最后,对该领域面临的挑战及未来的发展趋势进行总结与展望.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006702
    [摘要] (112) [HTML] (0) [PDF 1.51 M] (219)
    摘要:
    传统的基于Pareto支配关系的多目标进化算法难以有效求解高维多目标优化问题.提出一种利用PBI效用函数的双距离构造的支配关系,且无需引入额外的参数.其次,利用双距离定义了一种多样性保持方法,该方法不仅考虑了解个体的双距离,而且还可以根据优化问题的目标数目自适应地调整多样性占比,以较好地平衡高维目标解群的收敛性和多样性.最后,将基于双距离构造的支配关系和多样性保持方法嵌入到NSGA-II算法框架中,设计一种基于双距离的高维多目标进化算法MaOEA/d2.该算法与其他五种代表性的高维多目标进化算法一同在5-、10-、15-和20-目标的DTLZ和WFG基准测试问题上进行IGD和HV性能测试,结果表明MaOEA/d2算法具有较好的收敛性和多样性.由此表明,MaOEA/d2算法是一种颇具前景的高维多目标进化算法.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006703
    [摘要] (184) [HTML] (0) [PDF 1.92 M] (227)
    摘要:
    多标签学习是一种非常重要的机器学习范式.传统的多标签学习方法是在监督或半监督的情况下设计的.通常情况下,它们需要对所有或部分数据进行准确的属于多个类别的标注.在许多实际应用中,拥有大量标注的标签信息往往难以获取,大大限制了多标签学习的推广和应用.与之相比,标签相关性作为一种常见的弱监督信息,它对标注信息的要求较低.如何利用标签相关性进行多标签学习是一个重要但未研究的问题.本文提出了一种利用标签相关性作为先验的弱监督多标签学习方法(WSMLLC).该模型利用标签相关性对样本相似性进行了重述,能够有效地获取标签指示矩阵,同时利用先验信息对数据的投影矩阵进行约束,并引入回归项对指示矩阵进行修正.与现有方法相比,WSMLLC模型的突出优势在于仅提供标签相关性先验,就可以实现多标签样本的标签指派任务.在多个公开数据集上进行实验验证,实验结果表明在标签矩阵完全缺失的情况下,WSMLLC与当前先进的多标签学习方法相比具有明显优势.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006704
    [摘要] (207) [HTML] (0) [PDF 1.43 M] (303)
    摘要:
    演化多任务优化研究利用种群进行优化搜索、借助任务间遗传信息的迁移达到多任务同时处理的目的.演化多任务优化被认为是继单目标优化、多目标优化后的第三种问题优化研究范例,是近年来计算智能领域兴起的一大研究热点.演化多任务优化算法模拟自然界选型交配和垂直文化传播的生物文化现象,通过任务间和任务内的知识迁移来促进多个优化任务各自的收敛.本文对近年来演化多任务优化领域的研究进展做出了系统总结.首先我们引入了演化多任务优化问题的概念、给出了其相关的五个定义,并从知识迁移优化的角度对这一问题做出阐述.然后详细介绍了演化多任务优化算法的基本框架,总结了这一算法近年来的改进情况和基于这一算法框架下其他经典算法的实现情况.最后对演化多任务优化算法的学术、工程应用情况做出了较为完整的归纳介绍.在本文的最后,我们指出了演化多任务优化领域目前存在的主要问题和挑战,并对这一方向的进一步发展做出了展望.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006705
    [摘要] (264) [HTML] (0) [PDF 1.77 M] (267)
    摘要:
    图划分是大规模分布式图处理的首要工作,对图应用的存储、查询、处理和挖掘起基础支撑作用.随着图数据的规模不断增长,真实世界中的图表现出动态性,如何对动态图进行划分已成为目前图划分研究的热点问题.本文从不同的动态图划分算法的关注点和特点出发,系统性地介绍当前可用于解决动态图划分问题的各类算法,包括流式图划分算法、增量式图划分算法和图重划分算法.首先,介绍图划分的三种不同的划分策略及问题定义,图的两种不同的动态性来源以及动态图划分问题.然后,介绍三种不同的流式图划分算法,包括基于Hash的划分算法、基于邻居分布的划分算法以及基于流的优化划分算法.其次,介绍单元素增量式划分和批量增量式划分这两种不同的增量式图划分算法.再次,分别介绍针对图结构动态的重划分算法和针对图计算动态的重划分算法.最后,在对已有方法分析和比较的基础上,总结目前动态图划分面临的主要挑战,提出相应的研究问题.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006706
    [摘要] (494) [HTML] (0) [PDF 1.70 M] (626)
    摘要:
    深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于,根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒度的下层动作,学习时间粗粒度的、有语义的上层动作,将复杂问题分解为数个简单问题进行求解.近年来,随着研究的深入,深度分层强化学习方法已经取得了实质性的突破,且被应用于视觉导航、自然语言处理、推荐系统和视频描述生成等生活领域.该文首先介绍了分层强化学习的理论基础;然后描述了深度分层强化学习的核心技术,包括分层抽象技术和常用实验环境;详细分析了基于技能的深度分层强化学习框架和基于子目标的深度分层强化学习框架,对比了各类算法的研究现状和发展趋势;接下来介绍了深度分层强化学习在多个现实生活领域中的应用;最后,对深度分层强化学习进行展望和总结.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006707
    [摘要] (338) [HTML] (0) [PDF 1.95 M] (418)
    摘要:
    视频片段检索旨在利用用户给出的自然语言查询语句,在一个长视频中找到最符合语句描述的目标视频片段.视频中包含丰富的视觉、文本、语音信息,如何理解视频中提供的信息,以及查询语句提供的文本信息,并进行跨模态信息的对齐与交互,是视频片段检索任务的核心问题.本文系统梳理了当前视频片段检索领域中的相关工作,将它们分为两大类:基于排序的方法和基于定位的方法.其中,基于排序的方法又可细分为预设候选片段的方法和有指导地生成候选片段的方法;而基于定位的方法则可分为一次定位的方法和迭代定位的方法.本文还对本领域的数据集和评价指标进行了介绍,并对一些模型在多个常用数据集上的性能进行了总结与整理.此外,本文介绍了本任务的延伸工作,如大规模视频片段检索工作等.最后,本文对视频片段检索未来的发展方向进行了展望.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006709
    [摘要] (260) [HTML] (0) [PDF 1.43 M] (295)
    摘要:
    属性抽取是一种自动识别和提取属性表述文字的自然语言处理任务.本文首先重温了属性抽取的基本任务、权威数据资源和通用评测规范,并在此基础上全面回顾了现有前沿技术,包括基于统计策略和特征工程的传统抽取技术,以及利用深度学习的神经抽取技术.特别地,本文以属性表述语言的本质为出发点,结合现有技术暴露出的不足,对该领域的技术难点和推演方向给出了详细解释.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006711
    摘要:
    约束优化是多数实际工程应用优化问题的呈现方式.进化算法由于其高效的表现,近年来被广泛应用于约束优化问题求解.但约束条件使得问题解空间离散、缩小、改变,给进化算法求解约束优化问题带来极大挑战.在此背景下,融合约束处理技术的进化算法成为研究热点.此外,随着研究的深入,近年来约束处理技术在复杂工程应用问题优化中得到了广泛发展,例如多目标、高维、等式优化等.本文根据复杂性的缘由将面向复杂约束优化问题的进化优化分为面向复杂目标的进化约束优化算法和面向复杂约束场景的进化算法两种类别进行综述,其中重点探讨了实际工程应用的复杂性对约束处理技术的挑战和目前研究的最新进展,并最后总结了未来的研究趋势与挑战.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006712
    [摘要] (141) [HTML] (0) [PDF 1.19 M] (211)
    摘要:
    随着海量移动数据的积累,下一个兴趣点推荐已成为基于位置的社交网络中一项重要任务.目前主流方法倾向于从用户近期的签到序列中捕捉局部动态偏好,但忽略了历史移动数据蕴含的全局静态信息,从而阻碍对用户偏好的进一步挖掘,影响推荐的准确性.为此,本文提出一种基于全局和局部特征融合的下一个兴趣点推荐方法.该方法利用签到序列中的顺序依赖和全局静态信息中用户与兴趣点之间、连续签到之间隐藏的关联关系建模用户移动行为.首先,本文引入两类全局静态信息,即User-POI关联路径和POI-POI关联路径,学习用户的全局静态偏好和连续签到之间的全局依赖关系.具体地,利用交互数据以及地理信息构建异构信息网络,设计关联关系表示学习方法,利用相关度引导的路径采样策略以及层级注意力机制获取全局静态特征.然后,基于两类全局静态特征更新签到序列中的兴趣点表示,并采用位置与时间间隔感知的自注意力机制来捕捉用户签到序列中签到之间的局部顺序依赖,进而评估用户访问兴趣点概率,实现下一个兴趣点推荐.最后,本文在两个真实数据集上进行实验比较与分析,验证了所提方法能够有效提升下一个兴趣点推荐的准确性.此外,案例分析表明,建模显式路径有助于提供可解释的推荐结果.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006713
    [摘要] (338) [HTML] (0) [PDF 1.96 M] (498)
    摘要:
    混合事务与分析处理(Hybrid Transactional Analytical Processing,HTAP)技术是一种基于一站式架构同时处理事务请求与查询分析请求的技术.HTAP技术不仅消除了从关系型事务数据库到数据仓库的数据抽取、转换、和加载过程,还支持实时地分析最新事务数据.然而,为了同时处理OLTP与OLAP,HTAP系统也需要在系统性能与数据分析新鲜度之间做出取舍,这主要是因为高并发、短时延的OLTP与带宽密集型、高时延的OLAP访问模式不同且互相干扰.目前主流的HTAP数据库主要以行列共存的方式来支持混合事务与分析处理,但由于此类数据库面向不同的业务场景,所以它们的存储架构与处理技术各有不同.本篇综述首先全面调研HTAP数据库,总结它们主要的应用场景与优缺点,并根据存储架构对它们进行分类、总结、与对比.现有综述工作侧重于基于行/列单格式存储的HTAP数据库以及基于Spark的松耦合HTAP系统,而本文侧重于行列共存的实时HTAP数据库.特别地,本文凝练了主流HTAP数据库关键技术,包括数据组织技术、数据同步技术、查询优化技术、资源调度技术四个部分.本综述亦总结分析了HTAP数据库构建技术与评测基准;最后,讨论了HTAP技术未来的研究方向与挑战.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006714
    [摘要] (275) [HTML] (0) [PDF 1.75 M] (243)
    摘要:
    近年来研究者提出了大量的软件缺陷预测模型,新模型往往通过与过往模型进行比较实验来表明其有效性.然而,研究者在设计新旧模型间的比较实验时并没有达成共识,不同的工作往往采用不完全一致的比较实验设置,这可能致使在对比模型时得到误导性结论,最终错失提升缺陷预测能力的机会.本文对近年来国内外学者所做的缺陷预测模型间的比较实验进行系统性的总结.首先,阐述缺陷预测模型间的比较实验的研究问题.然后,分别从缺陷数据集、数据集划分、基线模型、性能指标、分类阈值五个方面对现有的比较实验进行总结.最后,指出目前在进行缺陷预测模型间比较实验时面临的挑战并给出建议的研究方向.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006715
    [摘要] (347) [HTML] (0) [PDF 2.19 M] (274)
    摘要:
    知识追踪是一种重要的认知诊断方法,往往被用于在线学习平台、智能辅导系统等信息化教学平台中.知识追踪模型通过分析学生与课程作业的交互数据,即时模拟学生对课程知识点的掌握水平,模拟的结果可以用来预测学生未来的学习表现,并帮助他们规划个性化的学习路径.在过去20多年中,知识追踪模型的构建通常基于统计学和认知科学的相关理论.随着教育大数据的开放和应用,基于深度神经网络的模型(以下简称“深度知识追踪模型”)以其简单的理论基础和优越的预测性能,逐渐取代了传统模型,成为知识追踪领域新的研究热点.根据所使用的神经网络结构,阐述近年来代表性深度知识追踪模型的算法细节,并在5个公开数据集上对这些模型的性能进行全面比较.最后讨论深度知识追踪的应用案例和若干未来研究方向.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006716
    [摘要] (185) [HTML] (0) [PDF 1.87 M] (232)
    摘要:
    随着工业互联网产生的数据量日益增加,越来越多企业选择将工业互联网数据外包存储在云服务器上以节省存储开销.为了防止外包存储的数据被篡改或删除,企业需要定期对其进行审计.本文提出一种基于智能合约的工业互联网数据公开审计方案,该方案基于博弈论的思想,设计一系列智能合约,以高效地抵抗参与者恶意行为.与现有抗合谋的公开审计方案相比,我们的方案不依赖于复杂的密码学工具实现对参与者恶意行为的抵抗,使得其更为高效,进而能更好地应用于海量且频繁更新的工业互联网数据场景中.特别地,本文所设计的博弈合约作为一种独立的工具,能够与现有的公开审计方案有效结合,在不降低其审计效率的同时增加方案的安全性.最后,我们在本地环境和以太坊公有测试链Ropsten上对博弈合约以及整体方案进行了一系列的测试,结果表明所设计的合约运行花费低且对运行环境适应性强,对原有完整性审计方案的效率影响小,同时与其它抗审计者恶意行为的完整性方案相比,我们的方案更为高效.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006717
    [摘要] (825) [HTML] (0) [PDF 2.20 M] (464)
    摘要:
    随着近年来开源软件的蓬勃发展,现代化软件的开发和供应模式极大地促进开源软件自身的快速迭代和演进,也提高了社会效益.新兴的开源协作的软件开发模式使得软件开发供应流程由较为单一的线条转变为复杂的网络形态.在盘根错节的开源软件供应关系中,总体安全风险趋势显著上升,日益受到学术界和产业界的重视.本文总结了开源软件供应链的关键环节,基于近10年的攻击事件总结了开源软件供应链的威胁模型和安全趋势,并通过对现有安全研究成果的调研分析,从风险识别和加固防御两个方面总结了开源软件供应链安全的研究现状,最后对开源软件供应链安全所面临的挑战和未来研究方向进行了展望和总结.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006725
    [摘要] (327) [HTML] (0) [PDF 4.43 M] (279)
    摘要:
    参与介质在自然界中广泛存在,也是包括影视特效、电子游戏、仿真系统等大多数图形应用中的主要场景元素之一,对其外观的模拟和再现可以极大的提升场景的真实感和沉浸感.但是,由于参与介质本身结构以及光线在参与介质中的传播过程都非常复杂,所以,迄今为止对参与介质渲染的研究都一直是图形领域的热点和难点.为了处理的方便和计算的高效,传统的参与介质渲染方法都基于两点假设:独立散射假设和局部连续假设.这两点假设也是经典的辐射传输方程成立的关键.但实际上,自然界中的很多参与介质都不满足这两点假设,因此导致现有的参与介质渲染方法生成的图片效果和真实世界的效果存在一定的差异.近年来,研究者们提出了各种非经典参与介质渲染方法,试图打破上述的两点假设,用更符合物理客观规律的方式来处理参与介质,从而进一步提升参与介质渲染的物理真实感.本文从相干介质渲染技术和离散介质渲染技术两方面展开对现有的面向非经典参与介质的渲染方法进行分析和讨论,重点阐述经典和非经典参与介质渲染方法的区别,以及现有非经典参与介质渲染方法的原理、优势和不足.最后,展望一些开放性问题并进行总结.本综述希望能启发相关领域的研究人员进一步攻克非经典参与介质渲染技术中的关键问题和技术难点,也为工业界改进现有渲染器以提高参与介质渲染的真实感提供参考.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006732
    [摘要] (165) [HTML] (0) [PDF 3.82 M] (222)
    摘要:
    随着数据规模扩大化和结构多样化的趋势日益凸现,如何利用现代链路内链的异构多协处理器为大规模数据处理提供实时、可靠的并行运行时环境已经成为高性能以及数据库领域的研究热点.利用多块协处理器(GPU)设备的现代服务器(Multi-GPU Server)硬件架构环境已经成为分析大规模、非规则性图数据的首选高性能平台.现有研究工作基于Multi-GPU服务器架构设计的图计算系统和算法(如广度优先遍历和最短路径算法),整体性能已显著优于多核CPU计算环境.然而,这类图计算系统中多GPU协处理器间的图分块数据传输性能受限于PCI-E总线带宽和局部延迟,导致通过增加GPU设备数量无法达到整体系统性能的类线性增长趋势,甚至会出现严重的时延抖动,进而已无法满足大规模图并行计算系统的高可扩展性要求.经过一系列基准实验验证,发现现有系统存在如下两类缺陷:1)现代GPU设备间数据通路的硬件架构发展日益更新(如NVLink-V1,NVLink-V2),其链路带宽和延迟得到大幅改进,然而现有系统受限于PCI-E总线进行数据分块通信,无法充分利用现代GPU链路资源(包括链路拓扑、连通性和路由);2)在应对不规则图数据集时,这类系统常采用过于单一的设备间数据组织和移动策略,带来大量不必要GPU设备间经PCI-E总线的数据同步开销,导致本地性计算同步等待时延开销过大.因此,充分地利用各类现代Multi-GPU服务器通信链路架构来设计可扩展性强的图数据高性能计算系统亟待解决.为了达到Multi-GPU下图计算系统的高可扩展性,提出了一种基于混合感知的细粒度通信来增强Multi-GPU图计算系统的可伸缩性,即采用架构链路预感知技术对图结构化数据采用模块化数据链路和通信策略,为大规模图数据(结构型数据、应用型数据)最优化选择数据交换方法.综合上述优化策略,本文提出并设计了一种面向Multi-GPU图并行计算系统ChattyGraph.通过对GPU图数据缓冲区优化,基于OPENMP与NCCL优化多核GPU协同计算,ChattyGraph能在Multi-GPU HPC平台上自适应、高效地支持各类图并行计算应用和算法.在8-GPU NVIDIA DGX服务器上,对各种真实世界图数据的若干实验评估表明,ChattyGraph显著实现图计算效率和可扩展性的提升,并优于其他最先进的竞争对手性能,计算效率平均提升了1.2-1.5X和加速比平均提升了2-3X,包括WS-VR和Groute.
    优先出版日期:  2022-07-22 , DOI: 10.13328/j.cnki.jos.006486
    [摘要] (145) [HTML] (0) [PDF 4.54 M] (225)
    摘要:
    网络表示学习被认为是提高信息网络分析效率的关键技术之一, 旨在将网络中每个节点映射为低维隐空间中的向量表示, 并使这些向量高效的保持原网络的结构和特性. 近年来, 大量研究致力于网络拓扑和节点属性的深度挖掘, 并在一些网络分析任务中取得了良好应用效果. 事实上, 在这两类关键信息之外, 真实网络中广泛存在的伴随信息, 反映了网络中复杂微妙的各种关系, 对网络的形成和演化起着重要作用. 为提高网络表示学习的有效性, 提出了一种能够融合伴随信息的网络表示学习模型NRLIAI. 该模型以变分自编码器(VAE)作为信息传播和处理的框架, 在编码器中利用图卷积算子进行网络拓扑和节点属性的聚合与映射, 在解码器中完成网络的重构, 并融合伴随信息对网络表示学习过程进行指导. 该模型克服了现有方法无法有效利用伴随信息的缺点, 同时具有一定的生成能力, 能减轻表示学习过程中的过拟合问题. 在真实网络数据集上, 通过节点分类和链路预测任务对NRLIAI模型与几种现有方法进行了对比实验, 实验结果验证了该模型的有效性.
    优先出版日期:  2022-07-15 , DOI: 10.13328/j.cnki.jos.006412
    [摘要] (123) [HTML] (0) [PDF 5.86 M] (244)
    摘要:
    问句匹配是问答系统的重要任务, 当前方法通常采用神经网络建模两个句子的语义匹配程度. 但是, 在法律领域中, 问句常存在文本表征稀疏、法律词的专业性较强、句子蕴含法律知识不足等问题. 因此, 通用领域的深度学习文本匹配模型在法律问句匹配任务上效果并不好. 为了让模型更好的理解法律问句的含义、建模法律领域知识, 首先构建一个法律领域知识库, 在此基础上提出一种融合法律领域知识(如法律词汇和法律法条)的问句匹配模型. 具体地, 构建了合同纠纷、离婚、交通事故、劳动工伤、债务债权等5种法律纠纷类别下的法律词典, 并且收集了相关法律法条, 构建法律领域知识库. 在问句匹配中, 首先查询法律知识库检索问句对所对应的法律词汇和法律法条, 进而通过交叉关注模型同时建模问句、法律词汇、法律法条三者之间的关联, 最终实现更精准的问句匹配, 在多个法律类别下的实验表明提出的方法能有效提升问句匹配性能.
    优先出版日期:  2022-07-15 , DOI: 10.13328/j.cnki.jos.006413
    [摘要] (109) [HTML] (0) [PDF 2.62 M] (224)
    摘要:
    语音翻译旨在将一种语言的语音翻译成另一种语言的语音或文本. 相比于级联式翻译系统, 端到端的语音翻译方法具有时间延迟低、错误累积少和存储空间小等优势, 因此越来越多地受到研究者们的关注. 但是, 端到端的语音翻译方法不仅需要处理较长的语音序列, 提取其中的声学信息, 而且需要学习源语言语音和目标语言文本之间的对齐关系, 从而导致建模困难, 且性能欠佳. 提出了一种跨模态信息融合的端到端的语音翻译方法, 该方法将文本机器翻译与语音翻译模型深度结合, 针对语音序列长度与文本序列长度不一致的问题, 通过过滤声学表示中的冗余信息, 使过滤后的声学状态序列长度与对应的文本序列尽可能一致; 针对对齐关系难学习的问题, 采用基于参数共享的方法将文本机器翻译模型嵌入到语音翻译模型中, 并通过多任务训练方法学习源语言语音与目标语言文本之间的对齐关系. 在公开的语音翻译数据集上进行的实验表明, 所提方法可以显著提升语音翻译的性能.
    优先出版日期:  2022-07-15 , DOI: 10.13328/j.cnki.jos.006414
    [摘要] (112) [HTML] (0) [PDF 5.17 M] (231)
    摘要:
    在数据量与数据复杂度不断增加的时代, 大数据处理与分析成为当前的热门研究内容, 高维空间数据的使用越来越频繁, 数据检索和访问速度成了衡量数据处理系统性能的重要指标. 因此, 如何设计实现一种高效的高维索引结构, 提高查询访问速率、降低内存占用, 变得至关重要. 近年, Kraska等人提出了学习型索引的方法. 实验证明该方法在真实数据集上表现良好. 之后机器学习与深度学习在数据库系统中的运用越来越广泛. 众多研究者尝试在高维数据上构建学习型索引, 来提升高维数据的查询速度. 但是目前的高维学习型索引采用的方法并不能将数据分布的信息有效利用起来, 而且过于复杂的深度学习模型使得索引初始化开销过大. 结合空间区域划分与降维两种技术, 提出一种新颖的高维学习型索引. 它能更有效地利用数据分布信息提高索引的查询效率, 并利用多段线性模型在保证查找精确度的前提下尽可能减少索引初始化的开销. 分别在随机生成的数据集和开源街区地图数据集上进行实验验证. 结果表明, 与现有的高维索引相比, 其在索引构建、查询效率、以及内存占用方面都有显著提高.
    优先出版日期:  2022-07-15 , DOI: 10.13328/j.cnki.jos.006416
    [摘要] (122) [HTML] (0) [PDF 9.53 M] (251)
    摘要:
    随着网联车辆的快速发展和开放化, 智能信号灯规划系统承受着巨大的网络攻击风险. 已有相关研究发现, 定频数据污染对规划脆弱性的攻击造成了交通拥堵爆增, 但缺乏对降频污染攻击的全时序拥堵态势量化与分析, 在检测预警与持续对抗方面有一定的局限性. 将开源智能信号灯规划系统I-SIG及其规划算法COP作为研究对象, 提出一种面向多个降频污染攻击的统一拥堵态势量化与分析框架, 构造态势发展的时空序列三阶张量空间, 并设计极值分析、平稳性分析和关联性分析, 实现基于函数依赖关系的一体化分析方法. 在交通模拟环境VISSIM平台上, 验证了该量化分析的有效性并报告新发现.
    优先出版日期:  2022-07-15 , DOI: 10.13328/j.cnki.jos.006417
    [摘要] (201) [HTML] (0) [PDF 7.46 M] (291)
    摘要:
    移动边缘计算(mobile edge computing, MEC)是一种高效的技术, 通过将计算密集型任务从移动设备卸载到边缘服务器, 使终端用户实现高带宽、低时延的目标. 移动边缘计算环境下的计算卸载在减轻用户负载和增强终端计算能力等方面发挥着重要作用. 考虑了服务缓存, 提出一种云-边-端协同的计算卸载框架, 在该框架中引入D2D (device-to-device, D2D)通信和机会网络. 基于建立的模型, 将计算卸载决策问题转化为一个混合整数非线性规划问题, 并对无线特性和移动用户之间的非合作博弈交互制定了一个迭代机制来共同确定计算卸载方案. 对提出的计算卸载算法从理论上证明了多用户计算卸载博弈模型为严格势力场博弈(exact potential game, EPG), 卸载决策可获得全网范围内的最优效益. 考虑到服务器的计算资源、卸载任务数据量和任务延迟需求, 提出对用户和MEC服务器之间最佳用户关联匹配算法. 最后, 模拟结果表明, 卸载决策算法具有较快的收敛速度, 并在能效方面优于其它基准算法.
    优先出版日期:  2022-07-07 , DOI: 10.13328/j.cnki.jos.006403
    [摘要] (145) [HTML] (0) [PDF 7.34 M] (266)
    摘要:
    深度神经网络已经在自动驾驶和智能医疗等领域取得了广泛的应用. 与传统软件一样, 深度神经网络也不可避免地包含缺陷, 如果做出错误决定, 可能会造成严重后果. 因此, 深度神经网络的质量保障受到了广泛关注. 然而, 深度神经网络与传统软件存在较大差异, 传统软件质量保障方法无法直接应用于深度神经网络, 需要设计有针对性的质量保障方法. 软件缺陷定位是保障软件质量的重要方法之一, 基于频谱的缺陷定位方法在传统软件的缺陷定位中取得了很好的效果, 但无法直接应用于深度神经网络. 在传统软件缺陷定位方法的基础上提出了一种基于频谱的深度神经网络缺陷定位方法Deep-SBFL. 该方法首先通过收集深度神经网络的神经元输出信息和预测结果作为频谱信息; 然后将频谱信息进行处理作为贡献信息, 以用于量化神经元对预测结果所做的贡献; 最后提出了针对深度神经网络缺陷定位的怀疑度公式, 基于贡献信息计算深度神经网络中神经元的怀疑度并进行排序, 以找出最有可能存在缺陷的神经元. 为验证该方法的有效性, 以EInspect@n (结果排序列表前n个位置内成功定位的缺陷数)和EXAM (在找到缺陷元素之前必须检查元素的百分比)作为评测指标, 在使用MNIST数据集训练的深度神经网络上进行了实验. 结果表明, 该方法可有效定位深度神经网络中不同类型的缺陷.
    优先出版日期:  2022-07-07 , DOI: 10.13328/j.cnki.jos.006404
    [摘要] (210) [HTML] (0) [PDF 8.59 M] (293)
    摘要:
    如何在海量数据集中提高频繁项集的挖掘效率是目前研究的热点. 随着数据量的不断增长, 使用传统算法产生频繁项集的计算代价依然很高. 为此, 提出一种基于Spark的频繁项集快速挖掘算法(fast mining algorithm of frequent itemset based on spark, Fmafibs), 利用位运算速度快的特点, 设计了一种新颖的模式增长策略. 该算法首先采用位串表达项集, 利用位运算来快速生成候选项集; 其次, 针对超长位串计算效率低的问题, 考虑将事务垂直分组处理, 将同一事务不同组之间的频繁项集通过连接获得候选项集, 最后进行聚合筛选得到最终频繁项集. 算法在Spark环境下, 以频繁项集挖掘领域基准数据集进行实验验证. 实验结果表明所提方法在保证挖掘结果准确的同时, 有效地提高了挖掘效率.
    优先出版日期:  2022-07-07 , DOI: 10.13328/j.cnki.jos.006405
    [摘要] (244) [HTML] (0) [PDF 5.15 M] (287)
    摘要:
    稀疏性问题一直是推荐系统面临的主要挑战, 而信息融合推荐可以利用用户的评论、评分以及信任等信息发掘用户的偏好来缓解这一问题, 从而为目标用户生成相应的推荐. 用户、项目信息的充分学习是构建一个成功推荐系统的关键. 但不同用户对不同项目有不同的偏好, 且用户的兴趣偏好及社交圈是动态变化的. 提出一种结合深度学习与信息融合的推荐方法来解决稀疏性等问题. 特别地, 构建了一种新的深度学习模型——结合注意力卷积神经网络(attention CNN)与图神经网络(GNN)的信息融合推荐模型ACGIF. 首先, 在CNN中加入注意力机制来处理评论信息, 从评论信息中学习用户和项目的个性化表示. 根据评论编码学习评论表示, 通过用户/项目编码学习评论中用户/项目表示. 加入个性化注意力机制来筛选不同重要性级别的评论. 然后, 利用GNN来处理评分和信任信息. 对于每个用户来说, 扩散过程从最初的嵌入开始, 融合相关特性和捕获潜在行为偏好的自由用户潜在向量. 设计了一个分层的影响传播结构, 以模拟用户的潜在嵌入如何随着社交扩散过程的继续而演变. 最后, 对前两部分得到的用户对项目的偏好向量进行加权融合, 获得最终的用户对于项目的偏好向量. 在4组公开数据集上, 以推荐结果的MAE和RMSE作为评估指标进行了实验验证. 结果表明, 与现有的7个典型推荐模型相比, 本文模型的推荐效果和运行时间均占优.
    优先出版日期:  2022-07-07 , DOI: 10.13328/j.cnki.jos.006406
    [摘要] (114) [HTML] (0) [PDF 7.23 M] (224)
    摘要:
    从案件相关的话题评论中生成简短的话题描述对于快速了解案件舆情有着重要作用, 其可以看做是基于用户评论的多文档摘要任务. 然而用户评论中含有较多噪声且生成摘要所需的重要信息分散在不同的评论句中, 直接基于序列模型容易生成错误或不相关的摘要. 为了缓解上述问题, 提出一种基于主题交互图的案件话题摘要方法, 将嘈杂的用户评论组织为主题交互图, 利用图来表达不同用户评论之间的关联关系, 从而过滤重要的用户评论信息. 具体来说, 首先从评论句中抽取案件要素, 然后构造以案件要素为节点, 包含案件要素的句子为内容的主题交互图; 然后利用图Transformer网络生成图中节点的表征, 最后生成简短的话题描述. 在收集的案件话题摘要数据集上的实验结果表明, 所提方法是一种有效的数据选择方法, 能够生成连贯、事实正确的话题摘要.
    优先出版日期:  2022-07-07 , DOI: 10.13328/j.cnki.jos.006408
    [摘要] (140) [HTML] (0) [PDF 6.53 M] (261)
    摘要:
    微博评价对象识别是涉案网络舆情分析的基础. 目前基于主题表征的评价对象识别方法需要预设固定的主题数目, 且最终评价对象识别依赖人工推断. 针对此问题, 提出一种弱监督涉案微博评价对象识别方法, 仅采用少量标签评论即可实现对评价对象的自动识别. 具体实现思路为: 首先基于变分双主题表征网络对评论进行两次编码和重构, 获得丰富的主题特征; 然后, 利用少量标签评论, 引导主题表征网络自动判别评价对象类别; 最后采用联合训练策略, 对双主题表征的重构损失与评价对象分类损失进行联合调优, 最终实现对评价对象的自动分类和评价对象词项的挖掘. 在涉案舆情的两个数据集上进行了实验, 结果表明, 所提出的模型在评价对象分类、评价对象词项的主题连贯性和多样性等方面均优于几个基线模型.
    优先出版日期:  2022-06-15 , DOI: 10.13328/j.cnki.jos.006397
    [摘要] (280) [HTML] (0) [PDF 7.52 M] (287)
    摘要:
    隐私集合交集(private set intersection, PSI)是隐私计算中的热点, 其允许参与两方在不泄露任何额外信息的要求下计算交集. 现有的隐私集合交集计算方案对参与双方的计算能力要求高, 且计算能力差的参与方无法在保证集合数据隐私的前提下将计算安全外包给云服务器. 设计了一种新的不经意两方分布式伪随机函数, 允许半可信的云服务器参与相等性测试, 又不泄露参与方任何集合信息. 基于该不经意伪随机函数构建了半可信云服务器辅助的隐私集合交集计算协议, 将主要计算量外包给云服务器. 在半诚实模型下证明了协议的安全性. 同时, 该协议可保密地计算隐私集合交集的基数. 通过与现有协议分析与实验性能比较, 该协议效率高, 计算复杂度与通信复杂度均与集合大小呈线性关系, 适用于客户端设备受限的应用场景.
    优先出版日期:  2022-06-15 , DOI: 10.13328/j.cnki.jos.006399
    [摘要] (155) [HTML] (0) [PDF 6.18 M] (308)
    摘要:
    稠密深度图在自动驾驶和机器人等领域至关重要, 但是现今的深度传感器只能产生稀疏的深度测量, 所以有必要对其进行补全. 在所有辅助模态中, RGB图像是常用且易得的信息. 现今的许多方法都采用RGB和稀疏深度信息结合进行补全. 然而它们绝大部分都是利用通道拼接或逐元素求和简单的对两种模态的信息进行融合, 没有考虑到不用场景下不同模态特征的置信度. 本文提出了一种以输入深度稀疏分布为指导, 结合双模态信息量的动态门控融合模块, 通过动态产生融合权重的方式对两个模态特征进行更高效的结合. 并且根据不同模态的数据特征设计了精简的网络结构. 实验结果表明了所提出模块和改进的有效性, 提出的网络在两个有挑战性的公开数据集KITTI depth completion和NYU depth v2上, 使用了很少的参数量达到了先进的结果, 取得了性能和速度的优秀平衡.
    优先出版日期:  2022-06-15 , DOI: 10.13328/j.cnki.jos.006400
    [摘要] (164) [HTML] (0) [PDF 7.02 M] (270)
    摘要:
    现实世界中高维数据无处不在, 然而在高维数据中往往存在大量的冗余和噪声信息, 这导致很多传统聚类算法在对高维数据聚类时不能获得很好的性能. 实践中发现高维数据的类簇结构往往嵌入在较低维的子空间中. 因而, 降维成为挖掘高维数据类簇结构的关键技术. 在众多降维方法中, 基于图的降维方法是研究的热点. 然而, 大部分基于图的降维算法存在以下两个问题: (1)需要计算或者学习邻接图, 计算复杂度高; (2)降维的过程中没有考虑降维后的用途. 针对这两个问题, 提出了一种基于极大熵的快速无监督降维算法-MEDR. MEDR算法融合线性投影和极大熵聚类模型, 通过一种有效的迭代优化算法寻找高维数据嵌入在低维子空间的潜在最优类簇结构. MEDR算法不需事先输入邻接图, 具有样本个数的线性时间复杂度. 在真实数据集上的实验结果表明, 与传统的降维方法相比, MEDR算法能够找到更好的将高维数据投影到低维子空间的投影矩阵, 使投影后的数据有利于聚类.
    优先出版日期:  2022-06-15 , DOI: 10.13328/j.cnki.jos.006401
    [摘要] (141) [HTML] (0) [PDF 7.53 M] (267)
    摘要:
    为了降低缺陷定位过程中的人力成本, 研究者们在缺陷报告的基础上提出了许多基于信息检索的缺陷定位模型, 包括使用传统特征和使用深度学习特征进行建模的定位模型. 在评价不同缺陷定位模型时设计的实验中, 现有研究大多忽视了缺陷报告所属的版本与目标源代码的版本之间存在的“版本失配”问题或/和在训练和测试模型时缺陷报告的时间顺序所引发的“数据泄露”问题. 本文致力于报告现有模型在更加真实的应用场景下的性能表现, 并分析版本失配和数据泄露问题对评估各模型真实性能产生的影响. 选取6个使用传统特征的定位模型(BugLocator、BRTracer、BLUiR、AmaLgam、BLIA、Locus)和1个使用深度学习特征的定位模型(CodeBERT)作为研究对象. 在5个不同实验设置下基于8个开源项目进行系统性的实证分析. 首先, CodeBERT模型直接应用于缺陷定位效果并不理想, 其定位的准确率依赖于目标项目的版本数目和源代码规模. 其次, 版本匹配设置下使用传统特征的定位模型在平均准确率均值(MAP)、平均序位倒数均值(MRR)两个指标上比版本失配实验设置下最高可以提高47.2%和46.0%, CodeBERT模型的效果也受到数据泄露和版本匹配的双重影响. 使用传统特征的缺陷定位模型的性能被低估, 而使用深度学习特征的CodeBERT模型在应用于缺陷定位任务时还需要更多的探索和验证.
    优先出版日期:  2022-06-06 , DOI: 10.13328/j.cnki.jos.006642
    [摘要] (176) [HTML] (0) [PDF 1.25 M] (249)
    摘要:
    多接入边缘计算(MEC)中的计算卸载问题已经成为了当前研究的热点之一.目前的计算卸载方案仅考虑云、边、端结构中的计算卸载问题,而未考虑到其公、私有云的属性.本文提出了一种新的计算卸载方案,该方案考虑了边缘计算中公有云与私有云之间的关系,将公有云作为了私有云资源的补充,可以缓解由于私有云资源局限性带来的算力不足问题;并通过建立双层Stackelberg博弈来解决计算卸载问题.对公有云、私有云、以及用户的策略和收益进行了分析,求出了各参与人的最优策略,证明了双层博弈的纳什均衡解的存在性及唯一性.仿真结果和分析也验证了基于双层Stackelberg博弈的计算卸载方案的可行性,且相较基于单层Stackelberg博弈的卸载方案更高效,更适合可扩展的边缘计算的环境.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006645
    [摘要] (455) [HTML] (0) [PDF 1.17 M] (511)
    摘要:
    事件抽取是从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息,并以结构化的形式表示出来.事件抽取是自然语言处理与理解中的重要方向,在政府公共事务管理、金融业务、生物医学等不同领域有着很高的应用价值.根据对人工标注数据的依赖程度,目前基于深度学习的事件抽取方法主要分为两类:有监督和远程监督学习方法.本文对当前深度学习中事件抽取技术进行了全面的综述.围绕有监督中CNN、RNN、GAN、GCN与远程监督等方法,系统地总结了近几年的研究情况,并对不同的深度学习模型的性能进行了详细对比与分析.最后,对事件抽取面临的挑战进行了分析,针对研究趋势进行了展望.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006650
    [摘要] (144) [HTML] (0) [PDF 1.13 M] (321)
    摘要:
    篇章结构分析旨在理解文章的整体结构及其各部分之间的语义联系.作为自然语言处理的研究热点,近年来篇章结构分析研究发展迅速.本文首先总结英语和汉语中篇章结构分析理论,然后介绍相关篇章语料库及其计算模型的研究.在此基础上,本文梳理了当前英语、汉语中篇章结构分析的相关工作脉络,构建了篇章结构分析研究框架,归纳总结出当前研究的趋势和热点.然后,简要介绍篇章结构在下游任务中的应用.最后,指出当前汉语篇章结构分析存在的问题与挑战,为今后的研究提供指导和帮助.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006657
    摘要:
    格分析是一种利用格困难问题的求解算法分析公钥密码安全性的分析方法,是研究RSA类密码算法安全性的有力数学工具之一.格分析的关键在于构造格基,2006年,Jochemsz和May提出了通用格基构造策略,然而,这种通用方法无法充分、灵活地利用RSA及其变体的代数结构.近年来,RSA类算法的格分析工作大多在通用策略的基础上引入特殊格基构造技巧.本文首先介绍了格分析方法以及通用格基构造策略,并总结提炼了几种常用格基构造技巧;其次,回顾了标准RSA算法格分析的主要成果,即模数分解攻击、小解密指数攻击以及部分私钥泄漏攻击;然后,总结了几种主流RSA变体算法的特殊代数结构,及其适用的特殊格基构造技巧;最后,对现有RSA及其变体算法的格分析工作进行了分类总结,并展望了格分析方法的研究与发展方向.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006684
    摘要:
    分布式系统在计算环境中发挥重要的作用,其中的共识协议算法用于保证节点间行为的一致性。共识协议的设计错误可能导致系统运行故障,严重时可能对人员和环境造成灾难性的后果,因此保证共识协议设计的正确性非常重要。形式化验证能够严格证明设计模型中目标性质的正确性,适合用于验证共识协议。然而,随着分布式系统的规模增大,问题复杂度提升,使得分布式共识协议的形式化验证更为困难。采用什么方法对共识协议的设计进行形式化验证、如何提升验证规模,是共识协议形式化验证的重要研究问题。本文对目前采用形式化方法验证共识协议的研究工作进行了调研,总结了其中提出的重要建模方法和关键验证技术,并展望了该领域未来有潜力的研究方向。
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006686
    [摘要] (157) [HTML] (0) [PDF 1.03 M] (262)
    摘要:
    自然语言查询转SQL (NL2SQL)是指将自然语言表达的查询文本自动转化成数据库系统可以理解并执行的结构化查询语言SQL表达式的技术.NL2SQL可以为普通用户提供数据库查询访问的自然交互界面,从而实现基于数据库的自然问答.复杂查询的NL2SQL是当前数据库学术界的研究热点,主流方法采用序列到序列(Seq2seq)的编解码方式对问题进行建模,然而已有的工作大多基于英文场景,面向中文领域实际应用时,中文特殊的口语化表达导致复杂查询转化困难,此外现有工作难以正确输出包含复杂计算表达式的查询子句.针对上述问题,本文提出一种树状模型取代序列表示,将复杂查询自顶向下分解为多叉树,树结点代表SQL的各组成元素,采用深度优先搜索来预测生成SQL语句.在DuSQL中文NL2SQL竞赛的两个官方测试集中,本文方法分别取得了第一名和第二名的成绩,验证了其有效性.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006354
    [摘要] (169) [HTML] (0) [PDF 2.34 M] (305)
    摘要:
    学习型索引通过学习数据分布可以准确地预测数据存取的位置,可在保持高效稳定的查询下,显著降低索引的内存占用.现有的学习型索引主要针对只读查询进行优化,而对插入和更新支持不足.本文针对上述挑战,设计了一种基于Radix Tree的工作负载自适应学习型索引ALERT.ALERT使用Radix Tree来管理不定长的分段,段内采用具有最大误差界的线性插值模型进行预测.同时,ALERT使用一种高效的插入缓冲来降低数据插入更新的代价.本文针对点查询和范围查询提出两种自适应重组优化方法,通过对工作负载进行感知,动态地调整插入缓冲的组织结构.实验验证,ALERT与业界流行的学习型索引相比,构建时间平均降低了81%,内存占用平均降低了75%,在保持了优秀读性能的同时,使插入延迟平均降低了50%;此外,ALERT使用自适应重组优化能有效感知查询工作负载特征,与不使用自适应重组优化相比,查询延迟平均降低了15%.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006419
    [摘要] (151) [HTML] (0) [PDF 3.56 M] (287)
    摘要:
    随着云计算的发展, 越来越多的多媒体数据存储在云端, 出于安全需要, 往往需要对其加密后再上传至云端进行存储或运算等操作. 针对加密图像, 在不具备图像明文内容的情况下, 为了认证图像内容的完整性和真实性, 提出了一种基于Paillier同态加密的鲁棒图像哈希算法. 该算法主要由3个部分构成: 图像所有者端图像加密, 云服务器端密文图像哈希计算以及接收者端明文图像哈希生成. 具体地, 图像所有者对图像进行Paillier加密, 并将加密图像上传至云服务器, 由云服务器利用Paillier密码系统的运算法则执行加密域DCT与Watson人眼视觉特征等的计算, 并利用密钥控制的伪随机矩阵增加哈希的随机性, 接收者解密并分析接收到的密文哈希, 生成明文图像哈希. 实验结果表明, 所提算法在鲁棒性、唯一性和安全性上具有较理想的性能.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006666
    [摘要] (299) [HTML] (0) [PDF 1.19 M] (545)
    摘要:
    软件开发过程中,开发人员通过大量使用第三方库来实现代码复用。不同第三方库之间存在依赖关系,第三方库间的不兼容会导致第三方库的安装、加载、调用时出现错误,进而导致系统异常,这类问题称之为第三方库依赖冲突问题。依赖冲突的根本原因是加载的第三方库无法覆盖软件引用的必需特性(例如:方法)。依赖冲突问题会在第三方库的下载安装,项目编译和运行时中出现,且定位困难。依赖冲突问题的修复要求开发人员对使用的第三方库版本间差别具有准确的理解,并且第三方库之间复杂的依赖关系增加了修复难度。为了能够在软件运行前,发现软件中存在的依赖冲突,并且能够响应和处理运行过程中由依赖冲突引发的系统异常,国内外学者展开了各种针对依赖冲突问题的研究。本文从依赖冲突问题的四个方面,对当前已有研究工作进行了梳理,包括:第三方库的使用实证分析、依赖冲突原因分析、依赖冲突检测方法以及依赖冲突常用修复方式。论文最后对该领域未来值得关注的研究问题进行了展望。
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006671
    [摘要] (321) [HTML] (0) [PDF 1.26 M] (405)
    摘要:
    逆向强化学习(Inverse Reinforcement Learning,IRL)也称为逆向最优控制(Inverse Optimal Control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.该文首先介绍了逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨了未来的发展方向.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006672
    [摘要] (220) [HTML] (0) [PDF 4.15 M] (508)
    摘要:
    基于分解的演化多目标优化算法(MOEA/D)的基本思想是将一个多目标优化问题转化成一系列子问题(单目标或者多目标)来进行优化求解.自2007年提出以来,MOEA/D受到了国内外学者的广泛关注,已经成为最具代表性的演化多目标优化算法之一.本文总结了过去十三年中关于MOEA/D的一些研究进展,具体内容包括:(1)关于MOEA/D的算法改进;(2) MOEA/D在超多目标优化问题及约束优化问题上的研究;(3) MOEA/D在一些实际问题上的应用.然后,实验对比了几个具有代表性的MOEA/D改进算法.最后,指出了一些MOEA/D未来的研究方向.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006677
    [摘要] (458) [HTML] (0) [PDF 2.49 M] (346)
    摘要:
    分布式账本作为分布式数据管理的体系架构,通常在多节点之间通过共识机制来共同维护数据记录,可将数据所有权、传播过程、交易链条等相关信息完整全面地记录在分布的账本中,并在数据产生、流动的整个生命周期中,保证数据的不可篡改、不可抵赖,为确权、维权、审计提供背书.区块链是一种典型实现.随着数字货币、数据资产交易等数字经济新应用的发展,分布式账本技术得到了越来越广泛的关注,但系统性能是其大规模落地应用的一个主要瓶颈,账本性能优化成为产业界和学术界一个研究热点.本文从账本体系结构、数据结构、共识机制和消息通讯四个方面,系统地调研分析了分布式账本性能优化的主要方法、关键技术和代表性的解决方案.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006679
    [摘要] (332) [HTML] (0) [PDF 2.17 M] (409)
    摘要:
    深度学习系统具有强大的学习与推理能力,在无人驾驶、语音识别和机器人等领域应用广泛.由于数据集的限制以及依赖人工标签数据,深度学习系统易于出现非预期的行为.近年来,深度学习系统的质量问题受到广泛的关注,特别是在安全攸关的领域.由于模糊测试具有较强的故障揭示能力,运用模糊测试技术对深度学习系统进行测试成为研究热点.本文从测试用例生成(包括种子队列构建、种子选择和种子变异)、测试结果判定、覆盖分析三个方面对已有的深度学习系统的模糊测试技术进行总结,并介绍常用的数据集以及度量指标,最后对其发展方向进行展望.
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006680
    [摘要] (196) [HTML] (0) [PDF 9.92 M] (336)
    摘要:
    近年来深度学习技术在诸多计算机视觉任务上取得了令人瞩目的进步,也让越来越多的研究者尝试将其应用于医学图像处理领域,如面向高通量医学图像(CT、MRI)的解剖结构分割等,旨在为医生提供诊断辅助,提高其阅片效率。由于训练医学图像处理的深度学习模型同样需要大量的标注数据,同一医疗机构的数据往往不能满足需求,而受设备和采集协议的差异的影响,不同医疗机构的数据具有很大的异质性,这导致通过某些医疗机构的数据训练得到模型很难在其他医疗机构的数据上取得可靠的结果。此外,不同的医疗数据在患者个体病情阶段的分布上也往往是十分不均匀的,这同样会降低模型的可靠性。为了减少数据异质性的影响,提高模型的泛化能力,域适应、多站点学习等技术应运而生。其中域适应技术作为迁移学习中的研究热点,旨在将源域上学习的知识迁移到未标记的目标域数据上;多站点学习和数据非独立同分布的联邦学习技术则旨在在多个数据集上学习一个共同的表示,以提高模型的鲁棒性。本文从域适应、多站点学习和数据非独立同分布的联邦学习技术入手,对近年来的相关方法和相关数据集进行了综述、分类和总结,为相关研究提供参考。
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006681
    [摘要] (159) [HTML] (0) [PDF 2.57 M] (263)
    摘要:
    异质信息网络是一种异质数据表示形式,如何融合异质数据复杂语义信息,是推荐系统面临的挑战之一。利用弱关系具有的丰富语义和信息传递能力,构建了一种面向推荐系统的异质信息网络高阶嵌入学习框架,主要包括:初始化信息嵌入、高阶信息嵌入聚合与推荐预测三个模块。初始化信息嵌入模块首先采用基于弱关系的异质信息网络最佳信任路径筛选算法,有效地避免在全关系异质信息网络中,采样固定数量邻居造成的信息损失,其次利用新定义的基于多头图注意力的多任务共享特征重要性度量因子,筛选出节点的语义信息,并结合交互结构,有效地表征网络节点;高阶信息嵌入聚合模块通过融入弱关系及网络嵌入对知识良好的表征能力,实现了高阶信息表达,并利用异质信息网络的层级传播机制,将被采样节点的特征聚合到待预测节点;推荐预测模块利用高阶信息的影响力推荐方法,实现了推荐任务。该框架具有嵌入节点类型丰富、融合共享属性和隐式交互信息等特点。最后,实验验证了UI-HEHo学习框架有效地改善了评级预测的准确性,以及推荐生成的针对性、新颖性和多样性,尤其是在数据稀疏的应用场景中,具有良好的推荐效果。
    优先出版日期:  2022-05-24 , DOI: 10.13328/j.cnki.jos.006520
    [摘要] (201) [HTML] (0) [PDF 7.32 M] (352)
    摘要:
    针对事件抽取存在未充分利用句法关系、论元角色缺失的情况, 提出了基于双重注意力机制的事件抽取(event extraction based on dual attention mechanism, EEDAM)方法, 有助于提高事件抽取的精确率和召回率. 首先, 基于4种嵌入向量进行句子编码, 引入依赖关系, 构建依赖关系图, 使深度神经网络可以充分利用句法关系. 然后, 通过图转换注意网络生成新的依赖弧和聚合节点信息, 捕获长程依赖关系和潜在交互, 加权融合注意力网络, 捕捉句中关键的语义信息, 抽取句子级事件论元, 提升模型预测能力. 最后, 利用关键句检测和相似性排序, 进行文档级论元填充. 实验结果表明, 采用基于双重注意力机制的事件抽取方法, 在ACE2005数据集上, 较最佳基线联合多中文事件抽取器(joint multiple Chinese event extractor, JMCEE)在精确率、召回率和F1-score分别提高17.82%、4.61%、9.80%; 在大坝安全运行日志数据集上, 较最佳基线JMCEE在精确率、召回率和F1-score分别提高18.08%、4.41%、9.93%.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006535
    [摘要] (268) [HTML] (0) [PDF 7.22 M] (399)
    摘要:
    异质信息网络能够对真实世界的诸多复杂应用场景进行建模, 其表示学习研究也得到了众多学者的广泛关注. 现有的异质网络表示学习方法大多基于元路径来捕获网络中的结构和语义信息, 已经在后续的网络分析任务中取得很好的效果. 然而, 此类方法忽略了元路径的内部节点信息和不同元路径实例的重要性; 仅能捕捉到节点的局部信息. 因此, 提出互信息与多条元路径融合的异质网络表示学习方法. 首先, 利用一种称为关系旋转编码的元路径内部编码方式, 基于相邻节点和元路径上下文节点捕获异质信息网络的结构和语义信息, 采用注意力机制来建模各元路径实例的重要性; 然后, 提出一种互信息最大化与多条元路径融合的无监督异质网络表示学习方法, 使用互信息捕获全局信息以及全局信息和局部信息之间的联系. 最后, 在两个真实数据集上进行实验, 并与当前主流的算法进行比较分析. 结果表明, 所提方法在节点分类和聚类任务上性能都有提升, 甚至和一些半监督算法相比也表现出强劲性能.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006615
    摘要:
    异步程序使用异步非阻塞调用方式来实现程序的并发,被广泛应用于并行与分布式系统中.验证异步程序复杂性很高,无论是安全性还是活性均达到EXPSPACE难.本文提出一个异步程序的程序模型系统,并在其上定义了两个异步程序上的问题:等价性问题和可达性问题.通过将3-CNF-SAT规约到这两个问题,再将其规约至非交互式Petri网的可达性证明两个问题是NP完备的.案例表明,这两个问题可以解决异步程序上一系列的程序验证问题.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006616
    摘要:
    各类安全攸关系统的可靠运行离不开软件程序的正确执行.程序的演绎验证技术为程序执行的正确性提供高度保障.程序语言种类繁多,且用途覆盖高可靠性场景的新式语言不断涌现,难以为每种语言设计支撑其程序验证任务的整套逻辑规则,并证明其相对于形式语义的可靠性和完备性.语言无关的程序验证技术提供以程序语言的语义为参数的验证过程及其可靠性结果.对每种程序语言,提供其形式语义后可直接获得面向该语言的程序验证过程.本文提出一种面向大步操作语义的语言无关演绎验证技术,其核心是对不同语言中循环、递归等可导致无界行为的语法结构进行可靠推理的通用方法.特别地,借助大步操作语义的一种函数式形式化提供表达程序中子结构所执行计算的能力,从而允许借助辅助信息对子结构进行推理.本工作证明所提出验证技术的可靠性和相对完备性,通过命令式、函数式语言中的程序验证实例初步评估了该技术的有效性,并在Coq辅助证明工具中形式化了所有理论结果和验证实例,为基于辅助证明工具实现面向大步语义的语言无关程序验证工具提供了基础.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006617
    摘要:
    随着移动通信的发展,我们迎来了第五代移动通信技术(5G)。5G认证与密钥协商(5G Authentication and Key Agreement, 5G-AKA)协议的提出主要是为了实现用户和服务网络的双向鉴权。然而,最近的研究认为其可能会遭受信息破译和消息重放攻击。同时,我们发现当前5G-AKA的一些变种不能满足协议的无连接性。针对上述缺陷,我们提出了一个改进方案:SM-AKA。SM-AKA由两个并行子协议组成,通过巧妙的模式切换使更加轻量的子协议(GUTI子模块)被频繁采用,而另一个子协议(SUPI子模块)则主要用于异常发生时的鉴权。依据这种机制,它不仅实现了用户和归属网之间的高效认证,还提升了鉴权的稳定性。此外,变量的新鲜性也得到了有效维持,可以防止消息的重放,而严格的加解密方式进一步提升了协议的安全性。最后,我们对SM-AKA展开完整的评估,通过形式建模、攻击假定和Tamarin推导,我们证明了该方案可以达到鉴权和隐私目标,而理论分析部分也论证了协议性能上的优势。
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006634
    摘要:
    无线信号之间的干扰阻碍了信号的并发传输,降低了无线网络的吞吐量.链路调度是提高无线网络吞吐量、减少信号传输延迟的一种有效方法.因为SINR(Signal to Interference plus Noise Ratio)模型准确地描述了无线信号传播的固有特性,能够真实反映无线信号之间的干扰,本文提出了一种在动态无线网络中基于SINR模型的常数近似因子的在线分布式链路调度算法(简称OLD_LS).在线的意思是指,在算法执行的过程中任意节点可以随时加入网络,也可以随时离开网络.节点任意加入网络或者从网络中离开体现了无线网络的动态变化的特性.OLD_LS算法把网络区域划分为多个正六边形,局部化SINR模型的全局干扰.本文设计了动态网络下的领导者选举算法(简称LE),只要网络节点的动态变化速率小于1/ε,LE就可以在O(logn+logR)时间复杂度内以高概率选举出领导者.其中, 常数ε满足ε≤5(1-21-α/2)/6,α表示路径损耗指数,n是网络节点的规模,R是最长链路的长度.据我们所知,本文提出的算法是第一个用于动态无线网络的在线分布式链路调度算法.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006635
    摘要:
    网络测量是网络性能监控、流量管理和故障诊断等场景的基础。带内网络遥测由于具有实时性、准确性和扩展性等特点使其成为当前网络测量研究的热点。随着可编程数据面的出现和发展,丰富的信息反馈和灵活的功能部署使得国内外学者提出许多具有实用性的带内网络遥测技术方案。本文首先分析了典型的带内网络遥测方案INT和AM-PM的原理和部署挑战。根据带内网络遥测的优化措施和扩展角度,本文从数据采集流程和多任务组合方面分析了优化机制的特点,从无线网络、光网络和混合设备网络等方面分析了技术扩展的可行性。根据带内网络遥测在典型场景的应用,本文从网内性能感知、网络级遥测系统、流量调度和故障诊断几个方面对比分析其在不同场景应用特点。最后,本文对带内网络遥测研究进行总结,展望了未来的研究方向。
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006636
    摘要:
    本文针对Feistel,Misty与Type-1/2型广义Feistel等结构,创新性地将Simon算法的周期性质与生日攻击思想相结合,提出了一种新型传统密钥恢复攻击.与Simon算法可以在多项式时间内恢复周期值不同,我们在传统计算环境下至少需要生日攻击界才能恢复出对应的周期值.利用我们的新方法,本文可以在O(2n/4)的选择明文和密文条件下,以O(23n/4)的时间复杂度恢复出5轮Feistel-F结构的密钥,对应的存储复杂度为O(2n/4).上述结果比Isobe和Shibutani的工作结果多扩展了1轮,并且所需的存储复杂度也更少.对于Feistel-FK结构,本文构造了7轮密钥恢复攻击.此外,我们还将上述方法应用于构造Misty结构和Type-1/2型广义Feistel结构的密钥恢复攻击.对于不同的Misty密码方案,本文分别给出了5轮Misty L-F和Misty R-F结构的密钥恢复攻击,以及6轮Misty L-KF/FK和Misty R-KF/FK结构的密钥恢复攻击.对于d分支Type-1型广义Feistel结构,本文给出了d2轮的密钥恢复攻击.当d≥6时,本文对于d分支Type-2型广义Feistel结构的新型密钥恢复攻击轮数会优于现有密钥恢复攻击轮数.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006637
    摘要:
    软件代码注释生成是软件工程领域近期研究的一个重要问题.目前很多研究工作已经在包含大量<代码片段,注释语句>对的开源数据集上取得了较好效果.但在企业应用中,待注释的代码往往是一个软件项目库,其必须首先决策在哪些代码行上生成注释更好,而且待注释的代码片段大小、粒度各不相同,需要研究提出一种注释决策和生成一体化的、抗噪音的代码注释生成方法.针对这个问题,本文提出了一个面向软件项目的代码自动注释生成方法CoComment.该方法能够自动抽取软件项目文档中的领域基本概念,并基于代码解析与文本匹配进行概念传播和扩展.在此基础上,通过定位概念相关的代码行/段进行自动注释决策,最终利用模板融合概念和上下文生成具有高可读性的自然语言代码注释.目前CoComment已经在3个企业软件项目、超过4.6万条人工代码注释数据上进行了对比试验.结果表明,该方法不仅能够有效地进行代码注释决策,其注释内容与现有方法相比也能够提供更多有益于理解代码的信息,从而为软件项目代码的注释决策和注释生成问题提供了一种一体化的解决方案.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006638
    [摘要] (242) [HTML] (0) [PDF 1.04 M] (330)
    摘要:
    随着物联网(Internet of Things,IoT)、云计算等技术的飞速发展,便携式诊所(Portable Health Clinic,PHC)得以实现,并广泛应用于远程医疗.我国依托5G通信的大幅优势,积极推进智慧医疗的建设,搭建了多功能、高质量的远程医疗信息服务平台.以PHC为代表的远程医疗得以实现,离不开远程数据共享系统的技术支撑.目前IoT和云服务器(Cloud Server, CS)相结合(通常称为云边协同)的远程数据共享系统以其灵活性、高效性广受关注,然而其隐私和安全问题却鲜有研究.考虑到医疗数据的敏感性,本文致力于研究PHC数据共享系统的安全隐私问题,实现了PHC系统中物联网感知数据的安全上传、个性密文的归一化、云服务器上动态多用户的细粒度访问控制、高效的解密操作,并给出了形式化的安全性证明.在具体创新上,第一,本文分别对经典的代理重加密和属性基加密算法进行改进,提出了IPRE-TO-FAME组合加密机制,以保障云边协同的PHC系统数据共享的安全性.第二,为了应对物联网终端数量众多、分散性强带来的密钥更新难题,本文借鉴代理重加密(Proxy Re-encryption,PRE)的思想,实现了基于单方变换的密钥更新,即无需变换IoT终端密钥条件下的密钥更新.同时,本文应用场景中重加密方可视为完全可信,而常规PRE机制重加密方通常为不可信的第三方服务器,为此,本文改进了经典PRE算法,提出了一种高效的IPRE(Improved PRE)算法,以适应本文提出的场景;第三,改进经典的FAME(Fast Attribute-based Message Encryption)机制,实现了动态多用户的细粒度访问控制,便于用户可以随时随地使用便携式智能设备访问数据.安全性证明、理论分析和实验结果证明,本文提出的方案具有较好的安全性和较强的实用性,是一类解决PHC安全数据共享问题的有效方案.
    优先出版日期:  2022-03-24 , DOI: 10.13328/j.cnki.jos.006423
    [摘要] (394) [HTML] (0) [PDF 6.99 M] (402)
    摘要:
    离线证据加密通过将复杂的计算移到初始化算法提升加密算法的效率, 相比证据加密具有更广泛的应用. 然而, 已有的离线证据加密方案大多满足选择安全性, 即敌手在得到公共参数之前必须输出一对挑战明文$ \left( {{m_0}, {m_1}} \right) $和一个命题实例x. Chvojka等人通过引入可穿孔加密构造了半适应安全的离线证据加密方案, 该安全性允许敌手适应性选择挑战密文, 但是敌手得到公共参数$ \left( {p{p_e}, p{p_d}} \right) $之前需要输出挑战密文对应的命题实例x, 将构造完全适应安全的离线证据加密方案作为“Open Problem”提了出来. 首次构造了满足完全适应安全的离线证据加密方案. 初始化算法输出一对公共参数$ \left( {p{p_e}, p{p_d}} \right) $, 其中加密密钥$ p{p_e} $包含两个公钥, 一个公共参考串和一个承诺, 解密密钥$ p{p_d} $是一个混淆电路. 该算法只需运行一次, 公共参数可以使用任意多次. 加密算法利用密钥封装机制和证据不可区分证明系统构造一个Naor-Yung形式的密文. 通过提前选定封装的密钥解决在选择安全性中敌手需要提前输出挑战明文的问题. 另外, 我们的构造可以直接转化为适应性安全的离线函数证据加密, 密钥生成阶段将函数f嵌入到解密私钥中, 可以实现针对函数f解密私钥的可重复使用.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006492
    [摘要] (294) [HTML] (0) [PDF 7.39 M] (525)
    摘要:
    移动对象连续k近邻(CKNN)查询是指给定一个连续移动的对象集合, 对于任意一个k近邻查询q, 实时计算查询q的K近邻并在查询有效时间内对查询结果进行实时更新. 现实生活中, 交通出行、社交网络、电子商务等领域许多基于位置的应用服务都涉及移动对象连续k近邻查询这一基础问题. 已有研究工作解决连续k近邻查询问题时, 大多需要通过多次迭代确定一个包含k近邻的查询范围, 而每次迭代需要根据移动对象的位置计算当前查询范围内移动对象的数量, 整个迭代过程的计算代价占查询代价的很大部分. 为此, 提出了一种基于网络索引和混合高斯函数移动对象分布密度的双重索引结构(grid GMM index, GGI), 并设计了移动对象连续k近邻增量查询算法(incremental search for continuous k nearest neighbors, IS-CKNN). GGI索引结构的底层采用网格索引对海量移动对象进行维护, 上层构建混合高斯模型模拟移动对象在二维空间中的分布. 对于给定的k近邻查询q, IS-CKNN算法能够基于混合高斯模型直接确定一个包含qk近邻的查询区域, 减少了已有算法求解该区域的多次迭代过程; 当移动对象和查询q位置发生变化时, 进一步提出一种高效的增量查询策略, 能够最大限度地利用已有查询结果减少当前查询的计算量. 最后, 在滴滴成都网约车数据集以及两个模拟数据集上进行大量实验, 充分验证了算法的性能.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006594
    [摘要] (353) [HTML] (0) [PDF 2.44 M] (760)
    摘要:
    为汽车自动驾驶提供安全高效的自动驾驶行为决策, 是汽车自动驾驶领域面临的挑战性问题之一.目前, 随着自动驾驶行业的蓬勃发展, 工业界与学术界提出了诸多自动驾驶行为决策方法, 但由于汽车自动驾驶行为决策受环境不确定因素的影响, 决策本身也要求实效性及高安全性, 现有的行为决策方法难以完全支撑这些要素.针对以上问题, 本文提出了一种基于贝叶斯网络构建RoboSim模型的自动驾驶行为决策方法.首先, 基于领域本体分析自动驾驶场景元素之间的语义关系, 并结合LSTM模型预测场景中动态实体的意图, 进而为构建贝叶斯网络提供驾驶场景理解信息; 然后, 通过贝叶斯网络推理特定场景的自动驾驶行为决策, 并使用RoboSim模型的状态迁移承载行为决策的动态执行过程, 以减少贝叶斯网络推理的冗余操作, 提高了决策生成的效率.RoboSim模型具有平台无关、能模拟仿真执行周期的特点, 并支持多种形式化的验证技术.为确保行为决策的安全性, 本文使用模型检测工具UPPAAL对RoboSim模型进行验证分析.最后, 结合变道超车场景案例, 进一步证实本文所提方法的可行性, 为设计安全、高效的自动驾驶行为决策提供了一种可行的途径.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006614
    [摘要] (268) [HTML] (0) [PDF 1.35 M] (521)
    摘要:
    自动机的确定化是将非确定性自动机转换为接收相同语言的确定性自动机, 是自动机理论的基本问题之一.ω自动机的确定化是诸多逻辑, 如SnS, CTL*, μ演算等, 判定过程的基础, 同时也是解决无限博弈求解问题的关键, 因此对ω自动机确定化的研究具有重要意义.我们主要关注一类ω自动机——Streett自动机的确定化.非确定性Streett自动机可以转换为等价的确定性Rabin或parity自动机, 我们在前期工作中已经分别得到了状态复杂度最优以及渐进最优算法, 为了验证提出的算法的实际效果, 也为了形象地展示确定化过程, 开发一款支持Streett自动机确定化的工具是必要的.本文首先介绍四种不同的Streett确定化结构: μ-Safra tree和H-Safra tree(最优)将Streett确定化为Rabin自动机, compact Streett Safra tree和LIR-H-Safra tree(渐进最优)将Streett确定化为parity自动机; 然后, 根据Streett确定化算法, 基于开源工具GOAL(Graphical Tool for Omega-Automata and Logics), 实现了Streett确定化工具NS2DR & PT, 以支持上述四种结构; 最后, 通过随机生成100个Streett自动机, 构造相应的测试集, 进行对比实验, 结果表明各结构状态复杂度的实际效果与理论论证一致, 此外, 对运行效率也进行了比较分析.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006595
    [摘要] (272) [HTML] (0) [PDF 1.54 M] (558)
    摘要:
    ARM针对Armv8.1-M微处理器架构推出基于M-Profile向量化扩展方案的技术, 并命名为Arm Helium, 声明能为Arm Cortex-M处理器提升达15倍的机器学习性能. 随着物联网的高速发展, 微处理器指令执行正确性尤为重要. 指令集的官方手册作为芯片模拟程序, 片上应用程序开发的依据, 是程序正确性基本保障. 本文主要介绍利用可执行语义框架K Framework对Armv8.1-M官方参考手册中向量化机器学习指令的语义正确性研究. 基于Armv8.1-M的官方参考手册自动提取指令集中描述向量化机器学习指令执行过程的伪代码, 并将其转换为形式化语义转换规则. 通过K Framework提供的可执行框架利用测试用例, 验证机器学习指令算数运算执行的正确性.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006612
    [摘要] (340) [HTML] (0) [PDF 8.68 M] (533)
    摘要:
    可信执行环境的安全问题一直受到国内外学者的关注.利用内存标签技术可以在可信执行环境中实现更细粒度的内存隔离和访问控制机制, 但已有方案往往依赖于测试或者经验分析表明其有效性, 缺乏严格的正确性和安全性保证.本文针对内存标签实现的访问控制提出了通用的形式化模型框架, 并提出了一种基于模型检测的访问控制安全性分析方法.首先, 利用形式化方法构建了基于内存标签的可信执行环境访问控制通用模型框架, 给出访问控制实体的形式化定义, 定义的规则包括访问控制规则和标签更新规则; 然后利用形式化语言B以递增的方式设计并实现了该框架的抽象机模型, 通过不变式约束形式化描述了模型的基本性质; 再次以可信执行环境的一个具体实现TIMBER-V为应用实例, 通过实例化抽象机模型构建TIMBER-V访问控制模型, 添加安全性质规约并运用模型检测验证了模型的功能正确性和安全性; 最后模拟了具体攻击场景并实现攻击检测, 评估结果表明了本文提出的安全性分析方法的有效性.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006538
    [摘要] (403) [HTML] (0) [PDF 1.82 M] (588)
    摘要:
    现有恶意软件相似性度量易受混淆技术影响, 同时缺少恶意软件间复杂关系的表征能力, 提出一种基于多重异质图的恶意软件相似性度量方法RG-MHPE (API relation graph enhanced multiple heterogeneous ProxEmbed)解决上述问题. 方法首先利用恶意软件动静态特征构建多重异质图, 然后提出基于关系路径的增强型邻近嵌入方法, 解决邻近嵌入无法应用于多重异质图相似性度量的问题. 此外, 从MSDN网站的API文档中提取知识, 构建API关系图, 学习Windows API间的相似关系, 有效减缓相似性度量模型老化速度. 最后, 通过对比实验验证所提方法RG-MHPE在相似性度量性能和模型抗老化能力等方面表现最好.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006593
    [摘要] (356) [HTML] (0) [PDF 1.77 M] (653)
    摘要:
    近年来, 深度强化学习在序列决策领域被广泛应用并且效果良好, 尤其在具有高维输入、大规模状态空间的应用场景中优势明显.然而, 深度强化学习相关方法也存在一些局限, 如缺乏可解释性、初期训练低效与冷启动等问题.针对这些问题, 我们提出了一种基于显式知识推理和深度强化学习的动态决策框架, 将显式的知识推理与深度强化学习结合.该框架通过显式知识表示将人类先验知识嵌入智能体训练中, 让智能体在强化学习中获得知识推理结果的干预, 以提高智能体的训练效率, 并增加模型的可解释性.本文中的显式知识分为两种, 即启发式加速知识与规避式安全知识.前者在训练初期干预智能体决策, 加快训练速度; 而后者将避免智能体作出灾难性决策, 使其训练过程更为稳定.实验表明, 该决策框架在不同强化学习算法上、不同应用场景中明显提高了模型训练效率, 并增加了模型的可解释性.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006552
    摘要:
    随着新兴技术的迅速发展, 领域软件对开发效率提出了新的要求.Datalog语言作为一门具有简洁语法和良好语义的声明式编程语言, 能帮助开发人员快速开发和解决问题, 近年来越来越受到重视与欢迎.但解决真实场景问题时, 现有的单机Datalog引擎计算规模往往受限于内存容量大小, 不具有可扩展性.为解决上述问题, 本文设计并实现了基于核外计算的Datalog引擎.方法首先设计了一系列计算Datalog程序所需的支持核外计算的操作算子, 然后将Datalog程序转换合成带核外计算算子的C++程序, 接着方法设计了基于Hash的分区策略和基于搜索树剪枝的最少置换调度策略, 将相应的分区文件调度执行计算并得到最终结果.基于该方法, 实现了原型工具DDL(Disk-Based DataLog Engine), 并选取广泛应用的真实Datalog程序, 在合成数据集以及真实数据集上进行实验, 实验结果体现了DDL良好性能以及高可扩展性.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006618
    摘要:
    数据竞争是多线程程序的常见漏洞之一,传统的数据竞争分析方法在查全率和准确率方面难以两全,而且所生成检测报告难以定位漏洞的根源.鉴于Petri网在并发系统建模和分析方面具有行为描述精确、分析工具丰富的优点,提出一种基于Petri网展开的新型数据竞争检测方法.首先,对程序的某一运行轨迹进行分析和挖掘,构建程序的一个Petri网模型,它由单一轨迹挖掘得到,却可隐含程序的多个不同运行轨迹,由此可在保证效率的同时降低传统动态分析方法的漏报率;其次,提出基于Petri网展开的潜在数据竞争检测方法,相比静态分析方法在有效性上有较大提升,而且能明确给出数据竞争的产生路径;最后,对上一阶段检测到的潜在数据竞争,给出基于CalFuzzer平台的潜在死锁重演调度方法,可剔除误报,保证数据竞争检测结果的真实性.开发相应的原型系统,结合公开的程序实例验证了所提方法的有效性.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006558
    [摘要] (420) [HTML] (0) [PDF 1.13 M] (608)
    摘要:
    特征请求是软件产品的真实用户在开放平台上提出的对现有特征的改进或者对新特征的请求.特征请求在一定程度上反应了用户的真实意愿, 代表了用户的需求.高效、准确地分析和处理用户特征请求对于提升用户满意度、提高产品竞争力起着至关重要的作用.用户的广泛参与, 使得特征请求成为越来越重要的需求来源.然而, 特征请求在其来源、内容以及形式等方面均与传统的软件需求不同.进而将其充分应用于软件开发过程所采用的具体方法, 也有别于传统的需求工程.目前已经有许多将特征请求应用于软件开发过程中的相关研究, 比如特征请求的获取、分类、排序、质量评估、为特征请求推荐开发者, 以及定位相关代码等.随着相关工作的不断增加, 形成一个针对特征请求分析与处理研究综述的必要性日益增强.因此, 本文调研了121篇关于在软件开发过程中分析和处理特征请求的国内外学术研究论文, 从将特征请求应用于软件开发过程的角度对现有成果进行了系统地梳理.本研究总结了现有针对特征请求的研究主题, 提出了将特征请求应用于软件开发过程的处理流程, 并与传统的需求工程过程进行对比.此外, 本文深入分析了在各个需求工程活动中使用的具体方法及方法之间的差别.最后, 对特征请求的未来研究方向进行了展望, 以期为同行研究人员提供参考.
    优先出版日期:  2022-01-28 , DOI: 10.13328/j.cnki.jos.006592
    [摘要] (798) [HTML] (0) [PDF 774.16 K] (1476)
    摘要:
    近年来,人工智能技术突飞猛进,人工智能系统已经渗透到人们生活中,成为人们生活中不可或缺的一部分.然而,人工智能系统需要数据训练模型,数据扰动会对其结果造成影响.并且随着人工智能系统业务多样化,规模复杂化,人工智能系统的可信性愈发受到人们的关注.首先,在梳理不同组织和学者提出的人工智能系统可信属性基础上,提出了人工智能系统的九个可信属性; 接着, 从数据可信性、模型可信性和结果可信性分别介绍现有的人工智能系统数据、模型、结果可信性度量方法,设计了人工智能系统可信证据收集方法.其次, 总结当前人工智能系统的可信度量评估理论与方法.然后, 结合基于属性的软件可信评估方法与区块链技术, 建立了一个人工智能系统可信度量评估框架,包括可信属性分解及可信证据获取方法、联邦式可信度量模型与以及基于区块链的人工智能系统可信度量评估架构。最后,讨论人工智能系统可信度量技术面临的机遇和挑战.
    优先出版日期:  2021-12-24 , DOI: 10.13328/j.cnki.jos.006544
    [摘要] (843) [HTML] (0) [PDF 923.30 K] (1313)
    摘要:
    文本风格迁移是近年来自然语言处理领域的热点问题之一,旨在保留文本内容的基础上通过编辑或生成的方式更改文本的特定风格或属性(如情感、时态和性别等).文章旨在梳理已有的技术,以推进该方向的研究.首先,给出文本风格迁移问题的定义及其面临的挑战;然后,对已有方法进行分类综述,重点介绍基于无监督学习的文本风格迁移方法并将其进一步分为隐式和显式两类方法,对各类方法在实现机制、优势、局限性和性能等方面进行分析和比较;同时,还通过实验比较了几种代表性方法在风格迁移准确率、文本内容保留和困惑度等自动化评价指标上的性能;最后,对文本风格迁移研究进行总结和展望.
    优先出版日期:  2021-12-24 , DOI: 10.13328/j.cnki.jos.006522
    [摘要] (2010) [HTML] (0) [PDF 1.07 M] (2576)
    摘要:
    面向知识图谱的知识推理旨在通过已有的知识图谱事实,去推断新的事实,进而实现知识库的补全。近年来,尽管基于分布式表示学习的方法在推理任务上取得了巨大的成功,但是他们的黑盒属性使得模型无法为预测出的事实做出解释。所以,如何设计用户可理解、可信赖的推理模型成为了人们关注的问题。本文从可解释性的基本概念出发,系统梳理了面向知识图谱的可解释知识推理的相关工作,具体介绍了事前可解释推理模型和事后可解释推理模型的研究进展;根据可解释范围的大小,本文将事前可解释推理模型进一步细分为全局可解释的推理和局部可解释的推理;在事后解释模型中,本文回顾了推理模型的代表方法,并详细介绍提供事后解释的两类解释方法。此外,本文还总结了可解释知识推理在医疗、金融领域的应用。随后,本文对可解释知识推理的现状进行概述,最后展望了可解释知识推理的未来发展方向,以期进一步推动可解释推理的发展和应用。
    优先出版日期:  2021-12-24 , DOI: 10.13328/j.cnki.jos.006350
    摘要:
    随着数字信息技术的普及,密文可逆信息隐藏(Reversible Data Hiding in Encrypted Images,RDHEI)逐渐成为云存储中隐私保护的研究热点.RDHEI作为一种能在密文中嵌入额外信息,并正确提取嵌入信息和无损恢复原始图像的技术,受到研究者的广泛关注.为了能在加密图像中嵌入充足的额外信息,本文提出了一种自适应编码的高容量RDHEI算法.首先,计算原始图像不同预测误差的出现概率并自适应的生成哈夫曼编码;然后,利用流密码加密原始图像,根据像素预测误差对应的哈夫曼码字对加密后像素进行标记;最后,以位替换方式将信息嵌入到已标记像素的预留空间中.经实验验证,本文算法在正确提取嵌入信息的同时,无损地恢复了原始图像.与同类算法相比,本文算法充分利用了图像本身的纹理特性,有效地提高了图像嵌入率.在UCID、BOSSBase和BOWS-2三个图像集上,本文算法的平均嵌入率达到3.162bpp、3.917bpp以及3.775bpp,与当前性能最佳算法相比提升了0.263bpp、0.292bpp以及0.280bpp.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006368
    摘要:
    视频的点击率预估是视频推荐系统中的重要任务之一,推荐系统可以根据点击率的预估调整视频推荐顺序以提升视频推荐的效果.近年来,随着视频数量的爆炸式增长,视频推荐的冷启动问题也变得愈发严重.针对这个问题,本文提出了一个新的视频点击率预估模型,通过使用视频的内容特征以及上下文特征来加强视频点击率预估的效果;同时通过对冷启动场景的模拟训练和基于近邻的替代方法提升模型应对新视频点击率预估的能力.本文提出的模型可以同时对旧视频和新视频进行点击率预估.在两个真实的电视剧(Track_1_series)和电影(Track_2_movies)点击率预估数据集上的实验表明,本文提出的模型可以显著改善对旧视频的点击率预估性能,并在两个数据集上均超过了现有的模型;对于新视频,相比于不考虑冷启动问题的模型只能获得0.57左右的AUC性能,本文模型在两个数据集上分别获得0.645和0.615的性能,表现出针对冷启动问题更好的鲁棒性.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006521
    [摘要] (1095) [HTML] (0) [PDF 1012.40 K] (1572)
    摘要:
    推荐系统是一种通过理解用户的兴趣和偏好帮助用户过滤大量无效信息并获取感兴趣的信息或者物品的信息过滤系统.目前主流的推荐系统主要基于离线的、历史的用户数据,不断训练和优化线下模型,继而为在线的用户推荐物品,这类训练方式主要存在三个问题:基于稀疏且具有噪声的历史数据估计用户偏好的不可靠估计、对影响用户行为的在线上下文环境因素的忽略和默认用户清楚自身偏好的不可靠假设.由于对话系统关注于用户的实时反馈数据,获取用户当前交互的意图,因此"对话推荐"通过结合对话形式与推荐任务成为解决传统推荐问题的有效手段.对话推荐将对话系统实时交互的数据获取方式应用到推荐系统中,采用了与传统推荐系统不同的推荐思路,通过利用在线交互信息,引导和捕捉用户当前的偏好兴趣,并及时进行反馈和更新.在过去的几年里,越来越多的研究者开始关注对话推荐系统,这一方面归功于自然语言处理领域中语音助手以及聊天机器人技术的广泛使用,另一方面受益于强化学习、知识图谱等技术在推荐策略中的成熟应用.本文将对话推荐系统的整体框架进行梳理,将对话推荐算法研究所使用的数据集进行分类,同时对评价对话推荐效果的相关指标进行讨论,重点关注于对话推荐系统中的后台对话策略与推荐逻辑,对近年来的对话推荐算法进行综述,最后对对话推荐领域的未来发展方向进行展望.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006510
    [摘要] (788) [HTML] (0) [PDF 4.87 M] (1140)
    摘要:
    随着计算机网络规模和复杂度的日益增长, 网络管理人员难以保证网络意图得到了正确实现, 错误的网络配置将影响网络的安全性和可用性. 受到形式化方法在硬软件验证领域中成功应用的启发, 研究人员将形式化方法应用到网络中, 形成了一个新的研究领域, 即网络验证(network verification), 旨在使用严格的数学方法证明网络的正确性. 网络验证已经成为当下网络和安全领域的热点研究, 其研究成果也在实际网络中得到了成功应用. 从数据平面验证、控制平面验证和有状态网络验证3个研究方向, 对网络验证领域的已有研究成果进行了系统总结, 对研究热点内容与解决方法进行了分析, 旨在整理网络验证领域的发展脉络, 为本领域研究者提供系统性文献参考和未来工作展望.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006513
    [摘要] (628) [HTML] (0) [PDF 6.48 M] (1253)
    摘要:
    匿名网络旨在公开网络环境中保护用户通信隐私. 自Chaum提出Mix网以来, 相关研究在几十年中不断取得进展. 如今, 匿名网络已发展成以Mix网、DC网或PIR (private information retrieval)为基础, 并结合多种设计要素, 使之适用于各种应用场景和威胁模型. 从匿名概念出发, 介绍匿名网络领域的发展情况, 分类阐述代表性研究工作及其设计选择, 并系统地从匿名性、延迟和带宽开销等角度进行分析.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006515
    [摘要] (422) [HTML] (0) [PDF 5.26 M] (793)
    摘要:
    提出了一种基于各向异性高斯核核惩罚的主成分分析的特征提取算法. 该算法不同于传统的核主成分分析算法. 在非线性数据降维中, 传统的核主成分分析算法忽略了原始数据的无量纲化. 此外, 传统的核函数在各维度上主要由一个相同的核宽参数控制, 该方法无法准确反映各维度不同特征的重要性, 从而导致降维过程中准确率低下. 为了解决上述问题, 首先针对现原始数据的无量纲化问题, 提出了一种均值化算法, 使得原始数据的总方差贡献率有明显的提高. 其次, 引入了各向异性高斯核函数, 该核函数每个维度拥有不同的核宽参数, 各核宽参数能够准确地反映所在维度数据特征的重要性. 再次, 基于各向异性高斯核函数建立了核主成分分析的特征惩罚目标函数, 以便用较少的特征表示原始数据, 并反映每个主成分信息的重要性. 最后, 为了寻求最佳特征, 引入梯度下降算法来更新特征惩罚目标函数中的核宽度和控制特征提取算法的迭代过程. 为了验证所提出算法的有效性, 各算法在UCI公开数据集上和KDDCUP99数据集上进行了比较. 实验结果表明, 所提基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法在9种公开的UCI公开数据集上准确率平均提高了4.49%. 在KDDCUP99数据集上, 所提基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法准确率提高了8%.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006518
    [摘要] (904) [HTML] (0) [PDF 1.43 M] (1178)
    摘要:
    近年来,伴随着现代信息技术的迅猛发展,以人工智能为代表的新兴技术在教育领域得到了广泛应用,引发了学习理念和方式的深刻变革.在这种大背景下,在线学习超越了时空的限制,为学习者"随时随地"学习提供了更多的可能性,从而得到了蓬勃发展.然而,在线学习中师生时间、空间分离的特征,导致教师无法及时掌握学生的学习状态,一定程度上制约了在线学习中教学质量的提升.面对多元化的学习需求及海量学习资源,如何迅速完成学习目标、降低学习成本、合理分配学习资源等问题成为限制个人和时代发展的重大问题.然而,传统的"一刀切"的教育模式已经不能满足人们获取知识的需求了,我们需要一个更高效、更科学的个性化教育模式,以帮助学习者以最小的学习成本最大限度地完成学习目标.基于以上背景,如何自动高效识别学习者特征,高效地组织和分配学习资源,为每一位学习者规划个性化路径,成为面向个体的精准化教育资源匹配机制研究中亟待解决的问题.在本文中,我们系统地综述并分析了当前个性化学习路径推荐的研究现状,并从多学科领域的角度分析了对于同一问题的不同研究思路,同时我们也归纳总结了当前研究中最为主流的核心推荐算法.最后,我们强调当前研究存在的主要不足之处.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006500
    [摘要] (449) [HTML] (0) [PDF 3.75 M] (947)
    摘要:
    在软件开发和维护过程中, 缺陷修复人员通常根据由终端用户或者开发/测试者提交的缺陷报告来定位和修复缺陷. 因此, 缺陷报告本身的质量对修复人员能否快速准确定位并修复缺陷具有重要的作用. 围绕缺陷报告质量的刻画及改进, 研究人员开展了大量的研究工作, 但尚未进行系统性的归纳. 旨在对这些工作进行系统性地梳理, 展示该领域的研究现状并为未来的研究方向提供参考意见. 首先, 总结了已有缺陷报告存在的质量问题, 如关键信息缺失、信息错误等; 接着, 总结了对缺陷报告质量进行自动化建模的技术; 然后, 描述了一系列对缺陷报告质量进行改进的方法; 最后, 对未来研究可能面临的挑战和机遇进行了展望.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006502
    [摘要] (632) [HTML] (0) [PDF 8.18 M] (1590)
    摘要:
    当前, 以Hadoop、Spark为代表的大数据处理框架, 已经在学术界和工业界被广泛应用于大规模数据的处理和分析. 这些大数据处理框架采用分布式架构, 使用Java、Scala等面向对象语言编写, 在集群节点上以Java虚拟机(JVM)为运行时环境执行计算任务, 因此依赖JVM的自动内存管理机制来分配和回收数据对象. 然而, 当前的JVM并不是针对大数据处理框架的计算特征设计的, 在实际运行大数据应用时经常出现垃圾回收(GC)时间长、数据对象序列化和反序列化开销大等问题. 在一些大数据场景下, JVM的垃圾回收耗时甚至超过应用整体运行时间的50%, 已经成为大数据处理框架的性能瓶颈和优化热点. 对近年来相关领域的研究成果进行了系统性综述: (1)总结了大数据应用在JVM中运行时性能下降的原因; (2)总结了现有面向大数据处理框架的JVM优化技术, 对相关优化技术进行了层次划分, 并分析比较了各种方法的优化效果、适用范围、使用负担等优缺点; (3)探讨了JVM未来的优化方向, 有助于进一步提升大数据处理框架的性能.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006503
    [摘要] (455) [HTML] (0) [PDF 10.05 M] (830)
    摘要:
    面向对象软件度量是理解和保证面向对象软件质量的重要手段之一. 通过将面向对象软件的度量值与其阈值比较, 可简单直观评价其是否有可能包含缺陷. 确定度量阈值方法主要有基于数据分布特征的无监督学习方法和基于缺陷相关性的有监督学习方法. 两类方法各有利弊: 无监督学习方法无需标签信息而易于实现, 但所得阈值的缺陷预测性能通常较差; 有监督学习方法通过机器学习算法提升所得阈值的缺陷预测性能, 但标签信息在实际过程中不易获得且度量与缺陷链接技术复杂. 近年来, 两类方法的研究者不断探索并取得较大进展. 同时, 面向对象软件度量阈值确定方法研究仍存在一些亟待解决的挑战. 对近年来国内外学者在该领域的研究成果进行系统性的总结. 首先, 阐述面向对象软件度量阈值确定方法的研究问题. 其次, 分别从无监督学习方法和有监督学习方法总结相关研究进展, 并梳理具体的理论和实现的技术路径. 然后, 简要介绍面向对象软件度量阈值的其他相关技术. 最后, 总结当前该领域研究过程面临的挑战并给出建议的研究方向.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006499
    [摘要] (409) [HTML] (0) [PDF 1.23 M] (806)
    摘要:
    准确预测胶质瘤染色体1p/19q的缺失状态对于制定合适的治疗方案和评估胶质瘤的预后有着重要的意义.虽然已有研究能够基于磁共振图像和机器学习方法实现胶质瘤1p/19q状态的准确预测,但大多数方法需要事先准确勾画肿瘤边界,无法满足计算机辅助诊断的实际需求.因此,本文提出一种深度多尺度不变特征网络(Deep multi-scale Invariant Features-based Network,DMIF-Net)预测1p/19q的缺失状态.首先利用小波散射网络提取多尺度、多方向不变特征,同时基于深度分离转聚合网络提取高级语义特征,然后通过多尺度池化模块对特征进行降维并融合,最后在仅输入肿瘤区域定界框图像的情况下,实现胶质瘤1p/19q状态的准确预测.实验结果表明,在不需要准确勾画肿瘤边界的前提下,DMIF-Net预测胶质瘤1p/19q缺失状态的AUC (Area Under Curve)可达0.92(95% CI=[0.91,0.94]),相比于最优的主流深度学习模型其AUC增加了4.1%,灵敏度和特异性分别增加了4.6%和3.4%,相比于最好的胶质瘤分类前沿模型,其AUC与精度分别增加了4.9%和5.5%.此外,消融实验证明了本文所提出的多尺度不变特征提取网络可以有效的提高模型的预测性能,说明结合深度高级语义特征和多尺度不变特征可以在不勾画肿瘤边界的情况下,显著增加对胶质瘤1p/19q缺失状态的预测能力,进而为低级别胶质瘤的个性化治疗方案制定提供一种辅助手段.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006488
    [摘要] (680) [HTML] (0) [PDF 7.15 M] (1178)
    摘要:
    近年来随着计算机视觉领域的不断发展, 三维场景的语义分割和形状补全受到学术界和工业界的广泛关注. 其中, 语义场景补全是这一领域的新兴研究, 该研究以同时预测三维场景的空间布局和语义标签为目标, 在近几年得到快速发展. 对近些年该领域提出的基于RGB-D图像的方法进行了分类和总结. 根据有无使用深度学习将语义场景补全方法划分为传统方法和基于深度学习的方法两大类. 其中, 对于基于深度学习的方法, 根据输入数据类型将其划分为基于单一深度图像的方法和基于彩色图像联合深度图像的方法. 在对已有方法分类和概述的基础上, 对语义场景补全任务所使用的相关数据集进行了整理, 并分析了现有方法的实验结果. 最后, 总结了该领域面临的挑战和发展前景.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006485
    [摘要] (2948) [HTML] (0) [PDF 4.80 M] (3166)
    摘要:
    强化学习是一种从试错过程中发现最优行为策略的技术, 已经成为解决环境交互问题的通用方法. 然而, 作为一类机器学习算法, 强化学习也面临着机器学习领域的公共难题, 即难以被人理解. 缺乏可解释性限制了强化学习在安全敏感领域中的应用, 如医疗、驾驶等, 并导致强化学习在环境仿真、任务泛化等问题中缺乏普遍适用的解决方案. 为了克服强化学习的这一弱点, 涌现了大量强化学习可解释性(explainable reinforcement learning, XRL)的研究. 然而, 学术界对XRL尚缺乏一致认识. 因此, 探索XRL的基础性问题, 并对现有工作进行综述. 具体而言, 首先探讨了父问题——人工智能可解释性, 对人工智能可解释性的已有定义进行了汇总; 其次, 构建了一套可解释性领域的理论体系, 从而描述XRL与人工智能可解释性的共同问题, 包括界定智能算法和机械算法、定义解释的含义、讨论影响可解释性的因素、划分了解释的直观性; 然后, 根据强化学习本身的特征, 定义了XRL的3个独有问题, 即环境解释、任务解释、策略解释; 之后, 对现有方法进行了系统的归类, 并对XRL的最新进展进行综述; 最后, 展望了XRL领域的潜在研究方向.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006437
    [摘要] (445) [HTML] (0) [PDF 5.58 M] (789)
    摘要:
    作为具备高性能和高可伸缩性的分布式存储解决方案, 键值存储系统近年来被广泛采用, 例如Redis、MongoDB、Cassandra等. 分布式存储系统中广泛使用的多副本机制一方面提高了系统吞吐量和可靠性, 但同时也增加了系统协调和副本一致性的额外开销. 对于跨域分布式系统来说, 远距离的副本协调开销甚至可能成为系统的性能瓶颈, 降低系统的可用性和吞吐量. 提出分布式键值存储系统Elsa, 这是一种面向跨区域架构的无协调键值存储系统. Elsa在保证高性能和高可拓展性的基础上, 采用无冲突备份数据结构(CRDT)技术来无协调的保证副本间的强最终一致性, 降低了系统节点间的协调开销. 在阿里云上构建了跨4数据中心8节点的跨区域分布式环境, 进行了大规模分布式性能对比实验, 实验结果表明: 在跨域的分布式环境下, 对于高并发争用的负载, Elsa系统的性能具备明显的优势, 最高达到MongoDB集群的7.37倍, Cassandra集群的1.62倍.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006431
    [摘要] (782) [HTML] (0) [PDF 2.55 M] (911)
    摘要:
    代码坏味(code smells)是低质量的急需重构的代码片段. 代码坏味是软件工程领域的一个研究热点, 并且相关研究方向众多、时间跨度大、研究成果丰富. 为梳理相关研究思路和研究成果、分析研究热点并预判未来研究方向, 对1990年至2020年6月间发表的代码坏味相关的339篇论文进行了系统地分析和归类, 对代码坏味的发展趋势进行了分析与统计, 量化揭示了相关研究的主流与热点. 揭示了学术界关注的关键代码坏味, 并研究了工业界与学术界的关注点的差异及其影响.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006435
    [摘要] (512) [HTML] (0) [PDF 5.07 M] (865)
    摘要:
    任播通过将相同IP地址分配到多个终端节点上, 利用BGP实现最佳路径选择. 近年来, 随着任播技术发展越来越成熟, 任播被广泛运用到DNS和CDN服务上. 首先全方位介绍了任播技术, 随后讨论了任播技术目前存在的问题并将这些问题归结为三大类: 任播推断的不完善, 任播性能无法保证, 难以控制任播负载均衡. 针对这些问题, 阐述了国内外最新研究进展, 总结了任播研究工作中的相关问题及改进方向, 为相关领域的研究者提供有益的参考.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006425
    [摘要] (486) [HTML] (0) [PDF 5.99 M] (957)
    摘要:
    在软件测试过程中, 待测程序的预期输出是判断软件是否存在缺陷的重要因素. 蜕变测试技术是利用被测软件的属性来检查程序输出, 从而有效地解决程序预期输出难以构造的问题. 近年来, 蜕变测试在软件测试领域取得了蓬勃的发展, 许多研究人员将蜕变测试技术进行优化, 将其运用到各个领域, 有效提高了软件质量. 我们从原理、过程及其优化, 应用领域3个方面, 总结蜕变测试的研究工作, 着重分析了近5年的研究进展, 进一步展望了蜕变测试用于并行程序时, 可能的研究主题. 首先, 介绍蜕变测试的基本概念和蜕变测试过程; 接着, 从蜕变关系、测试用例、测试执行过程以及蜕变测试工具4个角度, 总结蜕变测试优化技术; 然后, 汇总了蜕变测试的应用领域; 最后, 基于已有研究成果, 讨论蜕变测试在并行程序测试领域面临的问题, 为蜕变技术在并行程序测试领域的研究提供可能的思路.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006420
    [摘要] (693) [HTML] (0) [PDF 1.80 M] (1591)
    摘要:
    情绪是情感的外在体现, 影响人类的认知、感知、理性决策等日常活动. 情绪识别作为实现计算机全面智能的一项基础任务, 在情感计算和人机交互领域被深入研究和广泛应用. 相比面部表情、语音或其他生理信号, 利用脑电进行情绪识别具有时间分辨率高、成本低、识别效果好、可靠性高的优势. 近年来, 越来越多的深度学习框架被应用于基于脑电信号的情绪识别, 并取得了比传统机器学习方法更加优异的效果. 基于深度脑电特征的情绪识别是当前的研究热点之一, 也具有一定的挑战性. 目前, 可供参考的针对此研究热点的综述文献较少. 对近年来国内外相关文献进行调研分析, 从模型输入、深度框架、实验设置、实验结果等方面对深度学习在基于脑电的情绪识别中的应用研究做了总结概况, 并在DEAP和SEED这两个公开的脑电-情绪数据集上对具有代表性的方法进行了定性和定量的多方面对比, 分析和总结这些方法的不足, 同时也对未来可能的研究方向进行了展望.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006402
    [摘要] (920) [HTML] (0) [PDF 6.49 M] (1652)
    摘要:
    区块链是由一系列网络节点构建的一种分布式账本, 本身具有不可篡改性、去中心化、去信任化、密码算法安全性和不可否认性等安全属性, 本文对基于区块链实现的安全服务进行了综述, 这些安全服务包括数据机密性、数据完整性、身份认证、数据隐私、数据可信删除. 首先介绍了区块链和公钥密码学的基础知识, 并围绕上述5种安全服务, 给出了用户真实场景中面临的安全问题以及传统的解决方案, 讨论了这些传统实现方案所面临的问题, 之后介绍了使用区块链技术解决相关问题的实现方案, 最后讨论了区块链的价值以及面临的问题.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006351
    [摘要] (362) [HTML] (0) [PDF 1.06 M] (702)
    摘要:
    如何在社交媒体上检测数据流中的突发事件是自然语言处理中的一个热门研究主题,但是,当前用于提取突发事件的方法存在精度低和效率低的问题.为了解决这些问题,本文提出一种基于词相关性特征的突发事件检测方法,能从社会网络数据流中快速地检测出突发事件,以便相关的决策者可以及时有效地采取相关措施进行处理,使突发事件的负面影响能够被尽量降低,维护社会的安定.首先,通过噪声过滤和情绪过滤,我们得到了充满负面情绪的微博文本.然后,根据时间信息,对微博数据进行时间切片,计算每个时间窗口中该数据的每个单词的单词频率特征、用户影响力和单词频率增长率特征,运用突发度计算方法来提取突发词;根据word2vec模型合并相似词,利用突发词的特征相似性构成突发词关系图.最后,运用多归属谱聚类算法对单词关系图进行最优划分,并在时间窗滑过时关注异常词语,通过子图中词语突发度的变化而引起的结构变化对突发事件进行判断.由实验结果知,突发事件检测方法在实时博文数据流中具有很好的事件检测效果,与已有的方法相比,本文提出的突发事件检测方法可以满足突发事件检测的需求,不仅能检测到子事件的详细信息,而且事件的相关信息也能被准确地检测出来.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006421
    [摘要] (1073) [HTML] (0) [PDF 3.42 M] (1572)
    摘要:
    传统的区块链技术为了保证交易账本的全网共识和不可篡改性, 要求矿工节点具有强大的计算能力和足够的存储空间, 这就限制了资源受限的设备加入区块链. 近几年, 区块链技术已经拓展到金融经济、医疗健康、物联网、供应链等多个领域, 但是这些应用场景存在大量算力弱、存储容量低的设备, 这给区块链的应用带来了巨大挑战. 为此轻量级的区块链技术应运而生. 从轻量级计算和轻量级存储两方面出发, 总结当前轻量级区块链的研究现状, 对比分析各个方案的优缺点. 最后展望未来轻量级区块链的发展.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006429
    [摘要] (2788) [HTML] (0) [PDF 3.26 M] (3318)
    摘要:
    知识图谱(KG)是一种用图模型来描述知识和建模事物之间关联关系的技术. 知识图谱嵌入(KGE)作为一种被广泛采用的知识表示方法, 其主要思想是将知识图谱中的实体和关系嵌入到连续的向量空间中, 用来简化操作, 同时保留KG的固有结构. 可以使得多种下游任务受益, 例如KG补全和关系提取等. 首先对现有的知识图谱嵌入技术进行全面回顾, 不仅包括使用KG中观察到的事实进行嵌入的技术, 还包括添加时间维度的动态KG嵌入方法, 以及融合多源信息的KG嵌入技术. 对相关模型从实体嵌入、关系嵌入、评分函数等方面进行分析、对比与总结. 然后简要介绍KG嵌入技术在下游任务中的典型应用, 包括问答系统、推荐系统和关系提取等. 最后阐述知识图谱嵌入面临的挑战, 对未来的研究方向进行展望.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006434
    [摘要] (420) [HTML] (0) [PDF 8.34 M] (932)
    摘要:
    普通的城市道路地图未能覆盖(超)重卡货车的道路禁限行信息, 缺少标注适用于大宗货运的热门停驻区域, 无法满足货运司机的大批量长距离公路运输需求. 为解决大宗货运交通事故频发、物流效率低下等问题, 进一步提升货运司机的出行体验感, 亟需结合运输货物类型、货车车型以及司机的线路选择偏好等因素, 研究适用于公路大宗货运的定制化物流地图构建方法. 随着移动互联网、车联网的普及, 大宗货运产生的时空数据迅猛增长, 与物流运营数据等一起构成物流大数据, 为构建物流地图提供了数据基础. 在梳理地图构建技术的基础上, 针对现有电子地图构建方法在大宗货运领域的局限性, 利用多源物流数据提出了一个数据驱动的物流地图构建框架, 主要研究内容包括: (1)基于用户先验知识的多约束物流地图构建; (2)动态时空数据驱动的物流地图增量更新. 物流地图将成为大宗货运发展新一代物流科技的AI基础设施. 研究成果为物流地图构建的技术创新提供了丰富的实践内容, 也为促进大宗物流降本增效提供了新的解决思路, 具有重要的理论意义和应用价值.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006501
    [摘要] (680) [HTML] (0) [PDF 4.80 M] (973)
    摘要:
    为保护计算设备中安全敏感程序运行环境的安全, 研究人员提出了可信执行环境(TEE)技术, 通过对硬件和软件进行隔离为安全敏感程序提供一个与通用计算环境隔离的安全运行环境. 侧信道攻击从传统的需要昂贵设备发展到现在仅基于微体系结构状态就能通过软件方式获取机密信息的访问模式, 从而进一步推测出机密信息. TEE架构仅提供隔离机制, 无法抵抗这类新出现的软件侧信道攻击. 深入调研了ARM TrustZone、Intel SGX和AMD SEV这3种TEE架构的软件侧信道攻击及相应防御措施, 并探讨其攻击和防御机制的发展趋势. 首先, 介绍了ARM TrustZone、Intel SGX和AMD SEV的基本原理, 并详细阐述了软件侧信道攻击的定义以及缓存侧信道攻击的分类、方法和步骤; 之后从处理器指令执行的角度, 提出一种TEE攻击面分类方法, 利用该方法对TEE软件侧信道攻击进行分类, 并阐述了软件侧信道攻击与其他攻击相结合的组合攻击; 然后详细讨论TEE软件侧信道攻击的威胁模型; 最后全面总结业界对TEE软件侧信道攻击的防御措施, 并从攻击和防御两方面探讨TEE软件侧信道攻击未来的研究趋势.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006415
    [摘要] (932) [HTML] (0) [PDF 6.23 M] (1116)
    摘要:
    深度学习目前在计算机视觉、自然语言处理、语音识别等领域得到了深入发展, 与传统的机器学习算法相比, 深度模型在许多任务上具有较高的准确率. 然而, 作为端到端的具有高度非线性的复杂模型, 深度模型的可解释性没有传统机器学习算法好, 这为深度学习在现实生活中的应用带来了一定的阻碍. 深度模型的可解释性研究具有重大意义而且是非常必要的, 近年来许多学者围绕这一问题提出了不同的算法. 针对图像分类任务, 将可解释性算法分为全局可解释性和局部可解释性算法. 在解释的粒度上, 进一步将全局解释性算法分为模型级和神经元级的可解释性算法, 将局部可解释性算法划分为像素级特征、概念级特征以及图像级特征可解释性算法. 基于上述分类框架, 总结了常见的深度模型可解释性算法以及相关的评价指标, 同时讨论了可解释性研究面临的挑战和未来的研究方向. 认为深度模型的可解释性研究和理论基础研究是打开深度模型黑箱的必要途径, 同时可解释性算法存在巨大潜力可以为解决深度模型的公平性、泛化性等其他问题提供帮助.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006395
    [摘要] (551) [HTML] (0) [PDF 7.87 M] (887)
    摘要:
    如何利用多源异构时空数据进行准确的轨迹预测并且反映移动对象的移动特性是轨迹预测领域的核心问题. 现有的大多数轨迹预测方法是长序列轨迹模式预测模型, 根据历史轨迹的特点进行预测, 或将当前移动对象的轨迹位置放入时空语义场景根据历史移动对象轨迹预测位置. 综述当前常用的轨迹预测模型和算法, 涉及不同的研究领域. 首先, 阐述了多模式轨迹预测的主流工作, 轨迹预测的基本模型类; 其次, 对不同类的预测模型进行总结, 包括数学统计类、机器学习类、滤波算法, 以及上述领域具有代表性的算法; 再次, 对情景感知技术进行了介绍, 描述了不同领域的学者对情景感知的定义, 阐述了情景感知技术所包含的关键技术点, 诸如情景感知计算、情景获取和情景推理的不同类模型, 分析了情景感知的不同分类、过滤、存储和融合以及它们的实现方法等. 详细介绍了情景感知驱动的轨迹预测模型技术路线及各阶段任务的工作原理. 给出了情景感知技术在真实场景中的应用, 包括位置推荐, 兴趣点推荐等, 通过与传统算法对比, 分析情景感知技术在此类应用中的优劣. 详细介绍了情景感知结合LSTM (Long Short-Term Memory)技术应用于行人轨迹预测领域的新方法. 最后, 总结了轨迹预测和情景感知研究的当前问题和未来发展趋势.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006409
    [摘要] (1170) [HTML] (0) [PDF 7.50 M] (1265)
    摘要:
    随着神经网络等技术的快速发展, 人工智能被越来越多地应用到安全关键或任务关键系统中, 例如汽车自动驾驶系统、疾病诊断系统和恶意软件检测系统等. 由于缺乏对人工智能软件系统全面和深入的了解, 导致系统时常发生严重错误. 人工智能软件系统的功能属性和非功能属性被提出以加强对人工智能软件系统的充分认识和质量保障. 经调研, 有大量研究者致力于功能属性的研究, 但人们越来越关注于人工智能软件系统的非功能属性. 为此, 专注于人工智能软件系统的非功能属性, 调研了138篇相关领域的论文, 从属性定义、属性必要性、属性示例和常见质量保障方法几个方面对目前已有的研究工作进行系统的梳理和详细的总结, 同时重新定义和分析了非功能属性之间的关系并介绍了人工智能软件系统研究中可以用到的开源工具. 最后, 展望了人工智能软件系统非功能属性的未来研究方向和挑战, 以期为该领域的研究人员提供参考.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006410
    [摘要] (660) [HTML] (0) [PDF 5.15 M] (1013)
    摘要:
    信息物理融合系统(cyber-physical system, CPS)在社会生活中发挥越来越广泛的作用. CPS资源的按需编排建立在CPS资源的软件定义基础上, 软件接口的定义则依赖对CPS资源能力的充分描述. 目前, CPS领域内缺少一个能规范表示资源及其能力的知识库和构建该知识库的有效方法. 面向CPS资源的文本描述, 提出构建CPS资源能力知识图谱并设计一种自底向上的自动构建方法. 给定资源, 方法先从其代码和文档中提取资源能力的文本描述信息, 并基于预定义的表示模式生成规范化表示的能力短语. 然后, 基于动宾结构的关键成分对能力短语进行划分、聚合与抽象, 生成不同类型资源的能力层次化抽象描述. 最后, 构建资源能力知识图谱. 面向Home Assistant平台, 构建了包含32个资源类别、957个资源能力的知识图谱. 图谱构建实验从不同维度对比分析了手工构建和所提方法自动构建的结果. 实验表明, 所提方法为CPS资源能力知识图谱的自动化构建提供可行途径, 有助于减少人工构建工作量, 补充CPS领域内资源服务与能力的描述, 并提高图谱的知识完备性.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006411
    [摘要] (1258) [HTML] (0) [PDF 5.52 M] (1687)
    摘要:
    随着大数据、云计算等领域的蓬勃发展, 重视数据安全与隐私已经成为了世界性的趋势, 不同团体为保护自身利益和隐私不愿贡献数据, 形成了数据孤岛. 联邦学习使数据不出本地就可被多方利用, 为解决数据碎片化和数据隔离等问题提供了解决思路. 然而越来越多研究表明, 由谷歌首先提出的联邦学习算法不足以抵抗精心设计的隐私攻击, 因此如何进一步加强隐私防护, 保护联邦学习场景下的用户数据隐私成为了一个重要问题. 对近些年来联邦学习隐私攻击与防护领域取得的成果进行了系统总结. 首先介绍了联邦学习的定义、特点和分类; 然后分析了联邦学习场景下隐私威胁的敌手模型, 并根据敌手攻击目标对隐私攻击方法进行了分类和梳理; 介绍了联邦学习中的主流隐私防护技术, 并比较了各技术在实际应用中的优缺点; 分析并总结了6类目前联邦学习的隐私保护方案; 最后指出目前联邦学习隐私保护面临的挑战, 展望了未来可能的研究方向.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006407
    [摘要] (498) [HTML] (0) [PDF 5.28 M] (755)
    摘要:
    分离逻辑是经典霍尔逻辑的针对操作指针和动态数据结构的扩展, 已经广泛用于对基础软件(比如操作系统内核等)的分析与验证. 分离逻辑约束自动求解是提升对操作指针和动态数据结构的程序的验证的自动化程度的重要手段. 针对动态数据结构的验证一般同时涉及形状性质(比如单链表、双链表、树等)和数据性质(比如有序性、数据不变性等). 主要介绍能对动态数据结构的形状性质与数据约束进行融合推理的分离逻辑求解器COMPSPEN. 首先介绍COMPSPEN的理论基础, 包括能够同时描述线性动态数据结构的形状性质和数据约束的分离逻辑子集SLIDdataSLIDdata的可满足性和蕴涵问题的判定算法. 然后, 介绍COMPSPEN工具的基本框架. 最后, 使用COMPSPEN工具进行了实例研究. 收集整理了600个测试用例, 在这600个测试用例上将COMPSPEN与已有的主流分离逻辑求解器ASTERIX 、S2S、Songbird、SPEN进行了比较. 实验结果表明COMPSPEN是唯一能够求解含有集合数据约束的分离逻辑求解器, 而且总体来讲, 能对线性数据结构上的同时含有形状性质和线性算术数据约束的分离逻辑公式的可满足性问题进行高效的求解, 另外, 也能对蕴涵问题进行求解.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006362
    [摘要] (714) [HTML] (0) [PDF 496.45 K] (1019)
    摘要:
    数据密集型作业包含大量的任务,使用GPU设备来提高任务的性能是目前的主要手段,但是,在解决数据密集型作业之间的GPU资源公平共享以及降低任务所需数据在网络间的传输代价方面,现有的研究方法没有综合考虑资源公平与数据传输代价的矛盾.论文分析了GPU集群资源调度的特点,提出了一种基于最小代价最大任务数的GPU集群资源调度算法,解决了GPU资源的公平分配与数据传输代价较高的矛盾,将调度过程分为两个阶段,第一阶段为各个作业按照数据传输代价给出自己的最优方案,第二阶段为资源分配器合并各个作业的方案,按照公平性给出全局的最优方案.首先,论文给出了GPU集群资源调度框架的总体结构,各个作业给出自己的最优方案,资源分配进行全局优化;第二,给出了网络带宽估计策略以及计算任务的数据传输代价的方法;第三,给出了基于GPU数量的资源公平分配的基本算法;第四,提出了最小代价最大任务数的资源调度算法,描述了资源非抢夺,抢夺以及不考虑资源公平策略的实现策略;最后,设计了六种数据密集型计算作业,对论文中提出的算法进行了实验,通过实验验证,最小代价最大任务数的资源调度算法,对于资源公平性能够达到90%左右,同时亦能保证作业并行运行时间最小.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006356
    摘要:
    DataFlow模型的使用,使得大数据计算的批处理和流处理融合为一体.但是,现有的针对大数据计算的集群资源调度框架,它们要么面向流处理,要么面向批处理,不适合批处理与流处理作业共享集群资源的需求.另外,GPU用于大数据分析计算时,由于缺乏有效的CPU-GPU资源解耦方式,降低了资源使用效率.论文在分析现有的集群资源调度框架的基础上,设计并实现了一种可以感知批处理/流处理应用的混合式资源调度框架HRM.它以共享状态架构为基础,采用乐观封锁协议和悲观封锁协议相结合的方式,确保流处理作业和批处理作业的不同资源要求.在计算节点上,提供CPU-GPU资源的灵活绑定,采用队列堆叠技术,不但满足流处理作业的实时性需求,也减少了反馈延迟并实现了GPU资源的共享.通过模拟大规模作业的调度,结果显示HRM的调度延迟只有集中式调度框架的75%左右;使用实际负载测试,批处理与流处理共享集群时,使用HRM调度框架,CPU资源利用率提高25%以上;而使用细粒度作业调度方法,不但GPU利用率提高2倍以上,作业的完成时间也能够减少50%左右.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006359
    [摘要] (750) [HTML] (0) [PDF 908.04 K] (1009)
    摘要:
    近年来,传统磁记录的存储密度增长已经达到极限,为了满足快速增长的数据容量需求,多种新型存储技术不断涌现,其中瓦记录(Shingled Magnetic Recording,简写为SMR)技术已实现商业化,在企业实际应用.但是,由于瓦记录磁盘的叠瓦式结构,磁盘在随机写入时会引起写放大,造成磁盘性能下降.这一问题在部署传统的高可靠存储方案(如RAID5)时会变得更加严重,原因在于是校验数据更新频率很高,磁盘内出现大量的随机写请求.本文发现瓦记录内部其实存在具有原位更新能力的"可覆盖写磁道"(Free Track),因此基于"可覆盖写磁道",提出了一种专门针对瓦记录盘的高可靠数据存储方法——FT-RAID,以替代经典的RAID5方法,实现一个廉价、大容量、高可靠的存储系统.FT-RAID包含两个部分:"可覆盖写磁道映射"(FT-Mapping)和"可覆盖写磁道缓冲区"(FT-Buffer).FT-Mapping实现了一种瓦记录友好的RAID映射方式,将频繁更新的校验块数据映射至"可覆盖写磁道";FT-Buffer实现了一种瓦记录友好的两层缓冲区结构,上层确保了热数据能够原位更新,下层提高了缓冲区的容量.基于真实企业I/O访问记录的的实验表明,与传统RAID5相比,FT-RAID能减少80.4%的写放大率,显著提高存储系统整体性能.
    优先出版日期:  2017-10-18 , DOI:
    [摘要] (2628) [HTML] (0) [PDF 525.21 K] (4104)
    摘要:
    Data race is a major source of concurrency bugs. Dynamic data race detection tools (e.g., FastTrack) monitor the execu-tions of a program to report data races occurring in runtime. However, such tools incur significant overhead that slows down and perturbs executions. To address the issue, the state-of-the-art dynamic data race detection tools (e.g., LiteRace) ap-ply sampling techniques to selectively monitor memory access-es. Although they reduce overhead, they also miss many data races as confirmed by existing studies. Thus, practitioners face a dilemma on whether to use FastTrack, which detects more data races but is much slower, or LiteRace, which is faster but detects less data races. In this paper, we propose a new sam-pling approach to address the major limitations of current sampling techniques, which ignore the facts that a data race involves two threads and a program under testing is repeatedly executed. We develop a tool called AtexRace to sample memory accesses across both threads and executions. By selectively monitoring the pairs of memory accesses that have not been frequently observed in current and previous executions, AtexRace detects as many data races as FastTrack at a cost as low as LiteRace. We have compared AtexRace against FastTrack and LiteRace on both Parsec benchmark suite and a large-scale real-world MySQL Server with 223 test cases. The experiments confirm that AtexRace can be a replacement of FastTrack and LiteRace.
    优先出版日期:  2017-10-18 , DOI:
    [摘要] (2602) [HTML] (0) [PDF 352.38 K] (5308)
    摘要:
    It is difficult to fix atomicity violations correctly. Existing gate lock algorithm (GLA) simply inserts gate locks to serialize exe-cutions, which may introduce performance bugs and deadlocks. Synthesized context-aware gate locks (by Grail) require complex source code synthesis. We propose ?Fixer to adaptively fix ato-micity violations. It firstly analyses the lock acquisitions of an atomicity violation. Then it either adjusts the existing lock scope or inserts a gate lock. The former addresses cases where some locks are used but fail to provide atomic accesses. For the latter, it infers the visibility (being global or a field of a class/struct) of the gate lock such that the lock only protects related accesses. For both cases, ?Fixer further eliminates new lock orders to avoid introducing deadlocks. Of course, ?Fixer can produce both kinds of fixes on atomicity violations with locks. The experi-mental results on 15 previously used atomicity violations show that: ?Fixer correctly fixed all 15 atomicity violations without introducing deadlocks. However, GLA and Grail both intro-duced 5 deadlocks. HFix (that only targets on fixing certain types of atomicity violations) only fixed 2 atomicity violations and introduced 4 deadlocks. ?Fixer also provides an alternative way to insert gate locks (by inserting gate locks with proper visibility) considering fix acceptance.
    优先出版日期:  2017-09-11 , DOI:
    [摘要] (3028) [HTML] (0) [PDF 276.42 K] (2266)
    摘要:
    对Github上Python科学计算软件生态系统中的跨项目关联缺陷进行了实证分析,聚焦于开发者对缺陷根源的追踪和上下游项目开发者修复缺陷的协作。通过定性和定量的分析,揭示了影响这类缺陷定位与修复的因素,以及开发者应对它们的常见行为。
    优先出版日期:  2017-06-21 , DOI:
    [摘要] (3112) [HTML] (0) [PDF 169.43 K] (2414)
    摘要:
    Numerical instability is a well-known problem that may cause serious runtime failures. This paper discusses the reason of instability in software development process, and presents a toolchain that not only detects the potential instability in software, but also diagnoses the reason for such instability. We classify the reason of instability into two categories. When it is introduced by software requirements, we call the instability caused by problem. In this case, it cannot be avoided by improving software development, but requires inspecting the requirements, especially the underlying mathematical properties. Otherwise, we call the instability caused by practice. We design our toolchain as 4 loosely-coupled tools, which combine stochastic arithmetic with infinite-precision testing. Each tool in our toolchain can be configured with different strategies according to the properties of the analyzed software. We evaluate our toolchain on subjects from literature. The results show that it effectively detects and separates the instabilities caused by problems from others. We also conduct an evaluation on the latest version of GNU Scientific Library, and the toolchain finds a few real bugs in the well-maintained and widely deployed numerical library. With the help of our toolchain, we report the details and fixing advices to the GSL buglist.
    优先出版日期:  2017-06-13 , DOI:
    [摘要] (4318) [HTML] (0) [PDF 174.91 K] (2841)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-25 , DOI:
    [摘要] (3179) [HTML] (0) [PDF 254.98 K] (2192)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-18 , DOI:
    [摘要] (3622) [HTML] (0) [PDF 472.29 K] (2161)
    摘要:
    Software should behave correctly even in adverse conditions. Particularly, we study the problem of automated validation of crash consistency, i.e., file system data safety when systems crash. Existing work requires non-trivial manual efforts of specifying checking scripts and workloads, which is an obstacle for software developers. Therefore, we propose C3, a novel approach that makes crash consistency validation as easy as pressing a single button. With a program and an input, C3 automatically reports inconsistent crash sites. C3 not only exempts developers from the need of writing crash site checking scripts (by an algorithm that computes editing distance between file system snapshots) but also reduces the reliance on dedicated workloads (by test amplification). We implemented C3 as an open-source tool. With C3, we found 14 bugs in open-source software that have severe consequences at crash and 11 of them were previously unknown to the developers, including in highly mature software (e.g., GNU zip and GNU coreutils sort) and popular ones being actively developed (e.g., Adobe Brackets and TeXstudio).
    优先出版日期:  2017-01-04 , DOI:
    [摘要] (3428) [HTML] (0) [PDF 293.93 K] (1987)
    摘要:
    本文提出了一种可部署的数据竞争动态采样检测技术,首先提出了基于线程本地时序的数据竞争定义,之后基于硬件断点进行采样检测。在采样率为1%时,时间开销约为5%,且有效性得以保证。
    优先出版日期:  2017-01-04 , DOI:
    [摘要] (3748) [HTML] (0) [PDF 244.61 K] (2267)
    摘要:
    在软件开发过程中,软件更新时常发生,怎样保证软件更新后的软件质量呢?这就是回归测试的任务。传统上,回归测试通过检测软件异常行为来保证软件质量。然而,在实践中所有的软件行为不可能全部被检测到,尤其针对于大型的复杂软件系统。为帮助开发人员更好的进行回归测试,传统工作集中在增加测试用例上,即通过人工或自动生成测试输入的方法,观测测试输出以捕获程序行为。这种方法虽一定程度上有效,但也存在很大缺陷:人工编写测试用例费时费力,不能覆盖的代码较多,而且容易受人主观判断的误导(例如忽略某些特别容易存在缺陷的类、方法等);自动生成测试用例技术存在很多问题,例如代价大和无法很好的处理数组、字符串等。基于目前软件测试技术存在的缺陷,很多软件不得不在面临诸多安全威胁的状态下发布,有时甚至造成重大财产损失甚至人员伤亡。因此,我们迫切需要新技术来辅助现有技术以更好的进行回归测试、保障软件质量。
    优先出版日期:  2016-12-12 , DOI:
    [摘要] (3248) [HTML] (0) [PDF 358.69 K] (2289)
    摘要:
    在程序分析中,循环(Loop)的处理与分析是一个非常重要而且很有挑战的任务。例如,在符号执行(Symbolic Execution)中,循环的不断展开会导致程序路径数量指数级地增长。因此,符号执行通常会陷入不停的循环展开,而不能覆盖到新的程序分支上,最终影响了测试用例生成或者缺陷检测的效率。
    优先出版日期:  2016-09-30 , DOI:
    摘要:
    在软件测试中,测试预言是一种判断程序在给定测试输入下的执行结果是否符合预期的机制。测试预言通常由在测试中需要被观测的变量以及这些变量的预期值组成。对于相同的测试输入,不同的测试预言可能有不同的缺陷检测能力。因此,高质量的测试预言对于检测软件中的缺陷是非常必要的。在已有的研究中,虽然研究人员提出了各种各样的自动化测试输入生成技术,但是测试预言问题仍然被公认为是软件测试中最难解决的问题之一。
    优先出版日期:  2016-09-09 , DOI:
    [摘要] (3748) [HTML] (0) [PDF 313.52 K] (191)
    摘要:
    本文基于众测平台,提出了一种基于局部的主动学习方法,能够将众测报告中的缺陷进行自动分类,该方法解决了众测报告分类中的局部偏见问题、及缺少历史训练数据的问题,并基于实际的众测数据进行了验证。
    优先出版日期:  2016-09-07 , DOI:
    [摘要] (4142) [HTML] (0) [PDF 231.98 K] (114)
    摘要:
    并发缺陷是由于某些事件按照一定的顺序发生而导致的,本文提出了一种基于缺陷半径的并发缺陷的概率检测方法RPro,并用于死锁的检测,且有概率保证。实验表明该方法可以显著提高死锁的检测概率。
    优先出版日期:  2016-08-29 , DOI:
    摘要:
    当公司投入资源到开源社区,其诉求可能跟开放共享的开源开发方法存在冲突,继而影响自由贡献者.因此我们研究:公司参与会对开源社区带来怎样的影响?面向三个技术同构的混合项目,我们总结了三个商业参与模型,并量化了不同模型对贡献者稳定性和持续性的影响.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2003,14(7):1282-1291, DOI:
    [摘要] (36028) [HTML] (0) [PDF 832.28 K] (76276)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2010,21(3):427-437, DOI:
    [摘要] (31709) [HTML] (0) [PDF 308.76 K] (35869)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2011,22(1):71-83, DOI:10.3724/SP.J.1001.2011.03958
    [摘要] (28673) [HTML] (0) [PDF 781.42 K] (50729)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2016,27(1):45-71, DOI:10.13328/j.cnki.jos.004914
    [摘要] (27969) [HTML] (851) [PDF 880.96 K] (27652)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2009,20(5):1337-1348, DOI:
    [摘要] (27054) [HTML] (0) [PDF 1.06 M] (42202)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2008,19(1):48-61, DOI:
    [摘要] (26742) [HTML] (0) [PDF 671.39 K] (58437)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2009,20(2):271-289, DOI:
    [摘要] (26049) [HTML] (0) [PDF 675.56 K] (40205)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2005,16(1):1-7, DOI:
    [摘要] (21103) [HTML] (0) [PDF 614.61 K] (18370)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2004,15(3):428-442, DOI:
    [摘要] (19965) [HTML] (0) [PDF 1009.57 K] (14509)
    摘要:
    随着电子商务的迅速崛起,基于Web的应用模式迅速发展,Web应用从局部化发展到全球化,从B2C(business-to-customer)发展到B2B(business-to-business),从集中式发展到分布式,Web服务成为电子商务的有效解决方案.Web服务是一个崭新的分布式计算模型,是Web上数据和信息集成的有效机制.Web服务的新型构架,Web服务的高效执行方式,Web服务与其他成熟技术的有机结合以及Web服务的集成是解决现实应用问题的重要技术.从Web服务研究的不同侧面对其进行了综述,阐述了Web服务的基本概念,分析了当前Web服务的主要研究问题及其核心支撑技术,概括了Web服务中的数据集成技术、Web服务的组合、语义Web服务、Web服务发现,Web服务安全,P2P(Peer-to-Peer)新型计算环境下的Web服务解决方案和网格服务等方面的研究内容,并对这些技术进行了总结,结合已有的研究成果,展望了Web服务未来的研究方向及其面临的挑战.
    2005,16(5):857-868, DOI:
    [摘要] (19264) [HTML] (0) [PDF 489.65 K] (27508)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2010,21(8):1834-1848, DOI:
    [摘要] (19081) [HTML] (0) [PDF 682.96 K] (51584)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2009,20(1):54-66, DOI:
    [摘要] (18515) [HTML] (0) [PDF 1.41 M] (47113)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2012,23(1):32-45, DOI:10.3724/SP.J.1001.2012.04091
    [摘要] (17891) [HTML] (0) [PDF 408.86 K] (28141)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2012,23(4):962-986, DOI:10.3724/SP.J.1001.2012.04175
    [摘要] (17783) [HTML] (0) [PDF 2.09 M] (28455)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2009,20(3):524-545, DOI:
    [摘要] (16860) [HTML] (0) [PDF 1.09 M] (19906)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2009,20(1):124-137, DOI:
    [摘要] (16011) [HTML] (0) [PDF 1.06 M] (19958)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2009,20(11):2965-2976, DOI:
    [摘要] (15892) [HTML] (0) [PDF 442.42 K] (13245)
    摘要:
    研究不确定图数据的挖掘,主要解决不确定图数据的频繁子图模式挖掘问题.介绍了一种数据模型来表示图的不确定性,以及一种期望支持度来评价子图模式的重要性.利用期望支持度的Apriori性质,给出了一种基于深度优先搜索策略的挖掘算法.该算法使用高效的期望支持度计算方法和搜索空间裁剪技术,使得计算子图模式的期望支持度所需的子图同构测试的数量从指数级降低到线性级.实验结果表明,该算法比简单的深度优先搜索算法快3~5个数量级,有很高的效率和可扩展性.
    2004,15(8):1208-1219, DOI:
    [摘要] (15801) [HTML] (0) [PDF 948.49 K] (11859)
    摘要:
    随着网络系统应用及复杂性的增加,网络蠕虫成为网络系统安全的重要威胁.在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高、潜伏性变强、覆盖面更广,网络蠕虫成为恶意代码研究中的首要课题.首先综合论述网络蠕虫的研究概况,然后剖析网络蠕虫的基本定义、功能结构和工作原理,讨论网络蠕虫的扫描策略和传播模型,归纳总结目前防范网络蠕虫的最新技术.最后给出网络蠕虫研究的若干热点问题与展望.
    2009,20(5):1226-1240, DOI:
    [摘要] (15631) [HTML] (0) [PDF 926.82 K] (14325)
    摘要:
    对几种智能规划方法中利用的逻辑演绎与推理技术予以分析,分别介绍利用命题逻辑的基于可满足性的规划方法与规划系统,利用模态逻辑与析取推理的Conformant规划方法与规划系统,利用非单调逻辑的规划方法和利用模糊描述逻辑的Flexible规划方法,并结合国际规划竞赛和相关论文等的实验结论说明上述方法的有效性和可行性.最后,提出目前基于自动推理技术的智能规划方法所面临的挑战、可能的处理方法以及与之相关的研究热点与趋势.
    2003,14(10):1717-1727, DOI:
    [摘要] (15553) [HTML] (0) [PDF 839.25 K] (12571)
    摘要:
    传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能够协作地实时监测、感知和采集各种环境或监测对象的信息,并对其进行处理,传送到这些信息的用户.传感器网络是计算机科学技术的一个新的研究领域,具有十分广阔的应用前景,引起了学术界和工业界的高度重视.介绍了传感器网络及其数据管理的概念和特点,探讨了传感器网络及其数据管理的研究问题,并综述了传感器网络及其数据管理的研究现状.
    2009,20(2):350-362, DOI:
    [摘要] (15324) [HTML] (0) [PDF 1.39 M] (36995)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2015,26(1):62-81, DOI:10.13328/j.cnki.jos.004701
    [摘要] (14963) [HTML] (702) [PDF 1.04 M] (22656)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2014,25(4):839-862, DOI:10.13328/j.cnki.jos.004558
    [摘要] (14781) [HTML] (802) [PDF 1.32 M] (16685)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2009,20(10):2729-2743, DOI:
    [摘要] (13937) [HTML] (0) [PDF 1.12 M] (9431)
    摘要:
    基于多跳的无线传感器网络,越靠近sink的传感器节点因需要转发更多的数据,其能量消耗就越快,从而在sink周围形成了一种称为“能量洞”的现象.“能量洞”问题会导致整个网络由于内部节点能量过早耗尽而结束寿命,同时,网络中离sink较远的节点仍有大量能量剩余.研究“能量洞”现象,基于改进的分级环模型,总结出调节各环内节点的数据传输距离是实现网络节能的有效方法.证明搜索各区域最优的传输距离是一个多目标优化问题,即是NP难问题.从而提出一种基于蚁群优化的分布式算法,各区域根据其节点分布情况自适应地探索近似最优的传输距离,延长网络寿命.模拟实验结果表明,该算法在较短的时间内能够收敛到合理的解,并且得到的网络寿命接近于理想情况下的最优时间,与现有的类似算法相比,该算法提供了更长的网络寿命,并能适用于非均匀节点分布情况.
    2012,23(5):1148-1166, DOI:10.3724/SP.J.1001.2012.04195
    [摘要] (13719) [HTML] (0) [PDF 946.37 K] (15426)
    摘要:
    随着云计算的发展,云数据库的重要性和价值日益显现.介绍了云数据库的特性、影响、相关产品.详细讨论了云数据库领域的研究问题,包括数据模型、系统体系架构、事务一致性、编程模型、数据安全、性能优化和测试基准等.最后讨论了云数据库未来的研究方向.
    2012,23(1):1-20, DOI:10.3724/SP.J.1001.2012.04100
    [摘要] (13608) [HTML] (0) [PDF 1017.73 K] (28115)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2000,11(11):1460-1466, DOI:
    [摘要] (13505) [HTML] (0) [PDF 520.69 K] (9648)
    摘要:
    入侵检测是近年来网络安全研究的热 点.首先说明入侵检测的必要性,并给出入侵检测的概念和模型,概述了多种入侵检测方法及 体系结构.最后,讨论了该领域当前存在的问题及今后的研究方向.
    2004,15(4):571-583, DOI:
    [摘要] (13230) [HTML] (0) [PDF 1005.17 K] (8425)
    摘要:
    在诸如文件共享等无中心的Peer-to-Peer环境中,资源共享是用户自愿的行为.在这类系统中,由于用户不为自身的行为担负(法律)责任,因而节点间的信任关系往往很难通过传统的信任机制建立.一种更合理的考虑是参考人际网络中基于推荐的信任关系建立方法.现有的模型不能很好地解决模型的迭代收敛性问题,同时缺乏对诸如冒名、诋毁等安全性问题的考虑.针对上述问题,在节点推荐的基础上提出了一种基于Peer-to-Peer环境的信任模型,并给出了该模型的数学分析和分布式实现方法.分析及仿真表明,该信任模型较已有模型在迭代的收敛性、模型的安全性等问题上有较大改进.
    2008,19(zk):112-120, DOI:
    [摘要] (13221) [HTML] (0) [PDF 594.29 K] (13111)
    摘要:
    无线移动Ad Hoc网络是一种不依赖任何固定基础设施的移动无线多跳网络.由于其动态性和资源的限制,在Ad Hoc网络中提供多路径路由是一个重要的研究课题.描述了一种Ad Hoc网络中基于信息熵选择的稳定多路径路由算法(stability multipath on-demand routing,简称SMDR),提出了路径熵的度量参数,并利用路径熵来选择稳定的、长寿命的多路径,减少了重构路由的次数,从而在网络拓扑频繁变化的Ad Hoc网络环境中较好地提供QoS保证和提高数据传输率.仿真结果表明,SMDR协议改进了分组传输率、端到端时延和路由负载率.SMDR协议为解决动态的Ad Hoc网络多路径传输提供了一种新的有效途径.
    2013,24(8):1786-1803, DOI:10.3724/SP.J.1001.2013.04416
    [摘要] (13200) [HTML] (0) [PDF 1.04 M] (14561)
    摘要:
    针对大数据管理的新需求,呈现出了许多面向特定应用的NoSQL 数据库系统.针对基于key-value 数据模型的NoSQL 数据库的相关研究进行综述.首先,介绍了大数据的特点以及支持大数据管理系统面临的关键技术问题;然后,介绍了相关前沿研究和研究挑战,其中典型的包括系统体系结构、数据模型、访问方式、索引技术、事务特性、系统弹性、动态负载均衡、副本策略、数据一致性策略、基于flash 的多级缓存机制、基于MapReduce 的数据处理策略和新一代数据管理系统等;最后给出了研究展望.
    2006,17(7):1588-1600, DOI:
    [摘要] (13101) [HTML] (0) [PDF 808.73 K] (12774)
    摘要:
    在无线传感器网络体系结构中,网络层的路由技术至关重要.分簇路由具有拓扑管理方便、能量利用高效、数据融合简单等优点,成为当前重点研究的路由技术.分析了无线传感器网络分簇路由机制,着重从簇头的产生、簇的形成和簇的路由角度系统地描述了当前典型的分簇路由算法,并比较和分析了这些算法的特点和适用情况.最后结合该领域当前研究现状,指出分簇路由算法未来的研究重点.
    2011,22(1):115-131, DOI:10.3724/SP.J.1001.2011.03950
    [摘要] (12999) [HTML] (0) [PDF 845.91 K] (25702)
    摘要:
    Internet 流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3 个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.
    2002,13(7):1228-1237, DOI:
    [摘要] (12944) [HTML] (0) [PDF 500.04 K] (12177)
    摘要:
    近年来,软件体系结构逐渐成为软件工程领域的研究热点以及大型软件系统与软件产品线开发中的关键技术之一.归纳了软件体系结构技术发展过程及其主要研究方向.在分析了典型的软件体系结构概念之后,给出了软件体系结构的定义.通过总结软件体系结构领域的若干研究活动,提出了软件体系结构研究的两大思路,并从7个方面介绍了软件体系结构研究进展.探讨了软件体系结构研究中的不足之处,并分析其原因.作为总结,给出了软件体系结构领域最有前途的发展趋势.
    2009,20(1):11-29, DOI:
    [摘要] (12919) [HTML] (0) [PDF 787.30 K] (12341)
    摘要:
    约束优化问题是科学和工程应用领域经常会遇到的一类数学规划问题.近年来,约束优化问题求解已成为进化计算研究的一个重要方向.从约束优化进化算法=约束处理技术+进化算法的研究框架出发,从约束处理技术和进化算法两个基本方面对约束优化进化算法的研究及进展进行了综述.此外,对约束优化进化算法中的一些重要问题进行了探讨.最后进行了各种算法的比较性总结,深入分析了目前约束优化进化算法中亟待解决的问题,并指出了值得进一步研究的方向.
    2015,26(1):26-39, DOI:10.13328/j.cnki.jos.004631
    [摘要] (12816) [HTML] (591) [PDF 763.52 K] (12005)
    摘要:
    近年来,迁移学习已经引起了广泛的关注和研究.迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法.它放宽了传统机器学习中的两个基本假设:(1) 用于学习的训练样本与新的测试样本满足独立同分布的条件;(2) 必须有足够可利用的训练样本才能学习得到一个好的分类模型.目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题.对迁移学习算法的研究以及相关理论研究的进展进行了综述,并介绍了在该领域所做的研究工作,特别是利用生成模型在概念层面建立迁移学习模型.最后介绍了迁移学习在文本分类、协同过滤等方面的应用工作,并指出了迁移学习下一步可能的研究方向.
    2013,24(1):50-66, DOI:10.3724/SP.J.1001.2013.04276
    [摘要] (12720) [HTML] (0) [PDF 0.00 Byte] (14831)
    摘要:
    作为云平台提升应用性能的一种重要手段,分布式缓存技术近年来受到了工业界和学术界的广泛关注.从云计算与分布式缓存技术的结合入手,分析介绍了分布式缓存的特性、典型应用场景、发展阶段、相关标准规范以及推动缓存技术发展的若干关键要素.为系统地了解分布式缓存技术的现状和不足,建立了一个云环境下分布式缓存技术的分析框架——DctAF.该框架从分析云计算的特点和缓存技术的边界出发,涵盖6个分析维度.基于DctAF框架,对当前缓存技术进行总结和分析,并对典型系统进行比较.在此基础上,深入阐述了云环境下分布式缓存系统面临的挑战;围绕上述挑战,分析和比较了已有的研究工作.
    2008,19(8):1902-1919, DOI:
    [摘要] (12578) [HTML] (0) [PDF 521.73 K] (12165)
    摘要:
    可视化语言技术比一维文本语言在描述软件组成方面具有优越性.由于图表和图形概念在系统建模中的广泛使用,可视化语言可以应用于需求分析、设计、测试和维护等软件开发的各个阶段.除了具有直观易见的特点之外,图文法在计算机上的精确建模和验证能力,为设计可视化语言提供了一个坚实的理论基础.讨论了可视化语言的形式理论基础,回顾了相关的可视化图形编程环境.特别提出了一种空间图文法,并且用该图文法定义了统一建模语言的行为语义.基于空间图文法,开发了一种基于模式驱动的框架,以帮助软件架构与设计.
    2003,14(9):1621-1628, DOI:
    [摘要] (12430) [HTML] (0) [PDF 680.35 K] (17251)
    摘要:
    推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目的日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居.实验结果表明,该算法可以有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系统的推荐质量.
    2008,19(8):1947-1964, DOI:
    [摘要] (12366) [HTML] (0) [PDF 811.11 K] (8471)
    摘要:
    设计与实现面向领域应用的交互式信息可视化软件十分困难.缺乏统一的开发方法与支撑工具箱,为非专家用户提供对层次、网络、多维等数据类型的统一支持,对各种可视化技术与交互技术的统一支持,以及对信息可视化任务的统一支持.针对此问题,提出了一种模型驱动的交互式信息可视化开发方法Daisy.首先,提出了交互式信息可视化界面模型IIVM(interactive information visualization interface model);然后,提出了基于IIVM的交互式信息可视化开发方法Daisy,讨论了该方法的两个核心技术:IIVM建模与描述文件生成方法、系统自动生成方法.同时,给出了Daisy工具箱,包括Daisy建模工具、Daisy系统自动生成工具以及运行时框架与组件库.最后,给出了该开发方法与工具箱的应用实例.实例表明,该方法能够为交互式信息可视化开发的统一支撑方法问题提供一种有效的解决方案.
    2010,21(2):231-247, DOI:
    [摘要] (12345) [HTML] (0) [PDF 1.21 M] (14676)
    摘要:
    通过分析服务组合的故障需求,给出服务组合故障处理的框架.该框架采用Petri网来解决服务组合的错误发现及其处理问题.重点讨论了可用服务失败、组件失败及网络故障的情况,并相应地给出了服务组合故障模型.在此基础上对故障处理模型进行分析,给出服务组合故障处理正确性准则,并证明了其正确性.最后,采用CTL (computational tree logic)描述相关性质并提出验证服务组合故障分析的实施算法.仿真结果表明,该方法在处理服务组合故障时具有一定的优越性.
    2002,13(10):1952-1961, DOI:
    [摘要] (12321) [HTML] (0) [PDF 570.96 K] (10112)
    摘要:
    对个性化服务技术中用户描述文件的表达与更新、资源描述文件的表达、个性化推荐技术、个性化服务体系结构以及该领域的主要研究成果进行了综述.通过比较现有原型系统的实现方式,详细讨论了实现个性化服务的关键技术.此外,分析了3个具有代表性的个性化服务系统.最后对个性化服务技术进一步研究工作的方向进行了展望.
    2003,14(9):1635-1644, DOI:
    [摘要] (12201) [HTML] (0) [PDF 622.06 K] (10385)
    摘要:
    计算机取证研究的是如何为调查计算机犯罪提供彻底、有效和安全的技术.其关键是确保证据的真实性、可靠性、完整性和符合法律规定.介绍了计算机取证的过程以及取证软件的原理和实现,并且给出完整的取证实例.从理论和实现两个方面讨论了现有取证技术的局限性和面临的挑战,并展望其未来的发展方向.由于计算机犯罪手段的变化和其他技术的引入,现有的取证工作将向着深入和综合的方向发展.
    2012,23(1):82-96, DOI:10.3724/SP.J.1001.2012.04101
    [摘要] (12091) [HTML] (0) [PDF 394.07 K] (12407)
    摘要:
    以僵尸网络为载体的各种网络攻击活动是目前互联网所面临的最为严重的安全威胁之一.虽然近年来这方面的研究取得了显著的进展,但是由于僵尸网络不断演化、越来越复杂和隐蔽以及网络和系统体系结构的限制给检测和防御带来的困难,如何有效应对僵尸网络的威胁仍是一项持续而具有挑战性的课题.首先从僵尸网络的传播、攻击以及命令与控制这3 个方面介绍了近年来僵尸网络工作机制的发展,然后从监测、工作机制分析、特征分析、检测和主动遏制这5 个环节对僵尸网络防御方面的研究进行总结和分析,并对目前的防御方法的局限、僵尸网络的发展趋势和进一步的研究方向进行了讨论.
    2010,21(7):1620-1634, DOI:
    [摘要] (12044) [HTML] (0) [PDF 765.23 K] (18148)
    摘要:
    车用自组网作为移动自组网在智能交通系统中的应用,有望为人们提供更安全、效率更高的旅行方式.广播协议为危险警告、协同驾驶、路况通报等交通信息的发布提供了有效途径.简要介绍了车用自组网的特点和应用分类.采用分析和比较方法,讨论各种信息广播协议的特点、性能差异和应用范围,并针对车用自组网的特点及应用需求指出未来信息广播模型的设计思想和突破方向.
    2017,28(1):1-16, DOI:10.13328/j.cnki.jos.005139
    [摘要] (11999) [HTML] (596) [PDF 1.75 M] (6847)
    摘要:
    背包问题(knapsack problem,简称KP)是一类著名的组合优化问题,也是一类NP难问题,它包括0-1背包问题、有界背包问题、多维背包问题、多背包问题、多选择背包问题、二次背包问题、动态背包问题和折扣背包问题等多种形式,在众多领域有着广泛的应用.演化算法(EAs)是一类有效的快速近似求解KP的算法.对近10余年来利用EAs求解KP的研究情况进行了较为详细的总结,一方面讨论了利用EAs求解各种KP问题时个体的编码方法与处理不可行解的有效方法,另一方面,为今后进一步利用最新提出的EAs求解KP问题提供了一条可借鉴的思路.
    2008,19(7):1565-1580, DOI:
    [摘要] (11765) [HTML] (0) [PDF 815.02 K] (14187)
    摘要:
    软件缺陷预测技术从20世纪70年代发展至今,一直是软件工程领域最活跃的内容之一,在分析软件质量、平衡软件成本方面起着重要的作用.研究和讨论了软件缺陷预测技术的起源、发展和当前所面临的挑战,对主流的缺陷预测技术进行了分类讨论和比较,并对典型的软件缺陷的分布模型给出了案例研究.
    2010,21(5):916-929, DOI:
    [摘要] (11712) [HTML] (0) [PDF 944.50 K] (15565)
    摘要:
    重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了 这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这 两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除 中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研 究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.
    2004,15(12):1751-1763, DOI:
    [摘要] (11704) [HTML] (0) [PDF 928.33 K] (6658)
    摘要:
    报告了关于少儿图灵测试(CTT)的一项研究工作.研究区别于其他人的主要之处是该测试程序是基于知识的,它依靠一个海量常识知识库的支持.给出了作者研究少儿图灵测试的动机、设计、技术、实验结果和平台(包括一个知识引擎和一个会话引擎).最后给出了关于少儿图灵测试的几点研究结论和思考.
    2008,19(10):2706-2719, DOI:
    [摘要] (11676) [HTML] (0) [PDF 778.29 K] (10176)
    摘要:
    Web搜索引擎已经成为人们从海量Web信息中快速找到所需信息的重要工具,随着Web数据量的爆炸性增长,传统的集中式搜索引擎已经越来越不能满足人们不断增长的信息获取需求.随着对等网络(peer-to-peer,简称P2P)技术的快速发展,人们提出了基于P2P的Web搜索技术并迅速成为研究热点.研究的目的是对现有的基于P2P的Web搜索技术进行总结,以期为进一步研究指明方向.首先分析了基于P2P的Web搜索面临的诸多挑战;然后重点总结分析了基于P2P的Web搜索的各项关键技术的研究现状,包括系统拓扑结构、数据存放策略、查询路由机制、索引切分策略、数据集选择、相关性排序、网页收集方法等;最后对已有的3个较有特色的基于P2P的Web搜索原型系统进行了介绍.
    1999,10(11):1206-1211, DOI:
    [摘要] (11532) [HTML] (0) [PDF 392.66 K] (5436)
    摘要:
    该文针对Rough Set理论中属性约简和值约简这两个重要问题进行了研究,提出了一种借助于可辨识矩阵(discernibility matrix)和数学逻辑运算得到最佳属性约简的新方法.同时,借助该矩阵还可以方便地构造基于Rough Set理论的多变量决策树.另外,对目前广泛采用的一种值约简策略进行了改进,最终使得到的规则进一步简化.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2003,14(7):1282-1291, DOI:
    [摘要] (36028) [HTML] (0) [PDF 832.28 K] (76276)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2008,19(1):48-61, DOI:
    [摘要] (26742) [HTML] (0) [PDF 671.39 K] (58437)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2010,21(8):1834-1848, DOI:
    [摘要] (19081) [HTML] (0) [PDF 682.96 K] (51584)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2011,22(1):71-83, DOI:10.3724/SP.J.1001.2011.03958
    [摘要] (28673) [HTML] (0) [PDF 781.42 K] (50729)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2009,20(1):54-66, DOI:
    [摘要] (18515) [HTML] (0) [PDF 1.41 M] (47113)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2009,20(5):1337-1348, DOI:
    [摘要] (27054) [HTML] (0) [PDF 1.06 M] (42202)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2009,20(2):271-289, DOI:
    [摘要] (26049) [HTML] (0) [PDF 675.56 K] (40205)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2004,15(10):1493-1504, DOI:
    [摘要] (8565) [HTML] (0) [PDF 937.72 K] (37115)
    摘要:
    多年来计算机图形处理器(GP以大大超过摩尔定律的速度高速发展.图形处理器的发展极大地提高了计算机图形处理的速度和图形质量,并促进了与计算机图形相关应用领域的快速发展与此同时,图形处理器绘制流水线的高速度和并行性以及近年来发展起来的可编程功能为图形处理以外的通用计算提供了良好的运行平台,这使得基于GPU的通用计算成为近两三年来人们关注的一个研究热点.从介绍GPU的发展历史及其现代GPU的基本结构开始,阐述GPU用于通用计算的技术原理,以及其用于通用计算的主要领域和最新发展情况,并详细地介绍了GPU在流体模拟和代数计算、数据库应用、频谱分析等领域的应用和技术,包括在流体模拟方面的研究工作.还对GPU应用的软件工具及其最新发展作了较详细的介绍.最后,展望了GPU应用于通用计算的发展前景,并从硬件和软件两方面分析了这一领域未来所面临的挑战.
    2009,20(2):350-362, DOI:
    [摘要] (15324) [HTML] (0) [PDF 1.39 M] (36995)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2010,21(3):427-437, DOI:
    [摘要] (31709) [HTML] (0) [PDF 308.76 K] (35869)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2013,24(11):2476-2497, DOI:10.3724/SP.J.1001.2013.04486
    [摘要] (9439) [HTML] (0) [PDF 1.14 M] (31916)
    摘要:
    概率图模型作为一类有力的工具,能够简洁地表示复杂的概率分布,有效地(近似)计算边缘分布和条件分布,方便地学习概率模型中的参数和超参数.因此,它作为一种处理不确定性的形式化方法,被广泛应用于需要进行自动的概率推理的场合,例如计算机视觉、自然语言处理.回顾了有关概率图模型的表示、推理和学习的基本概念和主要结果,并详细介绍了这些方法在两种重要的概率模型中的应用.还回顾了在加速经典近似推理算法方面的新进展.最后讨论了相关方向的研究前景.
    2014,25(9):1889-1908, DOI:10.13328/j.cnki.jos.004674
    [摘要] (10906) [HTML] (674) [PDF 550.98 K] (31152)
    摘要:
    首先根据处理形式的不同,介绍了不同形式数据的特征和各自的典型应用场景以及相应的代表性处理系统,总结了大数据处理系统的三大发展趋势;随后,对系统支撑下的大数据分析技术和应用(包括深度学习、知识计算、社会计算与可视化等)进行了简要综述,总结了各种技术在大数据分析理解过程中的关键作用;最后梳理了大数据处理和分析面临的数据复杂性、计算复杂性和系统复杂性挑战,并逐一提出了可能的应对之策.
    2012,23(4):962-986, DOI:10.3724/SP.J.1001.2012.04175
    [摘要] (17783) [HTML] (0) [PDF 2.09 M] (28455)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2012,23(1):32-45, DOI:10.3724/SP.J.1001.2012.04091
    [摘要] (17891) [HTML] (0) [PDF 408.86 K] (28141)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2012,23(1):1-20, DOI:10.3724/SP.J.1001.2012.04100
    [摘要] (13608) [HTML] (0) [PDF 1017.73 K] (28115)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2016,27(1):45-71, DOI:10.13328/j.cnki.jos.004914
    [摘要] (27969) [HTML] (851) [PDF 880.96 K] (27652)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2005,16(5):857-868, DOI:
    [摘要] (19264) [HTML] (0) [PDF 489.65 K] (27508)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2018,29(5):1471-1514, DOI:10.13328/j.cnki.jos.005519
    [摘要] (4757) [HTML] (785) [PDF 4.38 M] (26468)
    摘要:
    计算机辅助检测/诊断(computer-aided detection/diagnosis,简称CAD)能够提高诊断的准确性,减少假阳性的产生,为医生提供有效的诊断决策支持.旨在分析计算机辅助诊断工具的最新发展.以CAD研究较多的四大致命性癌症的发病医学部位为主线,按照不同的成像技术和病类,对目前CAD在不同医学图像领域的应用进行了较为详尽的综述,从图像数据集、算法和评估方法等方面做多维度梳理.最后分析了医学图像CAD系统研究领域目前存在的问题,并对此领域的研究趋势和发展方向进行展望.
    2011,22(1):115-131, DOI:10.3724/SP.J.1001.2011.03950
    [摘要] (12999) [HTML] (0) [PDF 845.91 K] (25702)
    摘要:
    Internet 流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3 个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.
    2013,24(1):77-90, DOI:10.3724/SP.J.1001.2013.04339
    [摘要] (10655) [HTML] (0) [PDF 0.00 Byte] (24560)
    摘要:
    任务并行编程模型是近年来多核平台上广泛研究和使用的并行编程模型,旨在简化并行编程和提高多核利用率.首先,介绍了任务并行编程模型的基本编程接口和支持机制;然后,从3个角度,即并行性表达、数据管理和任务调度介绍任务并行编程模型的研究问题、困难和最新研究成果;最后展望了任务并行未来的研究方向.
    2015,26(1):62-81, DOI:10.13328/j.cnki.jos.004701
    [摘要] (14963) [HTML] (702) [PDF 1.04 M] (22656)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2017,28(4):959-992, DOI:10.13328/j.cnki.jos.005143
    [摘要] (8250) [HTML] (605) [PDF 3.58 M] (20612)
    摘要:
    大数据时代下,移动互联网发展与移动终端的普及形成了海量移动对象轨迹数据.轨迹数据含有丰富的时空特征信息,通过轨迹数据处理技术,可以挖掘人类活动规律与行为特征、城市车辆移动特征、大气环境变化规律等信息.海量的轨迹数据也潜在性地暴露出移动对象行为特征、兴趣爱好和社会习惯等隐私信息,攻击者可以根据轨迹数据挖掘出移动对象的活动场景、位置等属性信息.另外,量子计算因其强大的存储和计算能力成为大数据挖掘重要的理论研究方向,用量子计算技术处理轨迹大数据,可以使一些复杂的问题得到解决并实现更高的效率.对轨迹大数据中数据处理关键技术进行了综述.首先,介绍轨迹数据概念和特征,并且总结了轨迹数据预处理方法,包括噪声滤波、轨迹压缩等;其次,归纳轨迹索引与查询技术以及轨迹数据挖掘已有的研究成果,包括模式挖掘、轨迹分类等;总结了轨迹数据隐私保护技术基本原理和特点,介绍了轨迹大数据支撑技术,如处理框架、数据可视化;也讨论了轨迹数据处理中应用量子计算的可能方式,并且介绍了目前轨迹数据处理中所使用的核心算法所对应的量子算法实现;最后,对轨迹数据处理面临的挑战与未来研究方向进行了总结与展望.
    2011,22(6):1299-1315, DOI:10.3724/SP.J.1001.2011.03993
    [摘要] (9822) [HTML] (0) [PDF 987.90 K] (20016)
    摘要:
    由于属性基加密(attribute-based encryption,简称ABE)机制以属性为公钥,将密文和用户私钥与属性关联,能够灵活地表示访问控制策略,从而极大地降低了数据共享细粒度访问控制带来的网络带宽和发送结点的处理开销.因此,ABE 在细粒度访问控制领域具有广阔的应用前景.在对基本ABE 机制及其两种扩展:密钥-策略ABE(KP-ABE)和密文-策略ABE(CP-ABE)进行深入研究、分析后,针对ABE 中的CP-ABE 机制访问结构的设计、属性密钥撤销、ABE 的密钥滥用、多授权机构等难点问题进行了深入探讨和综合分析,对比了现有研究工作的功能及开销.最后讨论了ABE 未来需进一步研究的问题和主要研究方向.
    2009,20(1):124-137, DOI:
    [摘要] (16011) [HTML] (0) [PDF 1.06 M] (19958)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2009,20(3):524-545, DOI:
    [摘要] (16860) [HTML] (0) [PDF 1.09 M] (19906)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2006,17(9):1848-1859, DOI:
    [摘要] (11443) [HTML] (0) [PDF 770.40 K] (18958)
    摘要:
    文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
    2005,16(1):1-7, DOI:
    [摘要] (21103) [HTML] (0) [PDF 614.61 K] (18370)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2004,15(11):1583-1594, DOI:
    [摘要] (7659) [HTML] (0) [PDF 1.57 M] (18325)
    摘要:
    在主、客观世界普遍存在的不确定性中,随机性和模糊性是最重要的两种形式.研究了随机性和模糊性之间的关联性,统一用熵作为客观事物和主观认知中不确定状态的度量,用超熵来度量不确定状态的变化,并利用熵和超熵进一步研究了混沌、分形和复杂网络中的不确定性,以及由此带来的种种进化和变异,为实现不确定性人工智能找到了一种简单、有效的形式化方法,也为包括形象思维在内的不确定性思维的自动化打下了基础.不确定性人工智能是人工智能进入21世纪的新发展.这个由多学科交叉渗透构成的新学科,必将使得机器能够具备人脑一样的不确定性信息和知识的表示能力、处理能力和思维能力.
    2012,23(8):2058-2072, DOI:10.3724/SP.J.1001.2012.04237
    [摘要] (9420) [HTML] (0) [PDF 800.05 K] (18221)
    摘要:
    分布式拒绝服务(distributed denial of service,简称DDoS)攻击是当今互联网的重要威胁之一.基于攻击包所处网络层次,将DDoS 攻击分为网络层DDoS 攻击和应用层DDoS 攻击,介绍了两类攻击的各种检测和控制方法,比较了处于不同部署位置控制方法的优劣.最后分析了现有检测和控制方法应对DDoS 攻击的不足,并提出了DDoS 过滤系统的未来发展趋势和相关技术难点.
    2010,21(7):1620-1634, DOI:
    [摘要] (12044) [HTML] (0) [PDF 765.23 K] (18148)
    摘要:
    车用自组网作为移动自组网在智能交通系统中的应用,有望为人们提供更安全、效率更高的旅行方式.广播协议为危险警告、协同驾驶、路况通报等交通信息的发布提供了有效途径.简要介绍了车用自组网的特点和应用分类.采用分析和比较方法,讨论各种信息广播协议的特点、性能差异和应用范围,并针对车用自组网的特点及应用需求指出未来信息广播模型的设计思想和突破方向.
    2014,25(1):37-50, DOI:10.13328/j.cnki.jos.004497
    [摘要] (8985) [HTML] (648) [PDF 929.87 K] (17946)
    摘要:
    对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望. 从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析.
    2013,24(5):1078-1097, DOI:10.3724/SP.J.1001.2013.04390
    [摘要] (11060) [HTML] (0) [PDF 1.74 M] (17805)
    摘要:
    软件定义网络(software-defined networking,简称SDN)技术分离了网络的控制平面和数据平面,为研发网络新应用和未来互联网技术提供了一种新的解决方案.综述了基于OpenFlow 的SDN 技术发展现状,首先总结了逻辑控制和数据转发分离架构的研究背景,并介绍了其关键组件和研究进展,包括OpenFlow交换机、控制器和SDN技术,然后从4 个方面分析了基于OpenFlow 的SDN 技术目前所面临的问题和解决思路.结合近年来的发展现状,归纳了在校园网、数据中心以及面向网络管理和网络安全方面的应用,最后探讨了未来的研究趋势.
    2005,16(10):1743-1756, DOI:
    [摘要] (9275) [HTML] (0) [PDF 545.62 K] (17271)
    摘要:
    论述了可证明安全性理论在安全方案与安全协议的设计与分析中的应用,内容主要包括:什么是可证明安全性,可证明安全性理论涉及到的一些基本概念,RO(random oracle)模型方法论的基本思想及其在公钥加密和数字签名等方案中的应用研究进展,标准模型下可证明安全性理论在公钥加密和数字签名等方案中的应用研究进展,以及可证明安全性理论在会话密钥分配协议的设计与分析中的应用研究进展.
    2003,14(9):1621-1628, DOI:
    [摘要] (12430) [HTML] (0) [PDF 680.35 K] (17251)
    摘要:
    推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目的日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居.实验结果表明,该算法可以有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系统的推荐质量.
    2018,29(10):2966-2994, DOI:10.13328/j.cnki.jos.005551
    [摘要] (7629) [HTML] (967) [PDF 610.06 K] (16925)
    摘要:
    近年来,随着互联网技术和应用模式的迅猛发展,引发了互联网数据规模的爆炸式增长,其中包含大量有价值的知识.如何组织和表达这些知识,并对其进行深入计算和分析备受关注.知识图谱作为丰富直观的知识表达方式应运而生.面向知识图谱的知识推理是知识图谱的研究热点之一,已在垂直搜索、智能问答等应用领域发挥了重要作用.面向知识图谱的知识推理旨在根据已有的知识推理出新的知识或识别错误的知识.不同于传统的知识推理,由于知识图谱中知识表达形式的简洁直观、灵活丰富,面向知识图谱的知识推理方法也更加多样化.将从知识推理的基本概念出发,介绍近年来面向知识图谱知识推理方法的最新研究进展.具体地,根据推理类型划分,将面向知识图谱的知识推理分为单步推理和多步推理,根据方法的不同,每类又包括基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理.详细总结这些方法,并探讨和展望面向知识图谱知识推理的未来研究方向和前景.
    2013,24(2):295-316, DOI:10.3724/SP.J.1001.2013.04336
    [摘要] (9370) [HTML] (0) [PDF 0.00 Byte] (16707)
    摘要:
    在新的应用模式下,传统层次结构数据中心网络在规模、带宽、扩展性和成本方面存在诸多不足.为了适应新型应用的需求,数据中心网络需要在低成本的前提下,满足高扩展性、低配置开销、健壮性和节能的要求.首先,概述了传统数据中心网络体系结构及其不足,并指出了新的需求;其次,将现有方案划分为两类,即以网络为中心和以服务器为中心的方案;然后,对两类方案中的代表性结构进行了详细的综述和对比分析;最后指出了数据中心网络未来的发展方向.
    2014,25(4):839-862, DOI:10.13328/j.cnki.jos.004558
    [摘要] (14781) [HTML] (802) [PDF 1.32 M] (16685)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2021,32(2):349-369, DOI:10.13328/j.cnki.jos.006138
    [摘要] (5554) [HTML] (846) [PDF 2.36 M] (16641)
    摘要:
    小样本学习旨在通过少量样本学习到解决问题的模型.近年来,在大数据训练模型的趋势下,机器学习和深度学习在许多领域中取得了成功.但是在现实世界中的很多应用场景中,样本量很少或者标注样本很少,而对大量无标签样本进行标注工作将会耗费很大的人力.所以,如何用少量样本进行学习就成为目前人们需要关注的问题.系统地梳理了当前小样本学习的相关工作,具体来说介绍了基于模型微调、基于数据增强和基于迁移学习这3大类小样本学习模型与算法的研究进展;将基于数据增强的方法细分为基于无标签数据、基于数据合成和基于特征增强这3类,将基于迁移学习的方法细分为基于度量学习、基于元学习和基于图神经网络这3类;总结了目前常用的小样本数据集和代表性的小样本学习模型在这些数据集上的实验结果;随后对小样本学习的现状和挑战进行了概述;最后展望了小样本学习的未来发展方向.
    2010,21(7):1605-1619, DOI:
    [摘要] (9431) [HTML] (0) [PDF 856.25 K] (16514)
    摘要:
    随着Internet规模的迅速扩大,复杂性和不确定性也随之增加,基于融合的网络态势感知必将成为网络管理的发展方向.在分析现有网络管理不足以及发展需求的基础上,介绍了网络态势感知的起源、概念、目标和特点.首先,提出了一个网络态势感知研究框架,介绍了研究历程,指出了研究重点以及存在的问题,并将现有评估方法分为3类:基于数学模型的方法、基于知识推理的方法、基于模式识别的方法.然后详细讨论了模型、知识表示和评估方法这3方面的研究内容,总结存在的共性问题,着重评价了每种评估方法的基本思路、评估过程和优缺点,并进行了对比分析.随后介绍了网络态势感知在安全、传输、生存性、系统评价等领域的应用研究.最后指出了网络态势感知的发展方向,并从问题体系、技术体系和应用体系3方面作了总结.
    2009,20(6):1393-1405, DOI:
    [摘要] (11272) [HTML] (0) [PDF 831.86 K] (16364)
    摘要:
    组合测试能够在保证错误检出率的前提下采用较少的测试用例测试系统.但是,组合测试用例集的构造问题的复杂度是NP完全的.组合测试方法的有效性和复杂性吸引了组合数学领域和软件工程领域的学者们对其进行深入的研究.总结了近年来在组合测试方面的研究进展,主要内容包括:组合测试准则的研究、组合测试生成问题与其他NP完全问题的联系、组合测试用例的数学构造方法、采用计算机搜索的组合测试生成方法以及基于组合测试的错误定位技术.
    2008,19(11):2803-2813, DOI:
    [摘要] (8615) [HTML] (0) [PDF 319.20 K] (16213)
    摘要:
    提出了一种基于近邻传播(affinity propagation,简称AP)算法的半监督聚类方法.AP是在数据点的相似度矩阵的基础上进行聚类.对于规模很大的数据集,AP算法是一种快速、有效的聚类方法,这是其他传统的聚类算法所不能及的,比如:K中心聚类算法.但是,对于一些聚类结构比较复杂的数据集,AP算法往往不能得到很好的聚类结果.使用已知的标签数据或者成对点约束对数据形成的相似度矩阵进行调整,进而达到提高AP算法的聚类性能.实验结果表明,该方法不仅提高了AP对复杂数据的聚类结果,而且在约束对数量较多时,该方法要优于相关比对算法.
    2009,20(8):2241-2254, DOI:
    [摘要] (6247) [HTML] (0) [PDF 1.99 M] (16182)
    摘要:
    从数据场思想出发,提出了一种基于拓扑势的社区发现算法.该方法引入拓扑势描述网络节点间的相互作用,将每个社区视为拓扑势场的局部高势区,通过寻找被低势区域所分割的连通高势区域实现网络的社区划分.理论分析与实验结果表明,该方法无须用户指定社区个数等算法参数,能够揭示网络内在的社区结构及社区间具有不确定性的重叠节点现象.算法的时间复杂度为O(m+n3/γ)~O(n2),n为网络节点数,m为边数,2<γ<3为一个常数.
    2020,31(7):2245-2282, DOI:10.13328/j.cnki.jos.006037
    [摘要] (2324) [HTML] (591) [PDF 967.02 K] (16145)
    摘要:
    超声诊断是甲状腺、乳腺癌首选影像学检查和术前评估方法.但良/恶性结节的超声表现存在重叠,仍欠缺定量、稳定的分析手段,严重依赖操作者的经验.近年来,基于计算机技术的医疗影像分析水平快速发展,超声影像分析取得了一系列里程碑式的突破,为医疗提供有效的诊断决策支持.以甲状腺、乳腺两类超声影像为对象,梳理了计算机视觉、图像识别技术在医学超声图像上的学术进展,以超声影像自动诊断涉及的一系列关键技术为主线,从图像预处理、病灶区定位及分割、特征提取和分类这4个方面对近年来主流算法进行了详尽的综述分析,从算法分析、数据和评估方法等方面进行多维度梳理.最后讨论了具体面向这两种腺体的超声图像计算机分析存在的问题,并对此领域的研究趋势和发展方向进行了展望.
    2009,20(8):2199-2213, DOI:
    [摘要] (9934) [HTML] (0) [PDF 2.05 M] (15802)
    摘要:
    对现有的应用于移动互联网的P2P技术方面的研究进行了分析.首先介绍了P2P技术和移动互联网的概念,并提出将P2P技术应用在移动互联网所面临的挑战和应用模式.其次,分别针对集中式架构、超级节点体系架构和ad hoc架构对应用于互联网的P2P网络体系架构进行了阐述.再其次,针对移动终端的两种接入模式,分别在资源定位算法和跨层优化两个方面进行了介绍.对各关键技术的特点进行了详细的分析,指出其存在的不足.最后,对未来的工作进行了展望.
    2009,20(3):567-582, DOI:
    [摘要] (7837) [HTML] (0) [PDF 780.38 K] (15630)
    摘要:
    关于软件质量模型和软件质量评估模型的研究,一直是软件质量保障和评估领域的研究热点,国内外在这两方面进行了大量的研究,并取得了一定的研究成果.近年来,以操作系统为核心的基础软件呈平台化、体系化的发展趋势,基础软件平台的质量评估成为亟待解决的问题.在总结、分析软件质量模型、软件质量评估模型研究发展现状的基础上,重点归纳和描绘了基础软件平台的质量评估发展历程,并简要探讨了基础软件平台质量评估研究的发展方向,力求为展开基础软件平台的质量评估建立良好的基础.
    2010,21(5):916-929, DOI:
    [摘要] (11712) [HTML] (0) [PDF 944.50 K] (15565)
    摘要:
    重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了 这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这 两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除 中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研 究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.
    2012,23(5):1148-1166, DOI:10.3724/SP.J.1001.2012.04195
    [摘要] (13719) [HTML] (0) [PDF 946.37 K] (15426)
    摘要:
    随着云计算的发展,云数据库的重要性和价值日益显现.介绍了云数据库的特性、影响、相关产品.详细讨论了云数据库领域的研究问题,包括数据模型、系统体系架构、事务一致性、编程模型、数据安全、性能优化和测试基准等.最后讨论了云数据库未来的研究方向.
    2007,18(1):146-156, DOI:
    [摘要] (9363) [HTML] (0) [PDF 728.16 K] (15369)
    摘要:
    提出了旨在提高内容传递网络服务性能的代理放置策略CCSP(capacity-constrained surrogate placement).CCSP在保证最大化系统吞吐量的条件下,以最小化系统通信开销为目标,求解最优的代理放置方式.与通信网络中的资源分配问题现有求解策略不同,CCSP通过模拟内容传递网络的请求路由机制,考虑了代理服务器的负载分布及处理能力约束,从而保证系统具有最低的资源消耗、最大的吞吐能力和良好的负载均衡.提出了高效的贪婪算法用以求解树型网络条件下的CCSP问题,并通过仿真实验系统地分析了算法的有效性.
    2013,24(4):825-842, DOI:10.3724/SP.J.1001.2013.04369
    [摘要] (7638) [HTML] (0) [PDF 1.09 M] (15120)
    摘要:
    蜜罐是防御方为了改变网络攻防博弈不对称局面而引入的一种主动防御技术,通过部署没有业务用途的安全资源,诱骗攻击者对其进行非法使用,从而对攻击行为进行捕获和分析,了解攻击工具与方法,推测攻击意图和动机.蜜罐技术赢得了安全社区的持续关注,得到了长足发展与广泛应用,并已成为互联网安全威胁监测与分析的一种主要技术手段.介绍了蜜罐技术的起源与发展演化过程,全面分析了蜜罐技术关键机制的研究现状,回顾了蜜罐部署结构的发展过程,并归纳总结了蜜罐技术在互联网安全威胁监测、分析与防范等方向上的最新应用成果.最后,对蜜罐技术存在的问题、发展趋势与进一步研究方向进行了讨论.
    2016,27(3):691-713, DOI:10.13328/j.cnki.jos.004948
    [摘要] (8628) [HTML] (557) [PDF 2.43 M] (15108)
    摘要:
    排序学习技术尝试用机器学习的方法解决排序问题,已被深入研究并广泛应用于不同的领域,如信息检索、文本挖掘、个性化推荐、生物医学等.将排序学习融入推荐算法中,研究如何整合大量用户和物品的特征,构建更加贴合用户偏好需求的用户模型,以提高推荐算法的性能和用户满意度,成为基于排序学习推荐算法的主要任务.对近些年基于排序学习的推荐算法研究进展进行综述,并对其问题定义、关键技术、效用评价、应用进展等进行概括、比较和分析.最后,对基于排序学习的推荐算法的未来发展趋势进行探讨和展望.