• 当期目录
  • 优先出版
  • 过刊浏览
  • 点击排行
  • 下载排行
  • 综述文章
  • 专刊文章
  • 分辑系列
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    2021,32(11):3331-3350, DOI: 10.13328/j.cnki.jos.006054
    [摘要] (532) [HTML] (44) [PDF 1.83 M] (547)
    摘要:
    无重叠条件序列模式挖掘是一种间隙约束序列模式挖掘方法,与同类挖掘方法相比,该方法更容易发现有价值的频繁模式,其核心问题是计算给定模式在序列中的支持度或出现数,进而判定该模式的频繁性.而计算模式支持度问题实质是无重叠条件模式匹配.当前研究采用迭代搜索无重叠出现,然后剪枝无用结点的方式计算模式的支持度,其计算时间复杂度为O (m×m×n×W),其中,mnW分别为模式长度、序列长度及最大间隙.为了进一步提高无重叠条件模式匹配计算速度,从而有效地降低无重叠条件序列模式挖掘时间,提出了一种高效的算法,该算法将模式匹配问题转换为一棵网树,然后从网树的最小树根结点出发,采用回溯策略迭代搜索最左孩子方式计算无重叠最小出现,在网树上剪枝该出现后,无需进一步查找并剪枝无效结点即可实现问题的求解.理论证明了该算法的完备性,并将该算法的时间复杂度降低为O (m×n×W).在此基础上,继续指明该问题还存在另外3种相似的求解策略,分别是从最左叶子出发迭代查找最左双亲方式、从最右树根出发迭代查找最右孩子方式和从最右叶子出发迭代查找最右双亲方式.实验结果验证了该算法的性能,特别是在序列模式挖掘中,应用该方法的挖掘算法可以降低挖掘时间.
    2021,32(11):3351-3371, DOI: 10.13328/j.cnki.jos.006059
    [摘要] (1072) [HTML] (40) [PDF 2.77 M] (1010)
    摘要:
    在软件开发的编程现场,有大量与当前开发任务相关的信息,比如代码上下文信息、用户开发意图等.如果能够根据已有的编程现场上下文给开发人员推荐当前代码行,不仅能够帮助开发人员更好地完成开发任务,还能提高软件开发的效率.而已有的一些方法通常是进行代码修复或者补全,又或者只是基于关键词匹配的搜索方法,很难达到推荐完整代码行的要求.针对上述问题,一种可行的解决方案是基于已有的海量源码数据,利用深度学习析取代码行的相关上下文因子,挖掘隐含的上下文信息,为精准推荐提供基础.因此,提出了一种基于深度学习的编程现场上下文深度感知的代码行推荐方法,能够在已有的大规模代码数据集中学习上下文之间潜在的关联关系,利用编程现场已有的源码数据和任务数据得到当前可能的代码行,并推荐Top-N给编程人员.代码行深度感知使用RNN Encoder-Decoder,该框架能够将编程现场已有的若干行上文代码行进行编码,得到一个包含已有代码行上下文信息的向量,然后根据该向量进行解码,得到预测的Top-N代码行输出.利用在开源平台上收集的大规模代码行数据集,对方法进行实验并测试,结果显示,该方法能够根据已有的上下文推荐相关的代码行给开发人员,Top-10的推荐准确率有60%左右,并且MRR值在0.3左右,表示用户满意的推荐项排在N个推荐结果中比较靠前的位置.
    2021,32(11):3372-3387, DOI: 10.13328/j.cnki.jos.006079
    [摘要] (1533) [HTML] (35) [PDF 1.77 M] (1172)
    摘要:
    同行代码评审,即对提交代码进行人工评审,是减少软件缺陷和提高软件质量的有效手段,已被Github等开源社区以及很多软件开发组织广泛采用.在GitHub社区,代码评审是其pull-based软件开发模型的重要组成部分.开源项目往往存在成百上千个候选评审人员,为评审工作推荐合适的评审人员是一项很有价值且挑战性的工作.基于真实开源项目的数据分析发现,评审响应时间过长是普遍存在的问题,这会延长评审周期、降低参与人员积极性,而已有的代码评审人推荐工作均没有考虑响应时间这个因素.因此,提出了响应时间约束的代码评审人推荐问题,即推荐的评审人能否在约定时间内进行评审;进而提出了基于多目标优化的代码评审人推荐方法(MOC2R),该方法通过最大化代码评审人经验、最大化在约定时间内的响应概率、最大化人员最近时间内的活跃性这3个目标,使用多目标优化算法来推荐代码评审人员.基于6个开源项目的数据进行实验,结果表明,在不同时间窗约束下(2h、4h、8h),Top-1准确率为41.7%~61.5%,Top-5准确率为66.5%~77.7%,显著优于两条常用且业内领先的基线方法,且3个目标均对人员推荐有贡献,其中,约定时间内的响应概率目标对于人员推荐的贡献最大.该方法能够进一步提升代码评审效率,提高开源社区的活跃性.
    2021,32(11):3388-3403, DOI: 10.13328/j.cnki.jos.006089
    [摘要] (180) [HTML] (34) [PDF 1.49 M] (336)
    摘要:
    考虑用户评价准则不一致的在线服务评价通常以服务的完整排序作为评价结果,而不是选择出使用户群体满意度最大的Top-k在线服务集合,使评价结果难以满足Top-k在线服务评价场景的合理性和公平性需求.为此,提出了一种用户群体满意度最大化的Top-k在线服务评价方法.该方法首先定义用户群体满意度指标,以衡量选择的k个在线服务的合理性;其次,考虑用户评价准则不一致及用户偏好信息不完整的情况,采用Borda规则将用户对在线服务的偏好关系构造为用户-服务满意度矩阵;然后借鉴Monroe比例代表思想,将Top-k在线服务评价问题建模为寻找最大化用户群体满意度的在线服务集合的优化问题;最后采用贪心算法对该优化问题进行求解,将得到的在线服务集合作为Top-k评价结果.通过理论分析和实验验证了该方法的合理性和有效性.理论分析表明,该方法满足Top-k在线服务评价所需的比例代表性和公平性.同时,实验结果也表明,该方法能够在合理的时间内获得接近用户群体满意度理想上界的评价结果,可以有效地辅助用户群体做出正确的服务选择决策.另外,该方法还可以在用户偏好不完整的情况下实现Top-k在线服务评价.
    2021,32(11):3404-3422, DOI: 10.13328/j.cnki.jos.006090
    [摘要] (176) [HTML] (34) [PDF 2.11 M] (256)
    摘要:
    随着工业互联网的不断发展,大数据和人工智能促成了人机物全面互联.用户使用服务时产生的任务数据量正呈指数级增长,在为线上用户推荐服务满足个性化需求的同时,对于需要通过人机物交互完成的服务,如何整合线上和线下资源,并分派合适的人快速、有效地完成任务,也已成为一个挑战性问题.为了保证服务分派的准确性,提出了一种综合考虑人机物各方面数据特征的跨域融合服务分派方法,分别对用户评价的情感倾向性和业务数据的相似性进行分析,然后加入对业务执行有影响的物理世界的属性特征,以获得更合理的分派.最后,以一个互联网在线诊疗平台的医患分派为例,结果表明,文中提出的分派方法具有较高的准确性,可以获得更好的用户体验.
    2021,32(11):3423-3439, DOI: 10.13328/j.cnki.jos.006277
    [摘要] (420) [HTML] (41) [PDF 1.84 M] (521)
    摘要:
    区块链具有分布式、不可篡改、去中心化、历史可追溯等特点,但难以落地.智能合约的引入,有效地解决了这一难题.然而,智能合约的开发和运维存在部署效率低、监控工具不成熟等问题.受DevOps自动化工具支持微服务持续交付、持续监控的启发,针对上述问题,提出了一种用于智能合约微服务化改造的框架.随后,结合支持DevOps的工具设计原型平台Mictract,完成智能合约的部署和监控.在Hyperledger Fabric官方链码Marbles上的案例研究表明,该框架和原型平台能够显著提升智能合约部署和监控的自动化水平.
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006196
    摘要:
    现有基于熵最大准则选取阈值的方法涉及两个或两个以上的随机变量,它们都忽视了一个约束条件而影响到它们的分割精度和适用范围:参与随机系统整体熵计算的各随机变量应当相互独立.本文提出了一种概率分布双向稀疏化下的单一Tsallis熵最大化导向的自动阈值选取方法,可以自然规避多个随机变量需要相互独立的约束条件.在多尺度卷积乘变换所得两幅图像上,该方法先构建了一个具有双向稀疏概率分布特征的二维随机变量,然后在该二维随机变量基础上定义了一个二维Tsallis熵.在将二维Tsallis熵的计算简化到只涉及二维随机变量的边缘概率分布后,选取单一Tsallis熵取最大值时对应的阈值作为最终分割阈值.提出的方法和1个交互式阈值方法、4个自动阈值方法以及1个自动聚类分割方法进行了比较.所用测试图像集由44幅合成图像和44幅真实世界图像组成,这些测试图像具有单峰、双峰、多峰或无峰灰度直方图模式.结果表明,提出方法的计算效率虽然不优于5个自动分割方法,但是它的分割适应性和分割精度有显著提高.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006197
    摘要:
    控制流是程序过程的抽象表现,对控制流进行混淆可有效提高代码抗逆向能力.本文提出了控制流深度模糊思想:针对循环结构,利用回调函数构造等价循环模型,将过程内基本块跳转变更为过程间函数调用,对抗逆向技术.本文综合应用控制流分析和数据流依赖性分析,建立了基于回调函数的控制流深度模糊模型,并给出功能一致性证明.为进一步增大混淆强度,设计并实现了函数调用融合算法,构造更为复杂的函数调用过程.最后,使用OpenSSL和SpecInt-2000标准测试套件作为测试集,验证了模型的可行性和有效性.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006363
    摘要:
    基于中心化/本地化差分隐私的直方图发布已得到了研究者的广泛关注.用户的隐私需求与收集者的分析精度之间的矛盾直接制约着直方图发布的可用性.针对现有直方图发布方法难以有效同时兼顾用户隐私与收集者分析精度的不足,提出了一种基于混洗差分隐私的直方图发布算法HP-SDP(Histogram Publication with Shuffled Differential Privacy),该算法结合本地哈希编码技术所设计的混洗应答机制SRR(Shuffled Randomized Response)能够以线性分解的方式扰动用户数据以及摆脱数据值域大小的影响.结合SRR机制产生的用户消息,设计一种基于堆排列技术的用户消息均匀随机排列算法MRS(Message Random Shuffling),混洗方利用MRS对所有用户的消息进行随机排列.由于经过MRS混洗后的消息满足中心化差分隐私,使得恶意收集者无法通过消息与用户之间的链接对目标用户进行身份甄别.此外,HP-SDP利用基于二次规划技术的后置处理算法POP(Post-Processing)对混洗后的直方图进行求精处理.HP-SDP算法与现有七种直方图发布算法在四种数据集上实验结果表明,其发布精度优于同类算法.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006368
    摘要:
    视频的点击率预估是视频推荐系统中的重要任务之一,推荐系统可以根据点击率的预估调整视频推荐顺序以提升视频推荐的效果.近年来,随着视频数量的爆炸式增长,视频推荐的冷启动问题也变得愈发严重.针对这个问题,本文提出了一个新的视频点击率预估模型,通过使用视频的内容特征以及上下文特征来加强视频点击率预估的效果;同时通过对冷启动场景的模拟训练和基于近邻的替代方法提升模型应对新视频点击率预估的能力.本文提出的模型可以同时对旧视频和新视频进行点击率预估.在两个真实的电视剧(Track_1_series)和电影(Track_2_movies)点击率预估数据集上的实验表明,本文提出的模型可以显著改善对旧视频的点击率预估性能,并在两个数据集上均超过了现有的模型;对于新视频,相比于不考虑冷启动问题的模型只能获得0.57左右的AUC性能,本文模型在两个数据集上分别获得0.645和0.615的性能,表现出针对冷启动问题更好的鲁棒性.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006502
    摘要:
    当前,以Hadoop、Spark为代表的大数据处理框架,已经在学术界和工业界被广泛应用于大规模数据的处理和分析.这些大数据处理框架采用分布式架构,使用Java、Scala等面向对象语言编写,在集群节点上以Java虚拟机(JVM)为运行时环境执行计算任务,因此依赖JVM的自动内存管理机制来分配和回收数据对象.然而,当前的JVM并不是针对大数据处理框架的计算特征设计的,在实际运行大数据应用时经常出现垃圾回收(GC)时间长、数据对象序列化和反序列化开销大等问题.在一些大数据场景下,JVM的垃圾回收耗时甚至超过应用整体运行时间的50%,已经成为大数据处理框架的性能瓶颈和优化热点.本文对近年来相关领域的研究成果进行了系统性综述:(1)总结了大数据应用在JVM中运行时性能下降的原因;(2)总结了现有面向大数据处理框架的JVM优化技术,对相关优化技术进行了层次划分,并分析比较了各种方法的优化效果、适用范围、使用负担等优缺点;(3)探讨了JVM未来的优化方向,有助于进一步提升大数据处理框架的性能.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006503
    摘要:
    面向对象软件度量是理解和保证面向对象软件质量的重要手段之一.通过将面向对象软件的度量值与其阈值比较,可简单直观评价其是否有可能包含缺陷.确定度量阈值方法主要有基于数据分布特征的无监督学习方法和基于缺陷相关性的有监督学习方法.两类方法各有利弊:无监督学习方法无需标签信息而易于实现,但所得阈值的缺陷预测性能通常较差;有监督学习方法通过机器学习算法提升所得阈值的缺陷预测性能,但标签信息在实际过程中不易获得且度量与缺陷链接技术复杂.近年来,两类方法的研究者不断探索并取得较大进展.同时,面向对象软件度量阈值确定方法研究仍存在一些亟待解决的挑战.本文对近年来国内外学者在该领域的研究成果进行系统性的总结.首先,阐述面向对象软件度量阈值确定方法的研究问题.其次,分别从无监督学习方法和有监督学习方法总结相关研究进展,并梳理具体的理论和实现的技术路径.然后,简要介绍面向对象软件度量阈值的其他相关技术.最后,总结当前该领域研究过程面临的挑战并给出建议的研究方向.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006510
    摘要:
    随着计算机网络规模和复杂度的日益增长,网络管理人员难以保证网络意图得到了正确实现,错误的网络配置将影响网络的安全性和可用性.受到形式化方法在硬软件验证领域中成功应用的启发,研究人员将形式化方法应用到网络中,形成了一个新的研究领域,即网络验证(Network Verification),旨在使用严格的数学方法证明网络的正确性.网络验证已经成为当下网络和安全领域的热点研究,其研究成果也在实际网络中得到了成功应用.本文从数据平面验证、控制平面验证和有状态网络验证三个研究方向,对网络验证领域的已有研究成果进行了系统总结,对研究热点内容与解决方法进行了分析,旨在整理网络验证领域的发展脉络,为本领域研究者提供系统性文献参考和未来工作展望.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006513
    摘要:
    匿名网络旨在公开网络环境中保护用户通信隐私.自Chaum提出Mix网以来,相关研究在几十年中不断取得进展.如今,匿名网络已发展成以Mix网、DC网或PIR为基础,并结合多种设计要素,使之适用于各种应用场景和威胁模型.本文从匿名概念出发,介绍匿名网络领域的发展情况,分类阐述代表性研究工作及其设计选择,并系统地从匿名性、延迟和带宽开销等角度进行分析.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006515
    摘要:
    提出了一种基于各向异性高斯核核惩罚的主成分分析的特征提取算法.该算法不同于传统的核主成分分析算法.在非线性数据降维中,传统的核主成分分析算法忽略了原始数据的无量钢化.此外,传统的核函数在各维度上主要由一个相同的核宽参数控制,该方法无法准确反映各维度不同特征的重要性,从而导致降维过程中准确率低下.为了解决上述问题,本文首先针对现原始数据的无量钢化问题,提出了一种均值化算法,使得原始数据的总方差贡献率有明显地提高.其次,引入了各向异性高斯核函数,该核函数每个维度拥有不同的核宽参数,各核宽参数能够准确的反映所在维度数据特征的重要性.再次,基于各向异性高斯核函数建立了核主成分分析的特征惩罚目标函数,以便用较少的特征表示原始数据,并反映每个主成分信息的重要性.最后,为了寻求最佳特征,引入梯度下降算法来更新特征惩罚目标函数中的核宽度和控制特征提取算法的迭代过程.为了验证所提出算法的有效性,各算法在UCI公开数据集上和KDDCUP99数据集上进行了比较.实验结果表明,本文提出的基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法在9种公开的UCI公开数据集上准确率平均提高了4.49%.在KDDCUP99数据集上,本文提出的基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法准确率提高了8%.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006518
    摘要:
    近年来,伴随着现代信息技术的迅猛发展,以人工智能为代表的新兴技术在教育领域得到了广泛应用,引发了学习理念和方式的深刻变革.在这种大背景下,在线学习超越了时空的限制,为学习者"随时随地"学习提供了更多的可能性,从而得到了蓬勃发展.然而,在线学习中师生时间、空间分离的特征,导致教师无法及时掌握学生的学习状态,一定程度上制约了在线学习中教学质量的提升.面对多元化的学习需求及海量学习资源,如何迅速完成学习目标、降低学习成本、合理分配学习资源等问题成为限制个人和时代发展的重大问题.然而,传统的"一刀切"的教育模式已经不能满足人们获取知识的需求了,我们需要一个更高效、更科学的个性化教育模式,以帮助学习者以最小的学习成本最大限度地完成学习目标.基于以上背景,如何自动高效识别学习者特征,高效地组织和分配学习资源,为每一位学习者规划个性化路径,成为面向个体的精准化教育资源匹配机制研究中亟待解决的问题.在本文中,我们系统地综述并分析了当前个性化学习路径推荐的研究现状,并从多学科领域的角度分析了对于同一问题的不同研究思路,同时我们也归纳总结了当前研究中最为主流的核心推荐算法.最后,我们强调当前研究存在的主要不足之处.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006521
    摘要:
    推荐系统是一种通过理解用户的兴趣和偏好帮助用户过滤大量无效信息并获取感兴趣的信息或者物品的信息过滤系统.目前主流的推荐系统主要基于离线的、历史的用户数据,不断训练和优化线下模型,继而为在线的用户推荐物品,这类训练方式主要存在三个问题:基于稀疏且具有噪声的历史数据估计用户偏好的不可靠估计、对影响用户行为的在线上下文环境因素的忽略和默认用户清楚自身偏好的不可靠假设.由于对话系统关注于用户的实时反馈数据,获取用户当前交互的意图,因此"对话推荐"通过结合对话形式与推荐任务成为解决传统推荐问题的有效手段.对话推荐将对话系统实时交互的数据获取方式应用到推荐系统中,采用了与传统推荐系统不同的推荐思路,通过利用在线交互信息,引导和捕捉用户当前的偏好兴趣,并及时进行反馈和更新.在过去的几年里,越来越多的研究者开始关注对话推荐系统,这一方面归功于自然语言处理领域中语音助手以及聊天机器人技术的广泛使用,另一方面受益于强化学习、知识图谱等技术在推荐策略中的成熟应用.本文将对话推荐系统的整体框架进行梳理,将对话推荐算法研究所使用的数据集进行分类,同时对评价对话推荐效果的相关指标进行讨论,重点关注于对话推荐系统中的后台对话策略与推荐逻辑,对近年来的对话推荐算法进行综述,最后对对话推荐领域的未来发展方向进行展望.
    优先出版日期:  2021-11-24 , DOI: 10.13328/j.cnki.jos.006500
    摘要:
    在软件开发和维护过程中,缺陷修复人员通常根据由终端用户或者开发/测试者提交的缺陷报告来定位和修复缺陷.因此,缺陷报告本身的质量对修复人员能否快速准确定位并修复缺陷具有重要的作用.围绕缺陷报告质量的刻画及改进,研究人员开展了大量的研究工作,但尚未进行系统性的归纳.本文旨在对这些工作进行系统性地梳理,展示该领域的研究现状并为未来的研究方向提供参考意见.首先,本文总结了已有缺陷报告存在的质量问题,如关键信息缺失、信息错误等;接着,总结了对缺陷报告质量进行自动化建模的技术;然后,描述了一系列对缺陷报告质量进行改进的方法;最后,对未来研究可能面临的挑战和机遇进行了展望.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006485
    摘要:
    强化学习是一种从试错过程中发现最优行为策略的技术,已经成为解决环境交互问题的通用方法.然而,作为一类机器学习算法,强化学习也面临着机器学习领域的公共难题,即难以被人理解.缺乏可解释性限制了强化学习在安全敏感领域中的应用,如医疗、驾驶等,并导致强化学习在环境仿真、任务泛化等问题中缺乏普遍适用的解决方案.为了克服强化学习的这一弱点,涌现了大量强化学习可解释性(Explainable Reinforcement Learning,XRL)的研究.然而,学术界对XRL尚缺乏一致认识.因此,本文探索XRL的基础性问题,并对现有工作进行综述.具体而言,本文首先探讨了父问题——人工智能可解释性,对人工智能可解释性的已有定义进行了汇总;其次,构建了一套可解释性领域的理论体系,从而描述XRL与人工智能可解释性的共同问题,包括界定智能算法和机械算法、定义解释的含义、讨论影响可解释性的因素、划分了解释的直观性;然后,根据强化学习本身的特征,定义了XRL的三个独有问题,即环境解释、任务解释、策略解释;之后,对现有方法进行了系统的归类,并对XRL的最新进展进行综述;最后,展望了XRL领域的潜在研究方向.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006488
    [摘要] (272) [HTML] (0) [PDF 1.58 M] (191)
    摘要:
    近年来随着计算机视觉领域的不断发展,三维场景的语义分割和形状补全受到学术界和工业界的广泛关注.其中,语义场景补全是这一领域的新兴研究,该研究以同时预测三维场景的空间布局和语义标签为目标,在近几年得到快速发展.本文对近些年该领域提出的基于RGB-D图像的方法进行了分类和总结.根据有无使用深度学习将语义场景补全方法划分为传统方法和基于深度学习的方法两大类.其中,对于基于深度学习的方法,根据输入数据类型将其划分为基于单一深度图像的方法和基于彩色图像联合深度图像的方法.在对已有方法分类和概述的基础上,本文对语义场景补全任务所使用的相关数据集进行了整理,并分析了现有方法的实验结果.最后,本文总结了该领域面临的挑战和发展前景.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006499
    摘要:
    准确预测胶质瘤染色体1p/19q的缺失状态对于制定合适的治疗方案和评估胶质瘤的预后有着重要的意义.虽然已有研究能够基于磁共振图像和机器学习方法实现胶质瘤1p/19q状态的准确预测,但大多数方法需要事先准确勾画肿瘤边界,无法满足计算机辅助诊断的实际需求.因此,本文提出一种深度多尺度不变特征网络(Deep multi-scale Invariant Features-based Network,DMIF-Net)预测1p/19q的缺失状态.首先利用小波散射网络提取多尺度、多方向不变特征,同时基于深度分离转聚合网络提取高级语义特征,然后通过多尺度池化模块对特征进行降维并融合,最后在仅输入肿瘤区域定界框图像的情况下,实现胶质瘤1p/19q状态的准确预测.实验结果表明,在不需要准确勾画肿瘤边界的前提下,DMIF-Net预测胶质瘤1p/19q缺失状态的AUC (Area Under Curve)可达0.92(95% CI=[0.91,0.94]),相比于最优的主流深度学习模型其AUC增加了4.1%,灵敏度和特异性分别增加了4.6%和3.4%,相比于最好的胶质瘤分类前沿模型,其AUC与精度分别增加了4.9%和5.5%.此外,消融实验证明了本文所提出的多尺度不变特征提取网络可以有效的提高模型的预测性能,说明结合深度高级语义特征和多尺度不变特征可以在不勾画肿瘤边界的情况下,显著增加对胶质瘤1p/19q缺失状态的预测能力,进而为低级别胶质瘤的个性化治疗方案制定提供一种辅助手段.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006402
    摘要:
    区块链是由一系列网络节点构建的一种分布式账本,本身具有不可篡改性、去中心化、去信任化、密码算法安全性和不可否认性等安全属性,本文对基于区块链实现的安全服务进行了综述,这些安全服务包括数据机密性、数据完整性、身份认证、数据隐私、数据可信删除.首先介绍了区块链和公钥密码学的基础知识,并围绕上述五种安全服务,给出了用户真实场景中面临的安全问题以及传统的解决方案,并讨论了这些传统实现方案所面临的问题,之后介绍了使用区块链技术解决相关问题的实现方案,最后讨论了区块链的价值以及面临的问题.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006420
    [摘要] (157) [HTML] (0) [PDF 1.28 M] (143)
    摘要:
    情绪是情感的外在体现,影响人类的认知、感知、理性决策等日常活动.情绪识别作为实现计算机全面智能的一项基础任务,在情感计算和人机交互领域被深入研究和广泛应用.相比面部表情、语音或其他生理信号,利用脑电进行情绪识别具有时间分辨率高、成本低、识别效果好、可靠性高的优势.近年来,越来越多的深度学习框架被应用于基于脑电信号的情绪识别,并取得了比传统机器学习方法更加优异的效果.基于深度脑电特征的情绪识别是当前的研究热点之一,也具有一定的挑战性.目前,可供参考的针对此研究热点的综述文献较少.本文对近年来国内外相关文献进行调研分析,从模型输入、深度框架、实验设置、实验结果等方面对深度学习在基于脑电的情绪识别中的应用研究做了总结概况,并在DEAP和SEED这两个公开的脑电-情绪数据集上对具有代表性的方法进行了定性和定量的多方面对比,对这些方法存在的不足进行了分析和总结,同时也对未来可能的研究方向进行了展望.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006421
    摘要:
    传统的区块链技术为了保证交易账本的全网共识和不可篡改性,要求矿工节点具有强大的计算能力和足够的存储空间,这就限制了资源受限的设备加入区块链.近几年,区块链技术已经拓展到金融经济、医疗健康、物联网、供应链等多个领域,但是这些应用场景存在大量算力弱、存储容量低的设备,这给区块链的应用带来了巨大挑战.为此轻量级的区块链技术应运而生.从轻量级计算和轻量级存储两方面出发,总结当前轻量级区块链的研究现状,对比分析各个方案的优缺点.最后展望未来轻量级区块链的发展.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006425
    摘要:
    在软件测试过程中,待测程序的预期输出是判断软件是否存在缺陷的重要因素.蜕变测试技术是利用被测软件的属性来检查程序输出,从而有效的解决程序预期输出难以构造的问题.近年来,蜕变测试在软件测试领域取得了蓬勃的发展,许多研究人员将蜕变测试技术进行优化,将其运用到各个领域,有效提高了软件质量.本文从原理、过程及其优化,应用领域3个方面,总结蜕变测试的研究工作,着重分析了近5年的研究进展,进一步展望了蜕变测试用于并行程序时,可能的研究主题.首先,介绍蜕变测试的基本概念和蜕变测试过程;接着,从蜕变关系、测试用例、测试执行过程以及蜕变测试工具四个角度,总结蜕变测试优化技术;然后,汇总了蜕变测试的应用领域;最后,基于已有研究成果,讨论蜕变测试在并行程序测试领域面临的问题,为蜕变技术在并行程序测试领域的研究提供可能的思路.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006426
    [摘要] (901) [HTML] (0) [PDF 1.38 M] (424)
    摘要:
    知识图谱是一种用网络结构存储知识的知识库,在知识图谱中,单条知识被表示成三元组的形式,即(头实体,关系,尾实体).得力于知识图谱在各个领域的广泛应用,面向知识图谱的图嵌入学习也得到越来越多研究人员的关注.面向知识图谱的图嵌入学习任务旨在为图谱中的实体与关系学习低维且稠密的向量,通过图嵌入向量表达实体与关系的语义信息以及度量实体之间、关系之间、实体与关系之间的语义联系,已有许多研究证明图嵌入模型在下游任务中的有效性.近年来,越来越多研究人员开始关注知识图谱的图嵌入学习,并取得大量的研究成果,本文尝试将图嵌入算法分成了基于转移思想、基于张量分解、基于传统深度学习模型、基于图神经网络以及融入额外信息的图嵌入学习共五大类,梳理、介绍各类图嵌入算法的设计思路、算法特征以及优缺点,以帮助指导初步接触该领域的研究人员快速学习了解该研究领域的相关模型和算法.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006429
    [摘要] (254) [HTML] (0) [PDF 1.97 M] (444)
    摘要:
    知识图谱(KG)是一种用图模型来描述知识和建模事物之间关联关系的技术.知识图谱嵌入(KGE)作为一种被广泛采用的知识表示方法,其主要思想是将知识图谱中的实体和关系嵌入到连续的向量空间中,用来简化操作,同时保留KG的固有结构.它可以使得多种下游任务受益,例如KG补全和关系提取等.首先对现有的知识图谱嵌入技术进行全面回顾,不仅包括使用KG中观察到的事实进行嵌入的技术,还包括添加时间维度的动态KG嵌入方法,以及融合多源信息的KG嵌入技术.对相关模型从实体嵌入、关系嵌入、评分函数等方面进行分析、对比与总结.然后简要介绍KG嵌入技术在下游任务中的典型应用,包括问答系统、推荐系统和关系提取等.最后阐述知识图谱嵌入面临的挑战,对未来的研究方向进行展望.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006431
    摘要:
    代码坏味(Code Smells)是低质量的急需重构的代码片段.代码坏味是软件工程领域的一个研究热点,并且相关研究方向众多、时间跨度大、研究成果丰富.为梳理相关研究思路和研究成果、分析研究热点并预判未来研究方向,本文对1990年至2020年6月间发表的代码坏味相关的339篇论文进行了系统地分析和归类,对代码坏味的发展趋势进行了分析与统计,量化揭示了相关研究的主流与热点.揭示了学术界关注的关键代码坏味,并研究了工业界与学术界的关注点的差异及其影响.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006434
    摘要:
    普通的城市道路地图未能覆盖(超)重卡货车的道路禁限行信息,缺少标注适用于大宗货运的热门停驻区域,无法满足货运司机的大批量长距离公路运输需求.为解决大宗货运交通事故频发、物流效率低下等问题,进一步提升货运司机的出行体验感,亟需结合运输货物类型、货车车型以及司机的线路选择偏好等因素,研究适用于公路大宗货运的定制化物流地图构建方法.随着移动互联网、车联网的普及,大宗货运产生的时空数据迅猛增长,与物流运营数据等一起构成物流大数据,为构建物流地图提供了数据基础.本文在梳理地图构建技术的基础上,针对现有电子地图构建方法在大宗货运领域的局限性,利用多源物流数据提出了一个数据驱动的物流地图构建框架,主要研究内容包括:(1)基于用户先验知识的多约束物流地图构建;(2)动态时空数据驱动的物流地图增量更新.物流地图将成为大宗货运发展新一代物流科技的AI基础设施.本文研究成果为物流地图构建的技术创新提供了丰富的实践内容,也为促进大宗物流降本增效提供了新的解决思路,具有重要的理论意义和应用价值.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006435
    摘要:
    任播通过将相同IP地址分配到多个终端节点上,利用BGP实现最佳路径选择.近年来,随着任播技术发展越来越成熟,任播被广泛的运用到DNS和CDN服务上.本文首先全方位的介绍了任播技术,随后讨论了任播技术目前存在的问题并将这些问题归结为三大类:任播推断的不完善,任播性能无法保证,难以控制任播负载均衡.本文针对这些问题,阐述了国内外最新研究进展,总结了任播研究工作中的相关问题及改进方向,为相关领域的研究者提供有益的参考.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006437
    摘要:
    作为具备高性能和高可伸缩性的分布式存储解决方案,键值存储系统近年来被广泛采用,例如Redis、MongoDB、Cassandra等.分布式存储系统中广泛使用的多副本机制一方面提高了系统吞吐量和可靠性,但同时也增加了系统协调和副本一致性的额外开销.对于跨域分布式系统来说,远距离的副本协调开销甚至可能成为系统的性能瓶颈,降低系统的可用性和吞吐量.本文提出的分布式键值存储系统Elsa,是一种面向跨区域架构的无协调键值存储系统.Elsa在保证高性能和高可拓展性的基础上,采用无冲突备份数据结构(CRDT)技术来无协调的保证副本间的强最终一致性,降低了系统节点间的协调开销.本文在阿里云上构建了跨4数据中心8节点的跨区域分布式环境,进行了大规模分布式性能对比实验,实验结果表明:在跨域的分布式环境下,对于高并发争用的负载,Elsa系统的性能具备明显的优势,最高达到MongoDB集群的7.37倍,Cassandra集群的1.62倍.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006370
    摘要:
    在多核计算机时代,多道程序在整个共享内存体系上的“访存干扰”是制约系统总体性能和服务质量的重要因素.即使当前内存资源已相对丰富,但如何优化内存体系的性能,降低访存干扰、并高效地管理内存资源仍是计算机体系结构领域的研究热点.为深入研究此问题,本文详述将“页着色”(Page Coloring)内存划分技术应用于整个内存体系(包括Cache,内存通道以及内存DRAM Bank),进而消除了并行多道程序在共享内存体系上的访存干扰的一系列先进方法.本文从DRAM Bank,Channel与Cache,以及非易失性内存(Non-Volatile Memory,NVM)等内存体系中介质为切入点,层次分明地展开论述.首先,本文详述将页着色应用在多道程序在DRAM Bank与通道的划分,消除多道程序间的访存冲突.随后,是将页着色应用于在内存体系中Cache和DRAM的“垂直”协同划分,可同时消除多级内存介质上的访存干扰.最后,是将页着色应用于包含NVM的混合内存体系,以提高程序运行效率和系统整体效能.实验表明,本文介绍的内存划分方法提高了系统整体性能(平均5%~15%),服务质量(QoS),并有效地降低了系统能耗.通过本文的梳理和总结,较为全面的展现了内存体系划分技术的核心思想、关键技术、应用架构及发展脉络.本文对未来优化内存体系性能,服务器性能及服务质量相关的工作提供了参考.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006358
    摘要:
    近年来,深度学习在图像隐写分析任务中表现出了优越的性能.目前大多数基于深度学习的图像隐写分析模型为专用型隐写分析模型,只适用于特定的某种隐写术.使用专用隐写分析模型对其它隐写算法的隐写图像进行检测,则需要该隐写算法的大量载密图像作为数据集对模型进行重新训练.但是在实际的通用隐写分析任务中,隐写算法的大量载密图像数据集是难以得到的,如何在极少隐写图像样本的情况下训练通用隐写分析模型是一个极大挑战.对此,受到少样本学习领域研究成果的启发,本文提出基于转导传播网络的通用隐写分析方法.首先在已有的少样本学习分类框架上改进了特征提取部分,设计了多尺度特征融合网络,使少样本分类模型能提取到更多的隐写分析特征,使其可用于基于秘密噪声残差等弱信息的分类任务;其次,针对少样本隐写分析模型难收敛的问题,提出了预训练初始化的方式得到具有先验知识的初始模型;然后,分别训练了频域和空域的少样本通用隐写分析模型,通过自测和交叉测试,结果表明检测平均准确率在80%以上;接着,在此基础上采用数据集增强的方式重新训练了频域、空域少样本通用隐写分析模型,使少样本通用隐写分析模型检测准确率与之前相比提高到87%以上;最后,将得到的少样本通用隐写分析模型分别与现有的频域和空域隐写分析模型的检测性能进行比较,结果显示空域上少样本通用隐写分析模型在常用的少样本环境下的检测准确率稍低于SRNet和ZhuNet,频域上少样本通用隐写分析模型在常见的少样本环境下的检测准确率已超越现有的频域隐写分析模型.实验结果表明基于少样本学习的通用隐写分析方法对未知隐写算法检测具有高效性和鲁棒性.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006321
    摘要:
    地区网络边界刻画了现实世界国家和地区之间在网络空间中的拓扑界限.本文提出一种主被动结合的双阶段地区网络边界发现方法——RNB.第一阶段,基于定向拓扑测量与地理定位方法发现目标地区网络边界片段;第二阶段,基于多源信息加权定位和双重PING定位在边界片段中精准发现网络边界.实验以中国大陆地区网络为对象,与CAIDA数据集相比,仅以2.5%的探测代价新发现了37%的边界节点,共计1,644个.经人工验证的一致率为99.3%,经某运营商验证的准确率为75%.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006351
    摘要:
    如何在社交媒体上检测数据流中的突发事件是自然语言处理中的一个热门研究主题,但是,当前用于提取突发事件的方法存在精度低和效率低的问题.为了解决这些问题,本文提出一种基于词相关性特征的突发事件检测方法,能从社会网络数据流中快速地检测出突发事件,以便相关的决策者可以及时有效地采取相关措施进行处理,使突发事件的负面影响能够被尽量降低,维护社会的安定.首先,通过噪声过滤和情绪过滤,我们得到了充满负面情绪的微博文本.然后,根据时间信息,对微博数据进行时间切片,计算每个时间窗口中该数据的每个单词的单词频率特征、用户影响力和单词频率增长率特征,运用突发度计算方法来提取突发词;根据word2vec模型合并相似词,利用突发词的特征相似性构成突发词关系图.最后,运用多归属谱聚类算法对单词关系图进行最优划分,并在时间窗滑过时关注异常词语,通过子图中词语突发度的变化而引起的结构变化对突发事件进行判断.由实验结果知,突发事件检测方法在实时博文数据流中具有很好的事件检测效果,与已有的方法相比,本文提出的突发事件检测方法可以满足突发事件检测的需求,不仅能检测到子事件的详细信息,而且事件的相关信息也能被准确地检测出来.
    优先出版日期:  2021-10-20 , DOI: 10.13328/j.cnki.jos.006501
    摘要:
    为保护计算设备中安全敏感程序运行环境的安全,研究人员提出了TEE技术,通过对硬件和软件进行隔离为安全敏感程序提供一个与通用计算环境隔离的安全运行环境.侧信道攻击从传统的需要昂贵设备发展到现在仅基于微体系结构状态就能通过软件方式获取机密信息的访问模式,从而进一步推测出机密信息.TEE架构仅提供隔离机制,无法抵抗这类新出现的软件侧信道攻击.深入调研了ARM TrustZone、Intel SGX和AMD SEV三种TEE架构的软件侧信道攻击及相应防御措施,并探讨其攻击和防御机制的发展趋势.首先,介绍了ARM TrustZone、Intel SGX和AMD SEV的基本原理,并详细阐述了软件缓存侧信道攻击的定义、分类以及实际的侧信道攻击方法和步骤;之后从处理器指令执行的角度,提出一种TEE攻击面分类方法,利用该方法对TEE软件侧信道攻击进行分类,并阐述了软件侧信道攻击与其它攻击相结合的组合攻击;然后详细讨论TEE软件侧信道攻击的威胁模型;最后全面总结业界对TEE软件侧信道攻击的防御措施,并从攻击和防御两方面探讨TEE软件侧信道攻击未来的研究趋势.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006407
    摘要:
    分离逻辑是经典霍尔逻辑的针对操作指针和动态数据结构的扩展,已经广泛用于对基础软件(比如操作系统内核等)的分析与验证.分离逻辑约束自动求解是提升对操作指针和动态数据结构的程序的验证的自动化程度的重要手段.针对动态数据结构的验证一般同时涉及形状性质(比如单链表、双链表、树等)和数据性质(比如有序性、数据不变性等).本论文主要介绍能对动态数据结构的形状性质与数据约束进行融合推理的分离逻辑求解器COMPSPEN.我们首先介绍COMPSPEN的理论基础,包括能够同时描述线性动态数据结构的形状性质和数据约束的分离逻辑子集SLIDdata、SLIDdata的可满足性和蕴涵问题的判定算法.然后,我们介绍COMPSPEN工具的基本框架.最后,我们使用COMPSPEN工具进行了实例研究.我们收集整理了600个测试用例,在这600个测试用例上将COMPSPEN与已有的主流分离逻辑求解器ASTERIX、S2S、Songbird、SPEN进行了比较.实验结果表明COMPSPEN是唯一能够求解含有集合数据约束的分离逻辑求解器,而且总体来讲,它能对线性数据结构上的同时含有形状性质和线性算术数据约束的分离逻辑公式的可满足性问题进行高效的求解,另外,它也能对蕴涵问题进行求解.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006409
    摘要:
    随着神经网络等技术的快速发展,人工智能被越来越多地应用到安全关键或任务关键系统中,例如汽车自动驾驶系统、疾病诊断系统和恶意软件检测系统等.由于缺乏对人工智能软件系统全面和深入的了解,导致系统时常发生严重错误.人工智能软件系统的功能属性和非功能属性被提出以加强对人工智能软件系统的充分认识和质量保障.经调研,有大量研究者致力于功能属性的研究,但人们越来越关注于人工智能软件系统的非功能属性.为此本文专注于人工智能软件系统的非功能属性,调研了138篇相关领域的论文,从属性定义、属性必要性、属性示例和常见质量保障方法几个方面对目前已有的研究工作进行系统的梳理和详细的总结,同时重新定义和分析了非功能属性之间的关系并介绍了人工智能软件系统研究中可以用到的开源工具.最后,展望了人工智能软件系统非功能属性的未来研究方向和挑战,以期为该领域的研究人员提供参考.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006410
    摘要:
    信息物理融合系统(Cyber-Physical System,简称CPS)在社会生活中发挥越来越广泛的作用.CPS资源的按需编排建立在CPS资源的软件定义基础上,软件接口的定义则依赖对CPS资源能力的充分描述.目前,CPS领域内缺少一个能规范表示资源及其能力的知识库和构建该知识库的有效方法.面向CPS资源的文本描述,本文提出构建CPS资源能力知识图谱并设计一种自底向上的自动构建方法.给定资源,方法先从其代码和文档中提取资源能力的文本描述信息,并基于预定义的表示模式生成规范化表示的能力短语.然后,基于动宾结构的关键成分对能力短语进行划分、聚合与抽象,生成不同类型资源的能力层次化抽象描述.最后,构建资源能力知识图谱.面向Home Assistant平台,本文构建了包含32个资源类别、957个资源能力的知识图谱.图谱构建实验从不同维度对比分析了手工构建和本文方法自动构建的结果.实验表明,本文为CPS资源能力知识图谱的自动化构建提供可行途径,有助于减少人工构建工作量,补充CPS领域内资源服务与能力的描述,并提高图谱的知识完备性.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006411
    摘要:
    随着大数据、云计算等领域的蓬勃发展,重视数据安全与隐私已经成为了世界性的趋势,不同团体为保护自身利益和隐私不愿贡献数据,形成了数据孤岛.联邦学习使数据不出本地就可被多方利用,为解决数据碎片化和数据隔离等问题提供了解决思路.然而越来越多研究表明,由谷歌首先提出的联邦学习算法不足以抵抗精心设计的隐私攻击,因此如何进一步加强隐私防护,保护联邦学习场景下的用户数据隐私成为了一个重要问题.对近些年来联邦学习隐私攻击与防护领域取得的成果进行了系统总结.首先介绍了联邦学习的定义、特点和分类;然后分析了联邦学习场景下隐私威胁的敌手模型,并根据敌手攻击目标对隐私攻击方法进行了分类和梳理;介绍了联邦学习中的主流隐私防护技术,并比较了各技术在实际应用中的优缺点;分析并总结了6类目前联邦学习的隐私保护方案;最后指出目前联邦学习隐私保护面临的挑战,展望了未来可能的研究方向.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006415
    摘要:
    深度学习目前在计算机视觉、自然语言处理、语音识别等领域得到了深入发展,与传统的机器学习算法相比,深度模型在许多任务上具有较高的准确率.然而,作为端到端的具有高度非线性的复杂模型,深度模型的可解释性没有传统机器学习算法好,这为深度学习在现实生活中的应用带来了一定的阻碍.深度模型的可解释性研究具有重大意义而且是非常必要的,近年来许多学者围绕这一问题提出了不同的算法.针对图像分类任务,本文将可解释性算法分为全局可解释性和局部可解释性算法.在解释的粒度上,进一步将全局解释性算法分为模型级和神经元级的可解释性算法,将局部可解释性算法划分为像素级特征、概念级特征以及图像级特征可解释性算法.基于上述分类框架,本文总结了常见的深度模型可解释性算法以及相关的评价指标,同时讨论了可解释性研究面临的挑战和未来的研究方向.我们认为深度模型的可解释性研究和理论基础研究是打开深度模型黑箱的必要途径,同时可解释性算法存在巨大潜力可以为解决深度模型的公平性、泛化性等其他问题提供帮助.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006384
    摘要:
    大数据时代,数据规模庞大、由数据进行驱动的应用分析场景日益增多,如何快速高效的从这些海量的数据中提取出用以分析决策的信息给数据库系统带来重大挑战.同时,现代商业分析决策对分析数据的实时性要求数据库系统能够同时快速处理ACID事务和复杂的分析查询.然而,传统的数据分区粒度太粗,且不能适应动态变化的复杂分析负载;传统的数据布局单一,不能应对现代大量增加的混合事务分析应用场景.为了解决以上问题,“智能数据分区与布局”成为当前研究热点之一,它通过数据挖掘,机器学习等技术抽取工作负载的有效特征,设计最佳的分区策略来避免扫描大量不相关的数据,指导布局结构设计以适应不同类型的工作负载.本文首先介绍了智能数据分区与布局的相关背景知识,然后对智能数据分区与布局技术的研究动机,发展趋势,关键技术进行详细的阐述.最后,对智能数据分区与布局技术的研究前景做出总结与展望.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006385
    [摘要] (253) [HTML] (0) [PDF 1.30 M] (163)
    摘要:
    口语理解是自然语言处理领域的研究热点之一,应用在个人助理、智能客服、人机对话、医疗等多个领域,口语理解技术指的是将机器接收到的用户输入的自然语言转换为语义表示,主要包含意图识别、槽位填充2个子任务.现阶段,使用深度学习对口语理解中意图识别和槽位填充任务的联合建模方法已成为主流并且获得了很好的效果,因此对基于深度学习的口语理解联合建模算法进行总结分析具有十分重要的意义.本文首先介绍了深度学习技术应用到口语理解相关工作,然后从意图识别和槽位填充的关联关系上对现有的研究工作进行剖析,并对不同模型的实验结果进行了对比分析和总结,最后给出了未来的研究方向及展望.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006390
    摘要:
    人体姿态估计是计算机视觉领域的一个基础且具有挑战的任务.人体姿态估计对于描述人体姿态,描述人体行为等至关重要,是行为识别、行为检测等计算机视觉任务的基础.近年来,随着深度学习的发展,基于深度学习的人体姿态估计算法展现出了极其优异的效果.本文将从单人人体姿态估计、自顶向下的多人人体姿态估计和自底向上的多人人体姿态估计这三种主流的人体姿态估计方式,介绍近年来基于深度学习的二维人体姿态估计算法的发展,并讨论目前二维人体姿态估计所面临的困难和挑战.最后,对人体姿态估计未来的发展做出展望.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006391
    摘要:
    深度强化学习将深度学习的表示能力和强化学习的决策能力结合,因在复杂控制任务中效果显著而掀起研究热潮.本文以是否用Bellman方程为基准将无模型深度强化学习方法分为Q值函数方法和策略梯度方法,并从模型构建方式、优化历程和方法评估等方面对两类方法分别进行了介绍.针对深度强化学习方法中样本效率低的问题进行讨论,根据两类方法的模型特性,说明了Q值函数方法过高估计问题和策略梯度方法采样无偏性约束分别是两类方法样本效率受限的主要原因.本文从增强探索效率和提高样本利用率两个角度,根据近年来的研究热点和趋势归纳出各类可行的优化方法,分析相关方法的优势和仍存在的问题,并对比其适用范围和优化效果.最后提出增强样本效率优化方法的通用性、探究两类方法间优化机制的迁移和提高理论完备性作为未来的研究方向.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006395
    [摘要] (221) [HTML] (0) [PDF 1.07 M] (103)
    摘要:
    如何利用多源异构时空数据进行准确的轨迹预测并且反映移动对象的移动特性是轨迹预测领域的核心问题.现有的大多数轨迹预测方法是长序列轨迹模式预测模型,根据历史轨迹的特点进行预测,或将当前移动对象的轨迹位置放入时空语义场景根据历史移动对象轨迹预测位置.综述当前常用的轨迹预测模型和算法,涉及不同的研究领域.首先,阐述了多模式轨迹预测的主流工作,轨迹预测的基本模型类;其次,对不同类的预测模型进行总结,包括数学统计类、机器学习类、滤波算法,以及上述领域具有代表性的算法;再次,对情景感知技术进行了介绍,描述了不同领域的学者对情景感知的定义,阐述了情景感知技术所包含的关键技术点,诸如情景感知计算、情景获取和情景推理的不同类模型,分析了情景感知的不同分类、过滤、存储和融合以及它们的实现方法等.详细介绍了情景感知驱动的轨迹预测模型技术路线及各阶段任务的工作原理.给出了情景感知技术在真实场景中的应用,包括位置推荐,兴趣点推荐等,通过与传统算法对比,分析情景感知技术在此类应用中的优劣.详细介绍了情景感知结合LSTM (Long Short-Term Memory)技术应用于行人轨迹预测领域的新方法.最后,总结了轨迹预测和情景感知研究的当前问题和未来发展趋势.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006380
    摘要:
    比特币闪电网络作为最广泛使用的支付通道网络之一,自其2016年提出就吸引了广泛关注.支付通道网络是一种用以解决区块链可扩展性问题的Layer-2技术.在支付通道网络中,参与者只需在区块链上提交开通和关闭支付通道的Layer-1事务,就可以在链下完成多笔支付交易.这个工作机制既避免了等待每笔交易被验证的时间耗费,同时也节省了交易费用.然而,由于闪电网络投入使用的时间较短,以往的相关研究都是基于有限的、闪电网络仍处于快速发展时期的数据,缺乏必要的时效性.为了填补这一空白,全面了解闪电网络的拓扑结构及其发展趋势,本文基于更新至2020年7月、具有高时效性的数据,采用图分析的方法,描述闪电网络静态和动态的特征.本文还对网络中节点进行聚类分析,并从聚类结果中得到了一些结论.此外,通过比较链上和链下的交易费用,本文对闪电网络的收费机制进行了进一步的研究.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006381
    摘要:
    稀疏三角线性方程组求解(SpTRSV)在科学与工程计算领域是比较重要的核心计算函数,其中基于结构化网格构造的线性方程组是SpTRSV求解器经常遇到的一类问题.在国产神威太湖之光超级计算机所配备的SW26010处理器上,SpTRSV求解器通常需要结合该平台的架构特点,通过搭建一定的数据路由体系来满足各工作线程对未知量数据的需求.本文面向与结构化网格相关的稀疏三角方程组问题,提出一套适用于SW26010处理器的并行求解器.该求解器在任务划分阶段将各线程的数据依赖模式限制在相对可控的范围之内,并在无数据路由的条件下解决线程的通信问题,不仅消除了数据路由带来的额外通信开销,而且适用的问题范围也不再受数据路由规则的制约.经测试,针对多种不同类型的结构化网格问题,本文提出的求解器框架的平均访存带宽利用率达88.2%,部分问题的访存带宽可达平台峰值带宽的94.5%,整体性能相比现有工作有较为明显的提高.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006312
    摘要:
    代码审查是一种由其他开发者而非代码作者本人评审代码的形式.在代码审查系统中,开发者通过提交代码变更来修复软件缺陷或添加软件特性.并非所有的代码变更都会被集成到代码库中,部分代码变更会被拒收.被拒收的代码变更有可能被恢复,并继续接受审查,提供代码贡献者改进代码变更的机会.然而,审查恢复过的代码变更需要花费更多的时间.本文收集四个开源项目中920,700条代码变更,采用主题分析方法识别出11类代码变更恢复的原因,并定量分析被恢复的代码变更的特征.主要发现包括:1)导致代码变更恢复的原因中,“提升改进”类型占比最大;2)不同项目之间,代码变更被恢复的原因类别分布存在差异,但并不显著;3)相比从未恢复过的代码变更,恢复的代码变更接收率低10%,评论数量平均多1.9倍,审查所用时间平均多5.8倍;4)81%的恢复代码变更被接收,19%的恢复代码变更被拒收.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006314
    [摘要] (187) [HTML] (0) [PDF 1.67 M] (177)
    摘要:
    随着信息技术飞速发展,网络攻击事件频发,造成了日益严重的经济损失或社会影响.为了减少损失或预防未来潜在的攻击,需要对网络攻击事件进行溯源以实现对攻击者的挖掘追责.当前的溯源过程主要依赖于人工完成、效率低下.面对日益增加的海量溯源数据和日趋全面的溯源建模分析维度,亟需半自动化或自动化的网络攻击者挖掘方法.本文提出一种基于图模型的网络攻击溯源方法,建立网络攻击事件溯源本体模型,融合网络攻击事件中提取的线索数据和威胁情报数据,形成网络攻击事件溯源关系图;引入图嵌入算法自动学习嵌有关联线索特征的网络攻击事件特征向量,进而利用历史网络攻击事件特征向量训练SVM(Support Vector Machine)分类器,并基于SVM分类器完成网络攻击者的挖掘溯源;最后,通过实验验证了本文方法的可行性和有效性.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006320
    摘要:
    在线讨论是当下公众表达意见和交流互动的主要方式之一.参与者不仅发布评论来表述自己的观点,还会回复已有的表述进行应答,支持或反驳他人的观点.识别表述-应答交互文本的论辩关系可以建模公众对话结构,挖掘群体意见,进而为企业产品营销、政府舆情监测等提供辅助.现有的工作大多通过神经网络对交互文本的条件语义信息或者整体语义信息进行建模,而忽略了交互文本的语境关联信息.为此,本文提出了一种挖掘语境关联的双向注意力网络模型(CCRnet).该模型使用BERT分别对表述和应答进行文本语义表示,并通过双向注意力机制建模交互文本的语境关联表示.在此基础上,模型将语境关联表示和交互文本的语义表示进行融合,建模全局关系特征,继而输出预测标签.在CreateDebate数据集上的实验结果表明,与目前主流的方法相比,CCRnet模型的整体性能表现更优.此外,本文可视化相似度矩阵证实,双向注意力机制能够有效捕捉交互文本之间的语境关联信息并进一步服务于论辩关系预测.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006329
    摘要:
    近年来,分布式数字资产交易平台(Decentralized Digital Asset Exchanges,DDAE)受到了广泛的关注.本文基于金融市场基础设施(Principles for Financial Market Infrastructures,PFMI)原理,提出了评估数字资产交易平台的五项基本原则.并基于该原则从通信技术和交换协议技术两个方面对现有的分布式数字资产交易平台进行了讨论和评估,阐述几种典型技术解决方案的实施原理,将各种技术归纳为不同的模型进行分析.然后讨论了当前分布式数字资产交易平台存在的监管问题,并针对前监管中出现在的监管数据不完整和数据被篡改的问题,提出一种分布式监管模型,该模型由区块链系统、监管执行引擎以及监管法规库三个部分组成,能够通过读取区块链中的交易数据进行分析,自动执行监管法规库中的规则,对满足监管规则的交易自动生成监管报告,从而实现自动化监管.最后对分布式数字资产交易平台的发展进行了总结和展望.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006330
    [摘要] (137) [HTML] (0) [PDF 1.94 M] (277)
    摘要:
    数据中心的虚拟机(VM)整合技术是当今云计算领域的一个研究热点.要在保证服务质量(QoS)的前提下尽可能降低云数据中心的服务器能耗本质上是一个多目标优化的NP难问题.为了更好地解决该问题,本文面向异构服务器云环境提出了一种基于差分进化与粒子群优化的混合群智能节能虚拟机整合方法(HSI-VMC).该方法包括基于峰值效能比的静态阈值超载服务器检测策略(PEBST),基于迁移价值比的待迁移虚拟机选择策略(MRB),目标服务器选择策略,混合离散化启发式差分进化粒子群优化虚拟机放置算法(HDH-DEPSO)以及基于负载均值的欠载服务器处理策略(AVG).其中,PEBST、MRB、AVG策略的结合能够根据服务器的峰值效能比和CPU的负载均值检测出超载和欠载服务器并选出合适的虚拟机进行迁移,降低负载波动引起的服务水平协议违约率(SLAV)和虚拟机迁移的次数;HDH-DEPSO算法结合DE和PSO的优点,能够搜索出更优的虚拟机放置方案,使服务器尽可能地保持在峰值效能比下运行,降低服务器的能耗开销.基于真实云环境数据集(PlanetLab/Mix/Gan)的一系列实验表明,HSI-VMC方法相比当前主流的几种节能虚拟机整合方法能够更好地兼顾多个QoS指标,并有效降低云数据中心的服务器能耗开销.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006331
    摘要:
    定向灰盒模糊测试技术在度量种子对目标执行状态的搜索能力时,除了考虑种子逼近目标代码的程度,也需要分析种子对多样化执行状态的发现能力,从而避免陷入局部最优.现有的定向灰盒模糊测试主要根据全程序的覆盖统计来度量种子搜索多样化执行路径的能力.然而,目标执行状态仅依赖于部分程序代码.如果带来新覆盖的种子并未探索到目标状态计算所依赖的新执行状态,其不仅不能扩大种子队列对目标执行状态的搜索能力,而且会诱导测试目标无关的代码和功能,阻碍定向测试向目标代码的收敛.为了缓解该问题,本文从待发现目标执行状态依赖代码的覆盖统计着手,提出了一种有效覆盖引导的定向灰盒模糊测试方法.利用程序切片技术提取影响目标执行状态计算的代码.通过能量调度(即控制种子后代生成数量),提升引发该部分代码控制流新覆盖变化的种子能量,降低其他冗余种子的能量,使定向灰盒模糊测试专注于搜索目标相关的执行状态.在测试集上的实验结果显示本文的方法显著提升了目标状态发现效率.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006283
    摘要:
    为揭示传播网络中节点之间的父子影响关系,现有工作大多需要知道节点的感染时间,而该信息往往只有通过对传播过程进行实时监控才能获得.在本文中,我们研究如何基于传播结果来学习获得传播网络中节点之间的父子影响关系.传播结果只包含每个传播过程中节点的最终感染状态,而节点的最终感染状态在实际中往往比节点的感染时间更容易获得.我们提出了一种基于条件熵的方法来推断网络中每个节点的潜在候选父节点.此外,我们能够通过从基于条件熵的推断结果中发现并修剪那些实际不太可能存在的父子影响关系来优化最终的影响关系推断结果.在人工网络和真实网络上的大量实验验证了本文方法的有效性和运行效率.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006158
    摘要:
    密码函数在密码学中具有重要的研究价值.从组合的角度,本文给出了一种密码函数不存在性证明的新方法,并且得到了一些新结果,部分结果优于已有结论,这些结果可以部分证明不存在次数大于2的齐次旋转对称bent函数这一公开猜想.同时利用多项式的最大公因子算法刻画了2次齐次旋转对称bent函数.本文的方法也可以用于刻画其他形式的bent函数的存在性.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006313
    [摘要] (217) [HTML] (0) [PDF 1.76 M] (336)
    摘要:
    知识图谱是一种基于图的结构化知识表示方式.如何构造大规模高质量的知识图谱,是研究和实践面临的一个重要问题.本文提出了一种基于互联网群体智能的协同式知识图谱构造方法.该方法的核心是一个持续运行的回路,其中包含自由探索、自动融合、主动反馈三个活动.在自由探索活动中,每一参与者独立进行知识图谱的构造活动.在自动融合活动中,所有参与者的个体知识图谱被实时融合在一起,形成群体知识图谱.在主动反馈活动中,支撑环境根据每一参与者的个体知识图谱和当前时刻的群体知识图谱,向该参与者推荐特定的知识图谱片段信息,以提高其构造知识图谱的效率.针对这三个活动,本文建立了一种层次式的个体知识图谱表示机制,提出了一种以最小化广义熵为目标的个体知识图谱融合算法,设计了情境无关和情境相关两种类型的信息反馈方式.为了验证所提方法及关键技术的可行性,我们设计并实施了三种类型的实验:仅包含结构信息的仿真图融合实验、大规模真实知识图谱的融合实验、以及真实知识图谱的协同式构造实验.实验结果表明:本文提出的知识图谱融合算法能够有效利用知识图谱的结构信息以及节点的语义信息,形成高质量的知识图谱融合方案;基于“探索-融合-反馈”回路的协同方法能够提升群体构造知识图谱的规模和个体构造知识图谱的效率,并展现出较好的群体规模可扩展性.
    优先出版日期:  2021-08-02 , DOI: 10.13328/j.cnki.jos.006383
    摘要:
    REST API已成为访问和使用Web服务的重要途径,为开发基于服务架构的应用系统提供了可复用接口.但是,REST API的设计质量参差不齐,因此有效、合理的设计指导规范对于规范和提高REST API设计质量具有现实意义和应用价值.首先,基于REST API的本质内涵,建立了一个多维度、两层次的REST API设计指导规范分类体系RADRC (REST API Design Rule Catalog),并对当前主流的25条设计指导规范进行分类.其次,针对已有规范提出相应的检测方法,并实现了REST API设计指导规范遵循情况的分析与检测工具RESTer.最后,使用RESTer开展REST API设计实证研究,分析了APIs.guru收录的近2000个真实REST API的文档,从中分析提取相应的REST API信息,进一步检测并统计当前REST API的设计特征和设计指导规范遵循情况.研究发现不同应用类别的REST API在资源和操作模式上存在差异,使得不同类别REST API在设计规则和总体架构方面各有特点.实证研究结果有助于深入了解当前REST API及其设计规则的特征、现状和不足,对于提高REST API设计质量和改进设计指导规范具有实际意义.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006372
    [摘要] (459) [HTML] (0) [PDF 1.31 M] (256)
    摘要:
    采样是一类基本的计算问题.从一个解空间中依特定概率分布进行随机采样,这一问题在近似计数、概率推断、统计学习等方面都有着诸多重要的应用.在大数据时代,采样问题的分布式算法与分布式计算复杂性受到越来越多的关注.近年来,有一系列的工作对分布式采样理论展开系统性的研究.本文综述了分布式采样的重要结论,主要包括有严格理论保障的分布式采样算法、采样问题在分布式模型上的计算复杂性、以及采样与推断等问题在分布式计算模型中的相互联系.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006373
    摘要:
    上帝类(god class)是指同时包含多种任务职责的类,其常见特征是包含大量的属性与方法,并且与系统中的其他类有多种依赖关系.上帝类是一种典型的代码坏味,对软件的开发维护产生负面影响.近年来许多研究都致力于发现和重构上帝类,但是现有方法识别上帝类的能力不强,检测精确率不高.本文提出一种基于图模型和孤立森林的上帝类检测方法,主要分为两个阶段:图结构信息分析阶段和类内度量评估阶段.在图结构信息分析阶段,建立类间的方法调用图和类内结构图,采用孤立森林算法缩小上帝类的检测范围;在类内度量评估阶段,考虑项目的规模和架构带来的影响,将项目中上帝类相关度量指标的平均值作为基准,设计实验确定比例因子,并以平均值和比例因子的乘积作为阈值筛选得到上帝类的检测结果.在代码坏味标准数据集上的实验结果表明,相比于现有的上帝类检测方法,本文提出的方法在精确率和F1值上分别提升了25.82个百分点和33.39个百分点,同时保持了较高的召回率.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006374
    [摘要] (464) [HTML] (0) [PDF 1.01 M] (337)
    摘要:
    随着开源概念的逐步深入,开源软件成为软件发展的潮流,同时开源软件的使用受各类开源许可证约束.开源参与者在开发过程中该如何为自己的开源软件选择合适的许可证,确保高效合理的使用社区群体智慧劳动成果仍是一个亟需解决的问题.为此,本文首先分析和解读了开放源代码促进会认证的常用开源许可证,通过对许可证条款内容和结构的研究得到开源许可证框架及许可证兼容性推导模型,并将该模型应用于对中国自主研发的木兰宽松许可证的分析和解读.最后,基于上述工作研发了开源许可证选择工具,为开源开发者对许可证的理解和合规使用提供了参考和决策支持.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006375
    [摘要] (1396) [HTML] (0) [PDF 1.14 M] (928)
    摘要:
    智能合约是区块链技术最成功的应用之一,为实现各式各样的区块链现实应用提供了基础,在区块链生态系统中处于至关重要的地位.然而,频发的智能合约安全事件不仅造成了巨大的经济损失,而且破坏了基于区块链的信用体系,智能合约的安全性和可靠性成为国内外研究的新关注点.本文首先从Solidity代码层、EVM执行层、区块链系统层这3个层面介绍了智能合约常见的漏洞类型和典型案例;继而,从形式化验证法、符号执行法、模糊测试法、中间表示法、深度学习法这5类方法综述了智能合约漏洞检测技术的研究进展,针对现有漏洞检测方法的可检测漏洞类型、准确率、时间消耗等方面进行了详细的对比分析,并讨论了它们的局限性和改进思路;最后,根据对现有研究工作的总结,探讨了智能合约漏洞检测领域面临的挑战,并结合深度学习技术展望了未来的研究方向.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.000000
    [摘要] (496) [HTML] (0) [PDF 1.01 M] (342)
    摘要:
    随着图结构化数据挖掘的兴起,超图作为一种特殊的图结构化数据在社交网络分析、图像处理、生物反应解析等领域受到广泛关注。研究者通过解析超图中的拓扑结构与节点属性等信息,能够有效解决实际应用场景中所遇到的如兴趣推荐、社群划分等问题。根据超图学习算法的设计特点本文将其划分为谱分析方法和神经网络方法,根据方法对超图处理的不同手段可进一步划分为展开式方法和非展开式方法。若将展开式方法用于不可分解超图则很有可能会造成信息损失。然而,现有的超图相关综述文章鲜有就超图学习方法适用于哪类超图这一问题作出相关归纳。因此,本文将分别从超图上的谱分析方法和神经网络方法两方面出发,对展开式方法和非展开式方法分别展开讨论,并结合其算法特性和应用场景进行进一步细分;然后,分析比较各类算法的设计思路,结合实验结果总结各类算法的优缺点;最后,对超图学习未来可能的研究方向进行了展望。
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006355
    摘要:
    代码自然性(code naturalness)研究是自然语言处理领域和软件工程领域共同的研究热点之一,旨在通过构建基于自然语言处理技术的代码自然性模型以解决各种软件工程任务.近年来,随着开源软件社区中源代码和数据规模的不断扩大,越来越多的研究人员注重钻研源代码中蕴藏的信息,并且取得了一系列研究成果.但与此同时,代码自然性研究在代码语料库构建、模型构建和任务应用等环节面临许多挑战.鉴于此,本文从代码自然性技术的代码语料库构建、模型构建和任务应用等方面对近年来代码自然性研究及应用进展进行梳理和总结.主要内容包括:(1)介绍了代码自然性的基本概念及其研究概况.(2)归述了目前代码自然性研究的语料库,并对代码自然性模型建模方法进行分类与总结.(3)总结代码自然性模型的实验验证方法和模型评价指标.(4)总结并归类了目前代码自然性的应用现状.(5)归纳代码自然性技术的关键问题.(6)展望代码自然性技术的未来发展.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006356
    摘要:
    DataFlow模型的使用,使得大数据计算的批处理和流处理融合为一体.但是,现有的针对大数据计算的集群资源调度框架,它们要么面向流处理,要么面向批处理,不适合批处理与流处理作业共享集群资源的需求.另外,GPU用于大数据分析计算时,由于缺乏有效的CPU-GPU资源解耦方式,降低了资源使用效率.论文在分析现有的集群资源调度框架的基础上,设计并实现了一种可以感知批处理/流处理应用的混合式资源调度框架HRM.它以共享状态架构为基础,采用乐观封锁协议和悲观封锁协议相结合的方式,确保流处理作业和批处理作业的不同资源要求.在计算节点上,提供CPU-GPU资源的灵活绑定,采用队列堆叠技术,不但满足流处理作业的实时性需求,也减少了反馈延迟并实现了GPU资源的共享.通过模拟大规模作业的调度,结果显示HRM的调度延迟只有集中式调度框架的75%左右;使用实际负载测试,批处理与流处理共享集群时,使用HRM调度框架,CPU资源利用率提高25%以上;而使用细粒度作业调度方法,不但GPU利用率提高2倍以上,作业的完成时间也能够减少50%左右.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006357
    摘要:
    实际系统往往由大量类型各异、彼此交互的组件构成.当前大多数工作将这些交互系统建模为同质信息网络,并未考虑不同类型对象的复杂异质交互关系,因而造成大量信息损失.近年来,越来越多的研究者将这些交互数据建模为由不同类型节点和边构成的异质信息网络,从而利用网络中全面的结构信息和丰富的语义信息进行更精准的知识发现.特别是,随着大数据时代的到来,异质信息网络能够自然融合异构多源数据的优势使其成为解决大数据多样性的重要途径.因此,异质信息网络分析迅速成为数据挖掘研究和产业应用的热点.本文对异质信息网络分析与应用进行了全面综述.除了介绍异质信息网络领域的基本概念外,重点聚焦基于异质网络元路径的数据挖掘方法、异质信息网络的表示学习技术和实际应用三个方面的最新研究进展,并对未来的发展方向进行了展望.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006344
    摘要:
    随着物联网技术的飞速发展与广泛部署,物联网领域的应用需求逐步从"万物互联"转变成"人-机-物"的感知融合.在众多感知技术之中,射频识别技术(Radio Frequency IDentification,RFID)作为物联网领域的核心技术之一,由于标签的轻量级、可标记、易部署等特征,成为"无源感知"的重要媒介.为深入剖析无源感知的研究方法,了解当前无源感知的研究进展,本文以基于RFID的无源感知研究为主要切入点,根据感知研究的一般流程,从感知渠道、感知方法、感知范畴以及感知应用这四个层面对近年来基于RFID的无源感知研究工作进行阐述和分析.我们着重在各个层面上分析相关技术的研究进展,比较不同技术在感知应用中的优势和劣势,总结当前阶段无源感知的主要研究趋势,并对未来发展方向进行展望.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006345
    摘要:
    指针分析是编译优化、程序静态分析中的基础,很多应用都需要基于指针分析,低精度的指针分析会给这些应用带来高误报率和漏报率,通过添加上下文敏感信息是提高指针分析的精度的一个重要手段.自从面向对象的概念被提出来之后,该概念得到了广泛的应用,JAVA、C++、.NET、C#等主流语言都支持面向对象的特性,面向对象程序的指针分析越来越受关注.本文做了一个系统文献综述(SLR),通过对索引到的相关文献进行分析和归类,总结了面向对象程序的上下文敏感指针分析研究的5个主要问题,并对这5个问题中用到的方法进行了分析讨论.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006347
    摘要:
    在传统调试过程中,缺陷定位通常作为程序修复的前置步骤.最近,一种新型调试框架(统一化调试)被提出.不同于传统调试中缺陷定位和程序修复的单向连接方式,统一化调试首次建立了定位与修复之间的双向连接机制,从而同时提升两个领域的效果.作为第一个统一化调试技术,ProFL利用程序修复过程中伴随产生的大量补丁执行信息来逆向提升已有缺陷定位技术的效果.统一化调试技术不仅修复那些可被修复的缺陷,而且也为那些不能被自动修复技术修复的缺陷提供了有效的调试线索.虽然统一化调试是一个很有前景的研究方向,但是它在补丁验证过程中涉及到了大量的测试用例执行(比如,百万量级的测试执行),因此时间开销问题严重.本文提出了一种针对于统一化调试框架的加速技术(AUDE),该技术通过减少对缺陷定位效果无提升的测试执行,提升统一化调试的效率.具体来说,AUDE首先通过马尔可夫链蒙特卡洛采样方法构建补丁执行的初始序列,随后在补丁执行过程中以已执行的补丁信息作为反馈信息自适应性地估计每一个未执行补丁可能提供有效反馈信息的概率.我们在广泛使用的数据集Defects4J上对该技术进行了验证,发现AUDE在显著加速ProFL的同时并没有降低其在缺陷定位和程序修复的效果.例如,在减少了ProFL中70.29%的测试执行的同时,AUDE仍在Top-1/Top-3/Top-5指标上和ProFL保持了相同的定位效果.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006362
    摘要:
    数据密集型作业包含大量的任务,使用GPU设备来提高任务的性能是目前的主要手段,但是,在解决数据密集型作业之间的GPU资源公平共享以及降低任务所需数据在网络间的传输代价方面,现有的研究方法没有综合考虑资源公平与数据传输代价的矛盾.论文分析了GPU集群资源调度的特点,提出了一种基于最小代价最大任务数的GPU集群资源调度算法,解决了GPU资源的公平分配与数据传输代价较高的矛盾,将调度过程分为两个阶段,第一阶段为各个作业按照数据传输代价给出自己的最优方案,第二阶段为资源分配器合并各个作业的方案,按照公平性给出全局的最优方案.首先,论文给出了GPU集群资源调度框架的总体结构,各个作业给出自己的最优方案,资源分配进行全局优化;第二,给出了网络带宽估计策略以及计算任务的数据传输代价的方法;第三,给出了基于GPU数量的资源公平分配的基本算法;第四,提出了最小代价最大任务数的资源调度算法,描述了资源非抢夺,抢夺以及不考虑资源公平策略的实现策略;最后,设计了六种数据密集型计算作业,对论文中提出的算法进行了实验,通过实验验证,最小代价最大任务数的资源调度算法,对于资源公平性能够达到90%左右,同时亦能保证作业并行运行时间最小.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006369
    摘要:
    开源及企业软件项目和各类软件开发网站上的代码片段是重要的软件开发资源.然而,很多开发者代码搜索需求反映的代码的高层意图和主题难以通过基于代码文本的信息检索技术来实现精准的代码搜索.因此,反映代码整体意图和主题的语义标签对于改进代码搜索、辅助代码理解都具有十分重要的作用.现有的标签生成技术主要面向文本内容或依赖于历史数据,无法满足大范围代码语义标注和辅助搜索、理解的需要.针对这一问题,本文提出了一种基于知识图谱的代码语义标签自动生成方法KGCodeTagger.该方法通过基于API文档和软件开发问答文本的概念和关系抽取构造软件知识图谱作为代码语义标签生成的基础.针对给定的代码,该方法识别并抽取出通用API调用或概念提及,并链接到软件知识图谱中的相关概念上.在此基础上,该方法进一步识别与所链接的概念相关的其他概念作为候选,然后按照多样性和代表性排序产生最终的代码语义标签.本文通过实验对KGCodeTagger软件知识图谱构建的各个步骤进行了评估,并通过与几个已有的基准方法的比较对所生成的代码语义标签质量进行了评估.实验结果表明,KGCodeTagger的软件知识图谱构建步骤是合理有效的,该方法所生成的代码语义标签是高质量、有意义的,能够帮助开发人员快速理解代码的意图.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006365
    [摘要] (536) [HTML] (0) [PDF 1.02 M] (292)
    摘要:
    随着信息技术在社会各领域的深入渗透,人类社会所拥有的数据总量达到了一个前所未有的高度.一方面,海量数据为基于数据驱动的机器学习方法获取有价值信息提供了充分空间;另一方面,高维度、过冗余以及高噪声也是上述繁多、复杂数据的固有特性.为消除数据冗余、发现数据结构、提高数据质量,原型学习是一种行之有效的方式.通过寻找一个原型集来表示目标集,以从样本空间进行数据约简,在增强数据可用性的同时,提升机器学习算法的执行效率.其可行性在众多应用领域中已得到证明.因此,原型学习相关理论与方法的研究是当前机器学习领域的一个研究热点与重点.该文主要介绍了原型学习的研究背景和应用价值,概括介绍了各类原型学习相关方法的基本特性、原型的质量评估以及典型应用.接着,从原型学习的监督方式及模型设计两个视角重点介绍了原型学习的研究进展,其中前者主要涉及无监督、半监督和全监督方式;后者包括基于相似度,行列式点过程,数据重构和低秩逼近四大类原型学习方法.最后,对原型学习的未来发展方向进行了展望.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006367
    摘要:
    软件缺陷在软件的开发和维护的过程中不可避免,软件缺陷报告是软件维护过程中重要的缺陷描述文档,高质量的软件缺陷报告可以有效提高软件缺陷修复的效率.然而,由于存在许多开发人员、测试人员和用户与缺陷跟踪系统交互并提交软件缺陷报告,同一个软件缺陷可能被不同的人员报告,导致了大量重复的软件缺陷报告.重复的软件缺陷报告势必加重了人工检测重复缺陷报告的工作量,并造成人力物力的浪费,降低了软件缺陷修复的效率.本文以系统文献调研的方式对近年来国内外学者在重复软件缺陷报告检测领域的研究工作进行了系统的分析.主要从研究方法、数据集的选取、性能评价等方面具体分析总结,并提出该领域在后续研究中存在的问题与挑战,以及我们的建议.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006161
    [摘要] (317) [HTML] (0) [PDF 1.42 M] (352)
    摘要:
    二维带形装箱问题是一个经典的NP-hard的组合优化问题,该问题在实际的生活和工业生产中有着广泛的应用,研究该问题对企业节约成本,节约资源以及提高生产效率有着重要的意义.本文提出了一个强化学习求解算法.我们新颖地使用强化学习为启发式算法提供一个初始的装箱序列,来有效的改善启发式冷启动的问题.该强化学习模型能进行自我驱动学习,仅使用启发式计算的解决方案的目标值作为奖励信号来优化网络,使网络能学习到更好的装箱序列.我们使用简化版的指针网络来解码输出装箱序列,该模型由嵌入层、解码器和注意力机制组成.使用了Actor-Critic算法对模型进行训练,提高了模型的效率.我们在714个标准问题实例和随机生成的400个问题实例上测试提出的算法,实验结果显示,提出的算法能有效地改善启发式冷启动的问题,性能超过当前最优秀的启发式求解算法.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006129
    摘要:
    为解决可验证外包数据库方案存在的预处理阶段开销较大及不支持公共可验证的问题,提出了一个全委托的公共可验证的外包数据库模型.给出了模型的架构及交互流程,对模型进行了形式化定义并给出了模型的正确性定义和安全性定义.利用双线性映射及可验证外包模幂运算协议构建了一个全委托的公共可验证外包数据库方案,且给出了各个算法的详细描述,证明了方案的正确性和安全性.其安全性可规约为BDHE(Bilinear Diffie-Hellman Exponent)难题.与现有方案及不进行全委托计算的方案相比,该方案基于可验证外包模幂运算,将大量模幂运算外包给云处理,减小了数据拥有者的开销.理论与实验分析表明:该方案数据拥有者在预处理阶段所需的代价更低,效率更高,适于实际应用.此外,验证过程无需私钥参与,实现了公共可验证.
    优先出版日期:  2021-05-21 , DOI: 10.13328/j.cnki.jos.006359
    摘要:
    近年来,传统磁记录的存储密度增长已经达到极限,为了满足快速增长的数据容量需求,多种新型存储技术不断涌现,其中瓦记录(Shingled Magnetic Recording,简写为SMR)技术已实现商业化,在企业实际应用.但是,由于瓦记录磁盘的叠瓦式结构,磁盘在随机写入时会引起写放大,造成磁盘性能下降.这一问题在部署传统的高可靠存储方案(如RAID5)时会变得更加严重,原因在于是校验数据更新频率很高,磁盘内出现大量的随机写请求.本文发现瓦记录内部其实存在具有原位更新能力的"可覆盖写磁道"(Free Track),因此基于"可覆盖写磁道",提出了一种专门针对瓦记录盘的高可靠数据存储方法——FT-RAID,以替代经典的RAID5方法,实现一个廉价、大容量、高可靠的存储系统.FT-RAID包含两个部分:"可覆盖写磁道映射"(FT-Mapping)和"可覆盖写磁道缓冲区"(FT-Buffer).FT-Mapping实现了一种瓦记录友好的RAID映射方式,将频繁更新的校验块数据映射至"可覆盖写磁道";FT-Buffer实现了一种瓦记录友好的两层缓冲区结构,上层确保了热数据能够原位更新,下层提高了缓冲区的容量.基于真实企业I/O访问记录的的实验表明,与传统RAID5相比,FT-RAID能减少80.4%的写放大率,显著提高存储系统整体性能.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006323
    摘要:
    图数据广泛存在于现实世界中,可以自然地表示复合对象及其元素之间的复杂关联.对图数据的分类是一个非常重要且极具挑战的问题,在生物/化学信息学等领域有许多关键应用,如分子属性判断,新药发现等.但目前尚缺乏对于图分类研究的完整综述.首先给出图分类问题的定义和该领域的挑战;然后梳理分析了两类图分类方法—基于图相似计算的图分类方法和基于图神经网络的图分类方法;接着给出了图分类方法的评价指标、常用数据集和实验结果对比;最后介绍了图分类常见的实际应用场景,展望了图分类领域的未来研究方向并对全文进行总结.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006324
    摘要:
    在软件工程领域,代码补全是集成开发环境(IDE)中最有用的技术之一,提高了软件开发效率,成为了加速现代软件开发的重要技术.通过代码补全技术进行类名、方法名、关键字等预测,在一定程度上提高了代码规范,降低了编程人员的工作强度.近年来,人工智能技术的进步同时也促进了代码补全技术的发展.总体来说,智能代码补全技术利用源代码训练深度学习网络,从语料库学习代码特征,根据待补全位置的上下文代码特征进行推荐和预测.现有的代码特征表征方式大多基于程序语法,没有反映出程序的语义信息.同时目前使用到的网络结构在面对长代码序列时,解决长距离依赖问题的能力依旧不足.因此,本文提出基于程序控制依赖关系和语法信息结合共同表征代码的方法,并将代码补全问题作为一个基于时间卷积网络(TCN)的抽象语法树(AST)结点预测问题,使得网络模型可以更好的学习程序的语法和语义信息,并且可以捕获更长范围的依赖关系.通过实验证明,本文方法比现有方法的准确率提高了约2.8%.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006304
    摘要:
    自然语言处理是人工智能的核心技术,文本表示是自然语言处理的基础性和必要性工作,影响甚至决定着自然语言处理系统的质量和性能.探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延.宏观上分析了文本表示的技术分类,对主流技术和方法,包括基于向量空间、基于主题模型、基于图、基于神经网络、基于表示学习的文本表示,进行了分析、归纳和总结,对基于事件、基于语义和基于知识的文本表示也进行了介绍.对文本表示技术的发展趋势和方向进行了预测和进一步讨论.以神经网络为基础的深度学习以及表示学习在文本表示中将发挥重要作用,预训练加调优的策略将逐渐成为主流,文本表示需要具体问题具体分析,技术和应用融合是推动力.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006334
    [摘要] (452) [HTML] (0) [PDF 1.17 M] (242)
    摘要:
    目前,电影、动漫、游戏等产业对真实感绘制的需求越来越高,而三维场景高度真实感绘制通常需要耗费大量的计算时间和存储空间来计算全局光照,如何在保证绘制质量的前提下提升绘制速度依然是图形学领域面临的核心和热点问题之一.数据驱动的机器学习方法开辟了一种新的研究思路,近年来研究者将多种高度真实感绘制方法映射为机器学习问题,从而大大降低了计算成本.本文总结分析了近年来基于机器学习的高度真实感绘制方法的研究进展,具体包括:基于机器学习的全局光照优化计算方法,基于深度学习的物理材质建模方法,基于深度学习的参与性介质优化绘制方法,基于机器学习的蒙特卡洛降噪方法等.本文详细论述了各种绘制方法与机器学习方法的映射思路,归纳总结了网络模型以及训练数据集的构建方式,并在绘制质量、绘制时间、网络能力等多个方面开展了对比分析.最后,本文提出了机器学习和真实感绘制相结合的可能思路和未来展望.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006337
    摘要:
    源代码的摘要可以帮助软件开发人员快速地理解代码,帮助维护人员更快地完成维护任务.但是,手工编写摘要代价高、效率低,因此人们试图利用计算机自动地为源代码生成摘要.近年来,基于神经网络的代码摘要技术成为自动源代码摘要研究的主流技术和软件工程领域的研究热点.本文首先阐述了代码摘要的概念和自动代码摘要的定义,回顾了自动代码摘要技术的发展历程,并介绍了生成式摘要的质量评估方法和评估指标;然后分析了神经代码摘要算法的通用结构、工作流程和面临的主要挑战;给出了代表性算法的分类,并对每类算法的设计原理、特点和限制条件进行了分析.最后,讨论并展望了未来神经代码摘要技术的发展趋势和研究方向.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006338
    摘要:
    网络行为描述了网络上各类元素对象动态交互过程。它以各类网络服务协议及应用为运行载体,形成不断变化的丰富多样的网络行为,反映出网络拓扑结构给定时间内网络上的场景特点。网络行为仿真主要包括运行框架、背景流仿真、前景流仿真,将生产网络环境下网络行为按需映射到测试网络环境,提供一种按需灵活定制仿真再现能力。网络仿真应用场景不断发展,包括性能分析评估、产品和技术验证、网络入侵检测、网络攻防演练与研究发展等。为总结现有研究成果和存在的不足,分析未来发展趋势,本文梳理了网络行为仿真的相关概念和研究框架,从框架、背景流、前景流等技术层面总结了网络行为仿真的国内外研究现状,并对相关商业产品和开源软件工具进行了系统地分析调研,最后对网络行为仿真的未来发展进行了展望。
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006339
    摘要:
    基于信息检索的缺陷定位技术,利用跨语言的语义相似性构造检索模型通过缺陷报告定位源代码错误,具有方法直观、通用性强的特点.但是由于传统基于信息检索的缺陷定位方法将代码作为纯文本进行处理,只利用了源代码的词汇语义信息,导致在细粒度缺陷定位中面临候选代码语义匮乏产生的准确性低的问题,其结果有用性还有待改进.通过分析程序演化场景下代码改动与缺陷产生间的关系,本文提出一种基于源代码扩展信息的细粒度缺陷定位方法,以代码词汇语义显性信息及代码执行隐性信息共同丰富源代码语义实现细粒度缺陷定位.利用定位候选点的语义相关上下文丰富代码量,以代码执行中间形式的结构语义实现细粒度代码的可区分,同时以自然语言语义指导基于注意力机制的代码语言表征生成,实现细粒度代码与自然语言间的语义映射,从而实现细粒度缺陷定位方法FlowLocator.实验分析表明本方法与经典的IR缺陷定位方法相比,定位准确性在Top-N排名、平均准确率及平均倒数排名上都有显著提高.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006340
    摘要:
    目前多轮对话生成研究大多使用基于RNN或Transformer的编码器-解码器架构.但这些序列模型都未能很好地考虑到对话结构对于下一轮对话生成的影响.针对此问题,本文在传统的编码器-解码器模型的基础上,使用图神经网络结构对对话结构信息进行建模,从而有效刻画对话的上下文中的关联逻辑.本文针对对话设计了基于文本相似度的关联结构、基于话轮转换的关联结构和基于说话人的关联结构,利用图神经网络进行建模,从而实现对话上下文内的信息传递及迭代.基于DailyDialog数据集的实验结果证明,相较其他基线模型,本模型在多个指标上有一定的提升,这说明本文使用图神经网络建立的模型能够有效刻画对话中的多种关联结构,从而有利于神经网络生成高质量的对话回复.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006342
    摘要:
    图像识别是图像研究领域的核心问题,解决图像识别问题对人脸识别、自动驾驶、机器人等各领域研究都有重要意义.目前广泛使用的基于深度神经网络的机器学习方法,已经在鸟类分类、人脸识别、日常物品分类等图像识别数据集上达到了超过人类的水平,同时越来越多的工业界应用开始考虑基于深度神经网络的方法,来完成一系列图像识别业务.但是深度学习方法极度依赖大规模标注数据,这一缺陷极大地限制了深度学习方法在实际图像识别任务中的应用.针对这一问题,越来越多的研究者开始研究如何基于少量的图像识别标注样本来训练识别模型.为了更好地理解基于少量标注样本的图像识别问题,本文广泛地讨论了几种图像识别领域主流的少量标注学习方法,包括基于数据增强的方法、基于迁移学习的方法以及基于元学习的方法,通过讨论不同算法的流程以及核心思想,我们可以清晰地看到现有方法在解决少量标注的图像识别问题上的优点和不足.本文最后针对现有方法的局限性,指出了小样本图像识别未来的研究方向.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006284
    摘要:
    实体解析是数据集成的关键方面,也是大数据分析与挖掘的必要预处理步骤.大数据时代,随着查询驱动的数据应用需求不断增长,查询式实体解析成为热点问题.为了提升查询-解析效率,研究面向实体缓存的多属性数据索引技术.涉及两个核心问题:1)如何设计多属性数据索引.设计基于R-树的多属性索引结构.为了满足实体缓存在线生成需求,提出基于空间聚类的在线索引构建方法.提出基于“过滤-验证”的多维查询方法,利用多属性索引有效地过滤掉不可能命中的记录,然后采用相似性函数或距离函数逐一验证候选记录.2)如何将不同的字符串属性插入到树形索引中.解决思路是将字符串映射到数值空间.针对Jaccard相似性和编辑相似性,提出基于q-gram的映射方法,并提出基于向量降维的优化和基于z-order的优化,实现高质量的“字符串→数值”映射.最后,在两个数据集上进行实验评估,验证多属性索引的有效性,并测试其各个方面.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006290
    摘要:
    自适应隐写是图像隐写方向的研究热点,它通过有效地设计隐写失真函数,自适应地将秘密信息隐藏在图像复杂的纹理区域,具有很强的隐蔽性.近年来,基于生成对抗网络的隐写失真函数设计研究在空域灰度图像上已经取得了突破性的进展,但是目前还没有针对空域彩色图像的研究.与灰度图像相比,彩色图像隐写需要考虑保护RGB通道间相关性,同时合理地分配RGB三个通道的嵌密容量.本文设计了一个基于生成对抗网络设计空域彩色图像隐写失真函数的框架CIS-GAN(color image steganography based on generative adversarial network),生成器网络采用两个U-Net子网络结构,第一个U-Net子网络生成修改概率矩阵,第二个U-Net子网络进行正负向修改概率调节,有效地降低对彩色图像通道相关性的破坏.针对彩色图像载体,修改灰度图像隐写分析器作为网络的对抗部分.在生成器损失函数中对彩色图像三个通道总的隐写容量进行控制,生成器能够自动学习分配三个通道嵌密容量.实验结果表明,与现有彩色图像隐写失真函数设计方法相比,本文提出的网络结构能够更好地抵抗彩色图像隐写分析器的检测.
    优先出版日期:  2021-04-21 , DOI: 10.13328/j.cnki.jos.006296
    摘要:
    在多级秘密共享方案中,每级存取结构里的授权集中参与者可联合重构对应的秘密.但在实际中,腐化了非授权集的攻击者可以通过内存攻击获取部分或全部其余参与者的份额信息,从而非法得到部分、甚至是全部的秘密信息.面对这样的内存泄漏,现有的多级秘密共享方案都不再安全.基于此,本文首先给出了抗内存泄漏的多级秘密共享对选择秘密攻击不可区分的形式化的计算安全模型.然后,利用物理不可克隆函数及模糊提取器的联合作用,基于极小线性码构造了一个适用于一般存取结构的抗内存泄露的可验证多级秘密共享方案.同时,在内存攻击者存在的情况下,证明方案在随机预言模型下是计算安全的.最后,将所提出方案与现有方案在性能和计算复杂度两方面进行比较分析.
    优先出版日期:  2021-02-07 , DOI: 10.13328/j.cnki.jos.006305
    摘要:
    由于中文文本之间没有分隔符,难以识别中文命名实体的边界.此外,在垂直领域中难以获取充足的标记完整的语料,例如医疗领域和金融领域等垂直领域.为解决上述不足,本文提出一种动态迁移实体块信息的跨领域中文实体识别模型(TES-NER),将跨领域共享的实体块信息(Entity Span)通过基于门机制(Gate Mechanism)的动态融合层从语料充足的通用领域(源领域)动态迁移到垂直领域(目标领域)上的中文命名实体模型,其中实体块信息是用于表示中文命名实体的范围.TES-NER模型首先通过双向长短期记忆神经网络(BILSTM)和全连接网络(FCN)构建跨领域共享实体块识别模块,用于识别跨领域共享的实体块信息来确定中文命名实体的边界.然后,通过独立的基于字的双向长短期记忆神经网络和条件随机场(BILSTM-CRF)构建中文命名实体识别模块,用于识别领域指定的中文命名实体.最后构建动态融合层将实体块识别模块抽取得到的跨领域共享实体块信息通过门机制动态决定迁移到领域指定的命名实体识别模型上的量.本文设置通用领域(源领域)数据集为标记语料充足的新闻领域数据集(MSRA),垂直领域(目标领域)数据集为混合领域(OntoNotes5.0)、金融领域(Resume)和医学领域(CCKS2017)三个数据集,其中混合领域数据集(OntoNotes5.0)是融合六个不同垂直领域的数据集.实验结果表明,本文提出的模型在OntoNotes5.0、Resume和CCKS2017三个垂直领域数据集上的F1值相比于双向长短期记忆和条件随机场模型(BiLSTM-CRF)分别高出2.18%、1.68%和0.99%.
    优先出版日期:  2021-02-07 , DOI: 10.13328/j.cnki.jos.006306
    摘要:
    近年来,深度神经网络(DNNs)在许多人工智能任务中取得卓越表现,例如计算机视觉(CV)、自然语言处理(NLP).然而,网络设计严重依赖专家知识,这是一个耗时且易出错的工作.于是,作为自动化机器学习(AutoML)的重要子领域之一,神经结构搜索(NAS)受到越来越多的关注,旨在以自动化的方式设计表现优异的深度神经网络模型.本文全面细致地回顾神经结构搜索的发展过程,进行了系统总结.首先,给出了神经结构搜索的研究框架,并分析每个研究内容的作用;接着,根据其发展阶段,将现有工作划分为四个方面,介绍各阶段发展的特点;然后,介绍现阶段验证结构搜索效果经常使用的数据库,创新性地总结该领域的规范化评估标准,保证实验对比的公平性,促进该领域的长久发展;最后,对神经结构搜索研究面临的挑战进行了展望与分析.
    优先出版日期:  2021-02-07 , DOI: 10.13328/j.cnki.jos.006311
    [摘要] (2580) [HTML] (0) [PDF 713.06 K] (2149)
    摘要:
    图神经网络(GNN)是一类基于深度学习的处理图域信息的方法,它通过将图广播操作和深度学习算法结合,可以让图的结构信息和顶点属性信息都参与到学习中,在顶点分类、图分类、链接预测等应用中表现出良好的效果和可解释性,已成为一种广泛应用的图分析方法.然而现有主流的深度学习框架(如Tensorflow、PyTorch等)没有为图神经网络计算提供高效的存储支持和图上的消息传递支持,这限制了图神经网络算法在大规模图数据上的应用.目前已有诸多工作针对图结构的数据特点和图神经网络的计算特点,探索了大规模图神经网络系统的设计和实现方案.本文首先对图神经网络的发展进行简要概述,总结了设计图神经网络系统需要面对的挑战;随后对目前图神经网络系统的工作进行介绍,从系统架构、编程模型、消息传递优化、图分区策略、通信优化等多个方面对系统进行分析;最后使用部分已开源的图神经网络系统进行实验评估,从精确度、性能、扩展性等多个方面验证这些系统的有效性.
    优先出版日期:  2021-02-07 , DOI: 10.13328/j.cnki.jos.006303
    摘要:
    协议逆向广泛应用于入侵检测系统、深度包检测、模糊测试、僵尸网络检测等领域.首先给出了协议逆向工程的形式化定义和基本原理,然后针对网络运行轨迹的协议逆向方法和工具从协议格式提取和协议状态机推断两个方面对现有的协议逆向方法进行了详细分析,阐释其基本模块、主要原理和特点,最后从多个角度对现有算法进行了比较,对基于网络流量的协议逆向技术的发展趋势进行了展望和分析.
    优先出版日期:  2021-01-15 , DOI: 10.13328/j.cnki.jos.006299
    [摘要] (1092) [HTML] (0) [PDF 1.34 M] (969)
    摘要:
    手绘草图一直是人类传递信息的重要工具之一.手绘草图可以通过简单明了的形式更快地表达人类的一些复杂思想,因此对手绘草图的研究也一直是计算机视觉领域的研究热点之一.目前对手绘草图的研究主要集中在识别、检索和补全等方面.随着研究者对于手绘草图细粒度操作的重视,对于手绘草图分割方面的研究也得到越来越多的关注.近年来,随着深度学习与计算机视觉技术的发展,出现了大量基于深度学习的手绘草图分割方法,手绘草图分割的精确度和效率也都得到了较大提升.但是,由于手绘草图自身的抽象性、稀疏性和多样性,手绘草图分割仍然是一个非常具有挑战性的课题.目前,国内很少有关于手绘草图分割的综述.针对这个不足,本文对基于深度学习的手绘草图分割算法进行整理、分类、分析和总结,首先阐述了三种基本的草图表示方法与常用的草图分割数据集,再按草图分割算法的预测结果分别介绍了草图语义分割、草图感知聚类与草图解析算法,然后在主要的数据集上收集与整理草图分割算法的评测结果并对结果进行分析,最后总结了草图分割相关的应用并探讨未来可能的发展方向.
    优先出版日期:  2021-01-15 , DOI: 10.13328/j.cnki.jos.006292
    [摘要] (1006) [HTML] (0) [PDF 750.23 K] (906)
    摘要:
    技术债是一个指以牺牲长期代码质量为代价来实现短期项目目标的隐喻.其中,那些由开发者有意引入项目中的技术债被称为自承认技术债(SATD),通常以代码注释的形式存在于软件项目中.SATD的存在给软件质量和鲁棒性带来了巨大挑战.为了识别并且及时地偿还SATD来保障代码质量,研究者从其特性分析和识别模型两方面进行了大量研究并且取得了较大的进展.与此同时,相关研究工作中仍存在一些亟待解决的挑战.本文对近年来国内外学者在该领域的研究成果进行系统性的总结.首先,描述自承认技术债的研究问题.然后,分别从特性分析和识别模型两方面总结相关的研究进展,并对具体的理论和技术途径进行梳理.接着,简要介绍技术债的其他相关技术.最后,指出目前该领域研究过程中面临的挑战并给出建议的研究方向.
    优先出版日期:  2021-01-15 , DOI: 10.13328/j.cnki.jos.006218
    摘要:
    域名系统(Domain Name System,DNS)测量研究是深入理解DNS的重要研究方式.本文从组件、结构、流量、安全4个方面对近30年(1992-2019)的DNS测量研究工作梳理出18个主题.首先,介绍组件测量,组件有解析器和权威服务器两种,解析器测量包括公共解析器、开放解析器、解析器缓存、解析器选择策略4个主题,权威服务器包括性能、任播部署、托管、误配置4个主题.其次,阐述结构测量,包括桩解析器与解析器的依赖结构、解析器间依赖结构、域名解析依赖结构3个主题.然后,描述流量测量,包括查询流量特征、异常根查询流量、流量拦截共3个主题.最后综述了安全测量,包括DNSSEC代价与隐患、DNSSEC部署进展、加密DNS部署、恶意域名检测4个主题.
    优先出版日期:  2021-01-15 , DOI: 10.13328/j.cnki.jos.006219
    [摘要] (1270) [HTML] (0) [PDF 665.89 K] (737)
    摘要:
    链下通道网络是实现区块链系统性能提升的有效手段,其中路由算法是保证链下通道网络长期高效、稳定运行的关键.本文提出了链下通道网络层次化架构及路由算法基础模型;从单路路由与多路路由两方面,系统梳理了代表性路由算法及其发展过程;从有效性、并发性、可扩展性、通道平衡、路由选择中心化、成本效益、隐私保护、吞吐量、处理延迟、成功率、搜索效率十一个方面设计了链下通道路由算法评价体系,对代表性路由算法进行了对比分析,并探讨了未来研究趋势.
    优先出版日期:  2021-01-15 , DOI: 10.13328/j.cnki.jos.006279
    摘要:
    开发者通常会为其开源代码选择不同的开源许可证来约束其使用条件,以期能有效地保护知识产权和维持软件的长远发展.然而,现有的开源许可证种类繁杂,开发者难以了解不同开源许可证间的差异,并且难以通过现有的开源许可证选择工具做出合适的选择——其使用要求开发者了解开源许可证相关条款并明确自己的业务需求.学术界虽然对开源许可证已有研究,但是对开发者选择开源许可证的实际困难并无系统的分析进而缺乏清晰的认知.有鉴于此,本文旨在从开源开发者角度出发,理解其选择开源许可证的困难,并通过分析开源许可证的组成要素和影响开源许可证选择的因素,为开源许可证的选择提供借鉴.本文设计问卷并随机调研了参与GitHub开源项目的200名开发者.通过对53个反馈结果采用主题分析,发现开发者选择开源许可证通常面临条款内容太复杂和考虑因素不确定这两方面的困难.通过分析GitHub上3,346,168个代码仓库中使用最广泛的10种开源许可证,本文建立了包含十个维度的开源许可证框架.通过借鉴计划行为理论,本文从行为态度、主观规范和知觉行为控制三个方面提出了影响许可证选择的九大要素,通过开发者调研验证了它们的相关性,并进一步通过拟合次序回归模型验证了项目特征与许可证选择的关系.本文的研究结果能加深开发者对开源许可证内容的理解,为开发者结合自身需求选择合适的许可证提供决策支持,并为实现基于用户需求的开源许可证选择工具提供借鉴.
    优先出版日期:  2021-01-15 , DOI: 10.13328/j.cnki.jos.006212
    摘要:
    利用多维属性关键性能指标(KPI,Key Performance Indicators)的可加性特征能够实现对大型互联网服务故障的根因定位.由一项或多项异常根因导致的KPI数据变化会导致大量相关KPI数据值的变化.本文提出了一种基于异常相似性评估和影响力因子的剪枝搜索异常定位模型(Pruning Search Model based on Anomaly Similarity and Effectiveness Factor for Root Cause Location,PASER),该模型以多维KPI异常传播模型为基础,提出了衡量候选集合成为根因可能性的异常潜在分数评估方案,基于影响力的逐层剪枝搜索算法将异常根因的定位时间降低到了平均约5.3秒.此外,本文针对异常根因定位中所使用的时间序列预测算法的准确性和时效性也进行了对比实验,PASER模型在所使用的数据集上的定位表现达到了0.99的F-score.
    优先出版日期:  2021-01-15 , DOI: 10.13328/j.cnki.jos.006280
    [摘要] (1274) [HTML] (0) [PDF 1.65 M] (1005)
    摘要:
    区块链作为互联网金融的颠覆性创新技术,吸引学术研究和工程应用领域广泛关注,并被持续推广应用到各种行业领域中.以公有链为代表的区块链系统具有弱中心化、信任共识、平台开放、系统自治、用户匿名、数据完整等特点,在缺乏集中可信的分布式场景中实现可信数据管理和价值交易.但区块链作为新兴信息技术,由于自身机制和周边设施不够完善、用户安全观念不够成熟等原因,也面临安全威胁和挑战.本文首先介绍了区块链技术,回顾其面临的安全风险;其次以比特币和以太坊两个典型系统为例,剖析了针对面向代币交易和应用的区块链系统的各类安全威胁以及应对方法;接着分析了钱包交易所等区块链周边设施和区块链用户的安全隐患;最后对文中安全问题进行了分类总结,提出可行技术线路和防御方法,展望当前区块链安全的研究热点和发展趋势.
    优先出版日期:  2020-12-02 , DOI: 10.13328/j.cnki.jos.006144
    摘要:
    我们的认知思维和概念系统建立在隐喻之上.隐喻理解的实现是自然语言处理任务中关键的一环.为了让理解过程更好地切合隐喻的工作机制,基于隐喻的互动理论,本文提出合作网模型,将隐喻理解的过程部署为一个网状结构,实现汉语句子隐喻的理解计算.相比于其他模型,合作网模型体现了目标域和源域之间"求同存异"的语义关系,强调概念之间的双向语义联结,通过计算各个关系的强弱,输出更适应于上下文信息的表述意义.实验结果表明合作网模型合理有效.基于合作网得到的理解结果能初步反映隐喻理解过程的动态性和突显性.
    优先出版日期:  2020-12-02 , DOI: 10.13328/j.cnki.jos.006123
    摘要:
    提出一种新的脑电图(electroencephalograph,EEG)数据表示方法,将一维链式EEG向量序列转换成二维网状矩阵序列,使矩阵结构与EEG电极位置的脑区分布相对应,以此来更好地表示物理上多个相邻电极EEG信号之间的空间相关性.再应用滑动窗将二维矩阵序列分成一个个等长的时间片段,作为新的融合了EEG时空相关性的数据表示.还提出级联卷积-循环神经网络(CASC_CNN_LSTM)与级联卷积-卷积神经网络(CASC_CNN_CNN)两种混合深度学习模型,二者都通过CNN卷积神经网络从转换的二维网状EEG数据表示中捕获物理上相邻脑电信号之间的空间相关性,而前者通过LSTM循环神经网络学习EEG数据流在时序上的依赖关系,后者则通过CNN卷积神经网络挖掘局部时间与空间更深层的相关判别性特征,从而精确识别脑电信号中包含的情感类别.在大规模脑电数据集DEAP上进行被试内效价维度上两类情感分类实验,结果显示本文提出的CASC_CNN_LSTM和CASC_CNN_CNN网络在二维网状EEG时空特征上的平均分类准确率分别达到93.15%和92.37%,均高于基准模型和现有最新方法的性能,表明该模型有效提高了EEG情感识别的准确率和鲁棒性,可以有效的应用到基于EEG的情感分类与识别相关应用中.
    优先出版日期:  2020-10-12 , DOI: 10.13328/j.cnki.jos.006108
    摘要:
    为解决视频行人重识别数据集标注困难的问题,本文提出了基于单标注样本视频行人重识别的近邻中心迭代策略,该策略逐步利用伪标签视频片段迭代更新网络结构,以获得最佳的模型.针对预测无标签视频片段的伪标签准确率低的问题,提出了一个新的标签评估方法:每次训练后,将所选取的伪标签视频片段和有标签视频片段特征中每个类的中心点作为下一次训练中预测伪标签的度量中心点;同时提出了一个基于交叉熵损失和在线实例匹配损失的损失控制策略,使得训练过程更加稳定,无标签数据的伪标签预测准确率更高.在MARS,DukeMTMC-VideoReID这两个大型数据集上的实验验证了本文方法相比于最新的先进方法在性能上得到一个非常好的提升.
    优先出版日期:  2020-09-10 , DOI: 10.13328/j.cnki.jos.006122
    [摘要] (1212) [HTML] (0) [PDF 2.18 M] (1067)
    摘要:
    密度峰值聚类(density peaks clustering,DPC)算法是聚类分析中基于密度的一种新兴算法,该算法考虑局部密度和相对距离绘制决策图,快速识别簇中心,完成聚类.DPC具有唯一的输入参数,且无需先验知识,也无需迭代.自2014年提出以来,DPC引起了学者们的极大兴趣并得到了快速发展.本文首先阐述DPC的基本理论,并通过与经典聚类算法比较分析了DPC的特点;其次,分别从聚类精度和计算复杂度两个角度分析了DPC的弊端及其优化方法,包括局部密度优化、分配策略优化、多密度峰优化以及计算复杂度优化,并介绍了每个类别的主要代表算法;最后介绍了DPC在不同领域中的相关应用研究.我们对DPC的优缺点提供了全面的理论分析,并对DPC的优化以及应用进行了全面阐述.我们还试图找出进一步的挑战来促进DPC研究发展.
    优先出版日期:  2017-10-18 , DOI:
    [摘要] (2326) [HTML] (0) [PDF 525.21 K] (3360)
    摘要:
    Data race is a major source of concurrency bugs. Dynamic data race detection tools (e.g., FastTrack) monitor the execu-tions of a program to report data races occurring in runtime. However, such tools incur significant overhead that slows down and perturbs executions. To address the issue, the state-of-the-art dynamic data race detection tools (e.g., LiteRace) ap-ply sampling techniques to selectively monitor memory access-es. Although they reduce overhead, they also miss many data races as confirmed by existing studies. Thus, practitioners face a dilemma on whether to use FastTrack, which detects more data races but is much slower, or LiteRace, which is faster but detects less data races. In this paper, we propose a new sam-pling approach to address the major limitations of current sampling techniques, which ignore the facts that a data race involves two threads and a program under testing is repeatedly executed. We develop a tool called AtexRace to sample memory accesses across both threads and executions. By selectively monitoring the pairs of memory accesses that have not been frequently observed in current and previous executions, AtexRace detects as many data races as FastTrack at a cost as low as LiteRace. We have compared AtexRace against FastTrack and LiteRace on both Parsec benchmark suite and a large-scale real-world MySQL Server with 223 test cases. The experiments confirm that AtexRace can be a replacement of FastTrack and LiteRace.
    优先出版日期:  2017-10-18 , DOI:
    [摘要] (2328) [HTML] (0) [PDF 352.38 K] (4482)
    摘要:
    It is difficult to fix atomicity violations correctly. Existing gate lock algorithm (GLA) simply inserts gate locks to serialize exe-cutions, which may introduce performance bugs and deadlocks. Synthesized context-aware gate locks (by Grail) require complex source code synthesis. We propose ?Fixer to adaptively fix ato-micity violations. It firstly analyses the lock acquisitions of an atomicity violation. Then it either adjusts the existing lock scope or inserts a gate lock. The former addresses cases where some locks are used but fail to provide atomic accesses. For the latter, it infers the visibility (being global or a field of a class/struct) of the gate lock such that the lock only protects related accesses. For both cases, ?Fixer further eliminates new lock orders to avoid introducing deadlocks. Of course, ?Fixer can produce both kinds of fixes on atomicity violations with locks. The experi-mental results on 15 previously used atomicity violations show that: ?Fixer correctly fixed all 15 atomicity violations without introducing deadlocks. However, GLA and Grail both intro-duced 5 deadlocks. HFix (that only targets on fixing certain types of atomicity violations) only fixed 2 atomicity violations and introduced 4 deadlocks. ?Fixer also provides an alternative way to insert gate locks (by inserting gate locks with proper visibility) considering fix acceptance.
    优先出版日期:  2017-09-11 , DOI:
    [摘要] (2700) [HTML] (0) [PDF 276.42 K] (1550)
    摘要:
    对Github上Python科学计算软件生态系统中的跨项目关联缺陷进行了实证分析,聚焦于开发者对缺陷根源的追踪和上下游项目开发者修复缺陷的协作。通过定性和定量的分析,揭示了影响这类缺陷定位与修复的因素,以及开发者应对它们的常见行为。
    优先出版日期:  2017-06-21 , DOI:
    [摘要] (2788) [HTML] (0) [PDF 169.43 K] (1792)
    摘要:
    Numerical instability is a well-known problem that may cause serious runtime failures. This paper discusses the reason of instability in software development process, and presents a toolchain that not only detects the potential instability in software, but also diagnoses the reason for such instability. We classify the reason of instability into two categories. When it is introduced by software requirements, we call the instability caused by problem. In this case, it cannot be avoided by improving software development, but requires inspecting the requirements, especially the underlying mathematical properties. Otherwise, we call the instability caused by practice. We design our toolchain as 4 loosely-coupled tools, which combine stochastic arithmetic with infinite-precision testing. Each tool in our toolchain can be configured with different strategies according to the properties of the analyzed software. We evaluate our toolchain on subjects from literature. The results show that it effectively detects and separates the instabilities caused by problems from others. We also conduct an evaluation on the latest version of GNU Scientific Library, and the toolchain finds a few real bugs in the well-maintained and widely deployed numerical library. With the help of our toolchain, we report the details and fixing advices to the GSL buglist.
    优先出版日期:  2017-06-13 , DOI:
    [摘要] (4001) [HTML] (0) [PDF 174.91 K] (2257)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-25 , DOI:
    [摘要] (2949) [HTML] (0) [PDF 254.98 K] (1617)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-18 , DOI:
    [摘要] (3291) [HTML] (0) [PDF 472.29 K] (1553)
    摘要:
    Software should behave correctly even in adverse conditions. Particularly, we study the problem of automated validation of crash consistency, i.e., file system data safety when systems crash. Existing work requires non-trivial manual efforts of specifying checking scripts and workloads, which is an obstacle for software developers. Therefore, we propose C3, a novel approach that makes crash consistency validation as easy as pressing a single button. With a program and an input, C3 automatically reports inconsistent crash sites. C3 not only exempts developers from the need of writing crash site checking scripts (by an algorithm that computes editing distance between file system snapshots) but also reduces the reliance on dedicated workloads (by test amplification). We implemented C3 as an open-source tool. With C3, we found 14 bugs in open-source software that have severe consequences at crash and 11 of them were previously unknown to the developers, including in highly mature software (e.g., GNU zip and GNU coreutils sort) and popular ones being actively developed (e.g., Adobe Brackets and TeXstudio).
    优先出版日期:  2017-01-04 , DOI:
    [摘要] (3165) [HTML] (0) [PDF 293.93 K] (1431)
    摘要:
    本文提出了一种可部署的数据竞争动态采样检测技术,首先提出了基于线程本地时序的数据竞争定义,之后基于硬件断点进行采样检测。在采样率为1%时,时间开销约为5%,且有效性得以保证。
    优先出版日期:  2017-01-04 , DOI:
    [摘要] (3464) [HTML] (0) [PDF 244.61 K] (1647)
    摘要:
    在软件开发过程中,软件更新时常发生,怎样保证软件更新后的软件质量呢?这就是回归测试的任务。传统上,回归测试通过检测软件异常行为来保证软件质量。然而,在实践中所有的软件行为不可能全部被检测到,尤其针对于大型的复杂软件系统。为帮助开发人员更好的进行回归测试,传统工作集中在增加测试用例上,即通过人工或自动生成测试输入的方法,观测测试输出以捕获程序行为。这种方法虽一定程度上有效,但也存在很大缺陷:人工编写测试用例费时费力,不能覆盖的代码较多,而且容易受人主观判断的误导(例如忽略某些特别容易存在缺陷的类、方法等);自动生成测试用例技术存在很多问题,例如代价大和无法很好的处理数组、字符串等。基于目前软件测试技术存在的缺陷,很多软件不得不在面临诸多安全威胁的状态下发布,有时甚至造成重大财产损失甚至人员伤亡。因此,我们迫切需要新技术来辅助现有技术以更好的进行回归测试、保障软件质量。
    优先出版日期:  2016-12-12 , DOI:
    [摘要] (2975) [HTML] (0) [PDF 358.69 K] (1643)
    摘要:
    在程序分析中,循环(Loop)的处理与分析是一个非常重要而且很有挑战的任务。例如,在符号执行(Symbolic Execution)中,循环的不断展开会导致程序路径数量指数级地增长。因此,符号执行通常会陷入不停的循环展开,而不能覆盖到新的程序分支上,最终影响了测试用例生成或者缺陷检测的效率。
    优先出版日期:  2016-09-30 , DOI:
    摘要:
    在软件测试中,测试预言是一种判断程序在给定测试输入下的执行结果是否符合预期的机制。测试预言通常由在测试中需要被观测的变量以及这些变量的预期值组成。对于相同的测试输入,不同的测试预言可能有不同的缺陷检测能力。因此,高质量的测试预言对于检测软件中的缺陷是非常必要的。在已有的研究中,虽然研究人员提出了各种各样的自动化测试输入生成技术,但是测试预言问题仍然被公认为是软件测试中最难解决的问题之一。
    优先出版日期:  2016-09-09 , DOI:
    [摘要] (3462) [HTML] (0) [PDF 313.52 K] (191)
    摘要:
    本文基于众测平台,提出了一种基于局部的主动学习方法,能够将众测报告中的缺陷进行自动分类,该方法解决了众测报告分类中的局部偏见问题、及缺少历史训练数据的问题,并基于实际的众测数据进行了验证。
    优先出版日期:  2016-09-07 , DOI:
    [摘要] (3814) [HTML] (0) [PDF 231.98 K] (114)
    摘要:
    并发缺陷是由于某些事件按照一定的顺序发生而导致的,本文提出了一种基于缺陷半径的并发缺陷的概率检测方法RPro,并用于死锁的检测,且有概率保证。实验表明该方法可以显著提高死锁的检测概率。
    优先出版日期:  2016-08-29 , DOI:
    摘要:
    当公司投入资源到开源社区,其诉求可能跟开放共享的开源开发方法存在冲突,继而影响自由贡献者.因此我们研究:公司参与会对开源社区带来怎样的影响?面向三个技术同构的混合项目,我们总结了三个商业参与模型,并量化了不同模型对贡献者稳定性和持续性的影响.

    快速检索
    过刊检索
    全选反选导出
    显示模式:
    2003,14(7):1282-1291, DOI:
    [摘要] (35261) [HTML] (0) [PDF 832.28 K] (74037)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2010,21(3):427-437, DOI:
    [摘要] (30766) [HTML] (0) [PDF 308.76 K] (34094)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2011,22(1):71-83, DOI:10.3724/SP.J.1001.2011.03958
    [摘要] (27820) [HTML] (0) [PDF 781.42 K] (48261)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2016,27(1):45-71, DOI:10.13328/j.cnki.jos.004914
    [摘要] (27129) [HTML] (153) [PDF 880.96 K] (26121)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2009,20(5):1337-1348, DOI:
    [摘要] (26249) [HTML] (0) [PDF 1.06 M] (40273)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2008,19(1):48-61, DOI:
    [摘要] (25778) [HTML] (0) [PDF 671.39 K] (55664)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2009,20(2):271-289, DOI:
    [摘要] (25422) [HTML] (0) [PDF 675.56 K] (38330)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2005,16(1):1-7, DOI:
    [摘要] (20605) [HTML] (0) [PDF 614.61 K] (16885)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2004,15(3):428-442, DOI:
    [摘要] (19533) [HTML] (0) [PDF 1009.57 K] (13164)
    摘要:
    随着电子商务的迅速崛起,基于Web的应用模式迅速发展,Web应用从局部化发展到全球化,从B2C(business-to-customer)发展到B2B(business-to-business),从集中式发展到分布式,Web服务成为电子商务的有效解决方案.Web服务是一个崭新的分布式计算模型,是Web上数据和信息集成的有效机制.Web服务的新型构架,Web服务的高效执行方式,Web服务与其他成熟技术的有机结合以及Web服务的集成是解决现实应用问题的重要技术.从Web服务研究的不同侧面对其进行了综述,阐述了Web服务的基本概念,分析了当前Web服务的主要研究问题及其核心支撑技术,概括了Web服务中的数据集成技术、Web服务的组合、语义Web服务、Web服务发现,Web服务安全,P2P(Peer-to-Peer)新型计算环境下的Web服务解决方案和网格服务等方面的研究内容,并对这些技术进行了总结,结合已有的研究成果,展望了Web服务未来的研究方向及其面临的挑战.
    2005,16(5):857-868, DOI:
    [摘要] (18860) [HTML] (0) [PDF 489.65 K] (25771)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2010,21(8):1834-1848, DOI:
    [摘要] (17906) [HTML] (0) [PDF 682.96 K] (49147)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2009,20(1):54-66, DOI:
    [摘要] (17707) [HTML] (0) [PDF 1.41 M] (44874)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2012,23(1):32-45, DOI:10.3724/SP.J.1001.2012.04091
    [摘要] (17365) [HTML] (0) [PDF 408.86 K] (26298)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2012,23(4):962-986, DOI:10.3724/SP.J.1001.2012.04175
    [摘要] (17171) [HTML] (0) [PDF 2.09 M] (26870)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2009,20(3):524-545, DOI:
    [摘要] (16450) [HTML] (0) [PDF 1.09 M] (18305)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2009,20(11):2965-2976, DOI:
    [摘要] (15441) [HTML] (0) [PDF 442.42 K] (9997)
    摘要:
    研究不确定图数据的挖掘,主要解决不确定图数据的频繁子图模式挖掘问题.介绍了一种数据模型来表示图的不确定性,以及一种期望支持度来评价子图模式的重要性.利用期望支持度的Apriori性质,给出了一种基于深度优先搜索策略的挖掘算法.该算法使用高效的期望支持度计算方法和搜索空间裁剪技术,使得计算子图模式的期望支持度所需的子图同构测试的数量从指数级降低到线性级.实验结果表明,该算法比简单的深度优先搜索算法快3~5个数量级,有很高的效率和可扩展性.
    2004,15(8):1208-1219, DOI:
    [摘要] (15408) [HTML] (0) [PDF 948.49 K] (10485)
    摘要:
    随着网络系统应用及复杂性的增加,网络蠕虫成为网络系统安全的重要威胁.在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高、潜伏性变强、覆盖面更广,网络蠕虫成为恶意代码研究中的首要课题.首先综合论述网络蠕虫的研究概况,然后剖析网络蠕虫的基本定义、功能结构和工作原理,讨论网络蠕虫的扫描策略和传播模型,归纳总结目前防范网络蠕虫的最新技术.最后给出网络蠕虫研究的若干热点问题与展望.
    2009,20(1):124-137, DOI:
    [摘要] (15334) [HTML] (0) [PDF 1.06 M] (18858)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2009,20(5):1226-1240, DOI:
    [摘要] (15158) [HTML] (0) [PDF 926.82 K] (13080)
    摘要:
    对几种智能规划方法中利用的逻辑演绎与推理技术予以分析,分别介绍利用命题逻辑的基于可满足性的规划方法与规划系统,利用模态逻辑与析取推理的Conformant规划方法与规划系统,利用非单调逻辑的规划方法和利用模糊描述逻辑的Flexible规划方法,并结合国际规划竞赛和相关论文等的实验结论说明上述方法的有效性和可行性.最后,提出目前基于自动推理技术的智能规划方法所面临的挑战、可能的处理方法以及与之相关的研究热点与趋势.
    2003,14(10):1717-1727, DOI:
    [摘要] (15117) [HTML] (0) [PDF 839.25 K] (11129)
    摘要:
    传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能够协作地实时监测、感知和采集各种环境或监测对象的信息,并对其进行处理,传送到这些信息的用户.传感器网络是计算机科学技术的一个新的研究领域,具有十分广阔的应用前景,引起了学术界和工业界的高度重视.介绍了传感器网络及其数据管理的概念和特点,探讨了传感器网络及其数据管理的研究问题,并综述了传感器网络及其数据管理的研究现状.
    2009,20(2):350-362, DOI:
    [摘要] (14802) [HTML] (0) [PDF 1.39 M] (34494)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2015,26(1):62-81, DOI:10.13328/j.cnki.jos.004701
    [摘要] (14526) [HTML] (121) [PDF 1.04 M] (20658)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2014,25(4):839-862, DOI:10.13328/j.cnki.jos.004558
    [摘要] (14365) [HTML] (181) [PDF 1.32 M] (15143)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2009,20(10):2729-2743, DOI:
    [摘要] (13592) [HTML] (0) [PDF 1.12 M] (8681)
    摘要:
    基于多跳的无线传感器网络,越靠近sink的传感器节点因需要转发更多的数据,其能量消耗就越快,从而在sink周围形成了一种称为“能量洞”的现象.“能量洞”问题会导致整个网络由于内部节点能量过早耗尽而结束寿命,同时,网络中离sink较远的节点仍有大量能量剩余.研究“能量洞”现象,基于改进的分级环模型,总结出调节各环内节点的数据传输距离是实现网络节能的有效方法.证明搜索各区域最优的传输距离是一个多目标优化问题,即是NP难问题.从而提出一种基于蚁群优化的分布式算法,各区域根据其节点分布情况自适应地探索近似最优的传输距离,延长网络寿命.模拟实验结果表明,该算法在较短的时间内能够收敛到合理的解,并且得到的网络寿命接近于理想情况下的最优时间,与现有的类似算法相比,该算法提供了更长的网络寿命,并能适用于非均匀节点分布情况.
    2012,23(5):1148-1166, DOI:10.3724/SP.J.1001.2012.04195
    [摘要] (13297) [HTML] (0) [PDF 946.37 K] (14222)
    摘要:
    随着云计算的发展,云数据库的重要性和价值日益显现.介绍了云数据库的特性、影响、相关产品.详细讨论了云数据库领域的研究问题,包括数据模型、系统体系架构、事务一致性、编程模型、数据安全、性能优化和测试基准等.最后讨论了云数据库未来的研究方向.
    2000,11(11):1460-1466, DOI:
    [摘要] (13134) [HTML] (0) [PDF 520.69 K] (8722)
    摘要:
    入侵检测是近年来网络安全研究的热 点.首先说明入侵检测的必要性,并给出入侵检测的概念和模型,概述了多种入侵检测方法及 体系结构.最后,讨论了该领域当前存在的问题及今后的研究方向.
    2012,23(1):1-20, DOI:10.3724/SP.J.1001.2012.04100
    [摘要] (13040) [HTML] (0) [PDF 1017.73 K] (26018)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2008,19(zk):112-120, DOI:
    [摘要] (12981) [HTML] (0) [PDF 594.29 K] (12278)
    摘要:
    无线移动Ad Hoc网络是一种不依赖任何固定基础设施的移动无线多跳网络.由于其动态性和资源的限制,在Ad Hoc网络中提供多路径路由是一个重要的研究课题.描述了一种Ad Hoc网络中基于信息熵选择的稳定多路径路由算法(stability multipath on-demand routing,简称SMDR),提出了路径熵的度量参数,并利用路径熵来选择稳定的、长寿命的多路径,减少了重构路由的次数,从而在网络拓扑频繁变化的Ad Hoc网络环境中较好地提供QoS保证和提高数据传输率.仿真结果表明,SMDR协议改进了分组传输率、端到端时延和路由负载率.SMDR协议为解决动态的Ad Hoc网络多路径传输提供了一种新的有效途径.
    2004,15(4):571-583, DOI:
    [摘要] (12915) [HTML] (0) [PDF 1005.17 K] (7523)
    摘要:
    在诸如文件共享等无中心的Peer-to-Peer环境中,资源共享是用户自愿的行为.在这类系统中,由于用户不为自身的行为担负(法律)责任,因而节点间的信任关系往往很难通过传统的信任机制建立.一种更合理的考虑是参考人际网络中基于推荐的信任关系建立方法.现有的模型不能很好地解决模型的迭代收敛性问题,同时缺乏对诸如冒名、诋毁等安全性问题的考虑.针对上述问题,在节点推荐的基础上提出了一种基于Peer-to-Peer环境的信任模型,并给出了该模型的数学分析和分布式实现方法.分析及仿真表明,该信任模型较已有模型在迭代的收敛性、模型的安全性等问题上有较大改进.
    2013,24(8):1786-1803, DOI:10.3724/SP.J.1001.2013.04416
    [摘要] (12778) [HTML] (0) [PDF 1.04 M] (13265)
    摘要:
    针对大数据管理的新需求,呈现出了许多面向特定应用的NoSQL 数据库系统.针对基于key-value 数据模型的NoSQL 数据库的相关研究进行综述.首先,介绍了大数据的特点以及支持大数据管理系统面临的关键技术问题;然后,介绍了相关前沿研究和研究挑战,其中典型的包括系统体系结构、数据模型、访问方式、索引技术、事务特性、系统弹性、动态负载均衡、副本策略、数据一致性策略、基于flash 的多级缓存机制、基于MapReduce 的数据处理策略和新一代数据管理系统等;最后给出了研究展望.
    2006,17(7):1588-1600, DOI:
    [摘要] (12627) [HTML] (0) [PDF 808.73 K] (11839)
    摘要:
    在无线传感器网络体系结构中,网络层的路由技术至关重要.分簇路由具有拓扑管理方便、能量利用高效、数据融合简单等优点,成为当前重点研究的路由技术.分析了无线传感器网络分簇路由机制,着重从簇头的产生、簇的形成和簇的路由角度系统地描述了当前典型的分簇路由算法,并比较和分析了这些算法的特点和适用情况.最后结合该领域当前研究现状,指出分簇路由算法未来的研究重点.
    2009,20(1):11-29, DOI:
    [摘要] (12601) [HTML] (0) [PDF 787.30 K] (11223)
    摘要:
    约束优化问题是科学和工程应用领域经常会遇到的一类数学规划问题.近年来,约束优化问题求解已成为进化计算研究的一个重要方向.从约束优化进化算法=约束处理技术+进化算法的研究框架出发,从约束处理技术和进化算法两个基本方面对约束优化进化算法的研究及进展进行了综述.此外,对约束优化进化算法中的一些重要问题进行了探讨.最后进行了各种算法的比较性总结,深入分析了目前约束优化进化算法中亟待解决的问题,并指出了值得进一步研究的方向.
    2011,22(1):115-131, DOI:10.3724/SP.J.1001.2011.03950
    [摘要] (12597) [HTML] (0) [PDF 845.91 K] (24186)
    摘要:
    Internet 流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3 个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.
    2002,13(7):1228-1237, DOI:
    [摘要] (12561) [HTML] (0) [PDF 500.04 K] (10925)
    摘要:
    近年来,软件体系结构逐渐成为软件工程领域的研究热点以及大型软件系统与软件产品线开发中的关键技术之一.归纳了软件体系结构技术发展过程及其主要研究方向.在分析了典型的软件体系结构概念之后,给出了软件体系结构的定义.通过总结软件体系结构领域的若干研究活动,提出了软件体系结构研究的两大思路,并从7个方面介绍了软件体系结构研究进展.探讨了软件体系结构研究中的不足之处,并分析其原因.作为总结,给出了软件体系结构领域最有前途的发展趋势.
    2008,19(8):1902-1919, DOI:
    [摘要] (12358) [HTML] (0) [PDF 521.73 K] (10893)
    摘要:
    可视化语言技术比一维文本语言在描述软件组成方面具有优越性.由于图表和图形概念在系统建模中的广泛使用,可视化语言可以应用于需求分析、设计、测试和维护等软件开发的各个阶段.除了具有直观易见的特点之外,图文法在计算机上的精确建模和验证能力,为设计可视化语言提供了一个坚实的理论基础.讨论了可视化语言的形式理论基础,回顾了相关的可视化图形编程环境.特别提出了一种空间图文法,并且用该图文法定义了统一建模语言的行为语义.基于空间图文法,开发了一种基于模式驱动的框架,以帮助软件架构与设计.
    2013,24(1):50-66, DOI:10.3724/SP.J.1001.2013.04276
    [摘要] (12303) [HTML] (0) [PDF 0.00 Byte] (13743)
    摘要:
    作为云平台提升应用性能的一种重要手段,分布式缓存技术近年来受到了工业界和学术界的广泛关注.从云计算与分布式缓存技术的结合入手,分析介绍了分布式缓存的特性、典型应用场景、发展阶段、相关标准规范以及推动缓存技术发展的若干关键要素.为系统地了解分布式缓存技术的现状和不足,建立了一个云环境下分布式缓存技术的分析框架——DctAF.该框架从分析云计算的特点和缓存技术的边界出发,涵盖6个分析维度.基于DctAF框架,对当前缓存技术进行总结和分析,并对典型系统进行比较.在此基础上,深入阐述了云环境下分布式缓存系统面临的挑战;围绕上述挑战,分析和比较了已有的研究工作.
    2015,26(1):26-39, DOI:10.13328/j.cnki.jos.004631
    [摘要] (12289) [HTML] (98) [PDF 763.52 K] (10767)
    摘要:
    近年来,迁移学习已经引起了广泛的关注和研究.迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法.它放宽了传统机器学习中的两个基本假设:(1) 用于学习的训练样本与新的测试样本满足独立同分布的条件;(2) 必须有足够可利用的训练样本才能学习得到一个好的分类模型.目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题.对迁移学习算法的研究以及相关理论研究的进展进行了综述,并介绍了在该领域所做的研究工作,特别是利用生成模型在概念层面建立迁移学习模型.最后介绍了迁移学习在文本分类、协同过滤等方面的应用工作,并指出了迁移学习下一步可能的研究方向.
    2008,19(8):1947-1964, DOI:
    [摘要] (12109) [HTML] (0) [PDF 811.11 K] (7175)
    摘要:
    设计与实现面向领域应用的交互式信息可视化软件十分困难.缺乏统一的开发方法与支撑工具箱,为非专家用户提供对层次、网络、多维等数据类型的统一支持,对各种可视化技术与交互技术的统一支持,以及对信息可视化任务的统一支持.针对此问题,提出了一种模型驱动的交互式信息可视化开发方法Daisy.首先,提出了交互式信息可视化界面模型IIVM(interactive information visualization interface model);然后,提出了基于IIVM的交互式信息可视化开发方法Daisy,讨论了该方法的两个核心技术:IIVM建模与描述文件生成方法、系统自动生成方法.同时,给出了Daisy工具箱,包括Daisy建模工具、Daisy系统自动生成工具以及运行时框架与组件库.最后,给出了该开发方法与工具箱的应用实例.实例表明,该方法能够为交互式信息可视化开发的统一支撑方法问题提供一种有效的解决方案.
    2003,14(9):1621-1628, DOI:
    [摘要] (12069) [HTML] (0) [PDF 680.35 K] (15624)
    摘要:
    推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目的日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居.实验结果表明,该算法可以有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系统的推荐质量.
    2002,13(10):1952-1961, DOI:
    [摘要] (11995) [HTML] (0) [PDF 570.96 K] (9212)
    摘要:
    对个性化服务技术中用户描述文件的表达与更新、资源描述文件的表达、个性化推荐技术、个性化服务体系结构以及该领域的主要研究成果进行了综述.通过比较现有原型系统的实现方式,详细讨论了实现个性化服务的关键技术.此外,分析了3个具有代表性的个性化服务系统.最后对个性化服务技术进一步研究工作的方向进行了展望.
    2010,21(2):231-247, DOI:
    [摘要] (11979) [HTML] (0) [PDF 1.21 M] (13653)
    摘要:
    通过分析服务组合的故障需求,给出服务组合故障处理的框架.该框架采用Petri网来解决服务组合的错误发现及其处理问题.重点讨论了可用服务失败、组件失败及网络故障的情况,并相应地给出了服务组合故障模型.在此基础上对故障处理模型进行分析,给出服务组合故障处理正确性准则,并证明了其正确性.最后,采用CTL (computational tree logic)描述相关性质并提出验证服务组合故障分析的实施算法.仿真结果表明,该方法在处理服务组合故障时具有一定的优越性.
    2003,14(9):1635-1644, DOI:
    [摘要] (11875) [HTML] (0) [PDF 622.06 K] (9374)
    摘要:
    计算机取证研究的是如何为调查计算机犯罪提供彻底、有效和安全的技术.其关键是确保证据的真实性、可靠性、完整性和符合法律规定.介绍了计算机取证的过程以及取证软件的原理和实现,并且给出完整的取证实例.从理论和实现两个方面讨论了现有取证技术的局限性和面临的挑战,并展望其未来的发展方向.由于计算机犯罪手段的变化和其他技术的引入,现有的取证工作将向着深入和综合的方向发展.
    2012,23(1):82-96, DOI:10.3724/SP.J.1001.2012.04101
    [摘要] (11744) [HTML] (0) [PDF 394.07 K] (11265)
    摘要:
    以僵尸网络为载体的各种网络攻击活动是目前互联网所面临的最为严重的安全威胁之一.虽然近年来这方面的研究取得了显著的进展,但是由于僵尸网络不断演化、越来越复杂和隐蔽以及网络和系统体系结构的限制给检测和防御带来的困难,如何有效应对僵尸网络的威胁仍是一项持续而具有挑战性的课题.首先从僵尸网络的传播、攻击以及命令与控制这3 个方面介绍了近年来僵尸网络工作机制的发展,然后从监测、工作机制分析、特征分析、检测和主动遏制这5 个环节对僵尸网络防御方面的研究进行总结和分析,并对目前的防御方法的局限、僵尸网络的发展趋势和进一步的研究方向进行了讨论.
    2010,21(7):1620-1634, DOI:
    [摘要] (11687) [HTML] (0) [PDF 765.23 K] (17029)
    摘要:
    车用自组网作为移动自组网在智能交通系统中的应用,有望为人们提供更安全、效率更高的旅行方式.广播协议为危险警告、协同驾驶、路况通报等交通信息的发布提供了有效途径.简要介绍了车用自组网的特点和应用分类.采用分析和比较方法,讨论各种信息广播协议的特点、性能差异和应用范围,并针对车用自组网的特点及应用需求指出未来信息广播模型的设计思想和突破方向.
    2017,28(1):1-16, DOI:10.13328/j.cnki.jos.005139
    [摘要] (11652) [HTML] (100) [PDF 1.75 M] (5716)
    摘要:
    背包问题(knapsack problem,简称KP)是一类著名的组合优化问题,也是一类NP难问题,它包括0-1背包问题、有界背包问题、多维背包问题、多背包问题、多选择背包问题、二次背包问题、动态背包问题和折扣背包问题等多种形式,在众多领域有着广泛的应用.演化算法(EAs)是一类有效的快速近似求解KP的算法.对近10余年来利用EAs求解KP的研究情况进行了较为详细的总结,一方面讨论了利用EAs求解各种KP问题时个体的编码方法与处理不可行解的有效方法,另一方面,为今后进一步利用最新提出的EAs求解KP问题提供了一条可借鉴的思路.
    2008,19(10):2706-2719, DOI:
    [摘要] (11456) [HTML] (0) [PDF 778.29 K] (9399)
    摘要:
    Web搜索引擎已经成为人们从海量Web信息中快速找到所需信息的重要工具,随着Web数据量的爆炸性增长,传统的集中式搜索引擎已经越来越不能满足人们不断增长的信息获取需求.随着对等网络(peer-to-peer,简称P2P)技术的快速发展,人们提出了基于P2P的Web搜索技术并迅速成为研究热点.研究的目的是对现有的基于P2P的Web搜索技术进行总结,以期为进一步研究指明方向.首先分析了基于P2P的Web搜索面临的诸多挑战;然后重点总结分析了基于P2P的Web搜索的各项关键技术的研究现状,包括系统拓扑结构、数据存放策略、查询路由机制、索引切分策略、数据集选择、相关性排序、网页收集方法等;最后对已有的3个较有特色的基于P2P的Web搜索原型系统进行了介绍.
    2008,19(7):1565-1580, DOI:
    [摘要] (11364) [HTML] (0) [PDF 815.02 K] (12475)
    摘要:
    软件缺陷预测技术从20世纪70年代发展至今,一直是软件工程领域最活跃的内容之一,在分析软件质量、平衡软件成本方面起着重要的作用.研究和讨论了软件缺陷预测技术的起源、发展和当前所面临的挑战,对主流的缺陷预测技术进行了分类讨论和比较,并对典型的软件缺陷的分布模型给出了案例研究.
    2004,15(12):1751-1763, DOI:
    [摘要] (11337) [HTML] (0) [PDF 928.33 K] (5856)
    摘要:
    报告了关于少儿图灵测试(CTT)的一项研究工作.研究区别于其他人的主要之处是该测试程序是基于知识的,它依靠一个海量常识知识库的支持.给出了作者研究少儿图灵测试的动机、设计、技术、实验结果和平台(包括一个知识引擎和一个会话引擎).最后给出了关于少儿图灵测试的几点研究结论和思考.
    1999,10(11):1206-1211, DOI:
    [摘要] (11299) [HTML] (0) [PDF 392.66 K] (4673)
    摘要:
    该文针对Rough Set理论中属性约简和值约简这两个重要问题进行了研究,提出了一种借助于可辨识矩阵(discernibility matrix)和数学逻辑运算得到最佳属性约简的新方法.同时,借助该矩阵还可以方便地构造基于Rough Set理论的多变量决策树.另外,对目前广泛采用的一种值约简策略进行了改进,最终使得到的规则进一步简化.
    2010,21(5):916-929, DOI:
    [摘要] (11269) [HTML] (0) [PDF 944.50 K] (14307)
    摘要:
    重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了 这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这 两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除 中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研 究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2003,14(7):1282-1291, DOI:
    [摘要] (35261) [HTML] (0) [PDF 832.28 K] (74037)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2008,19(1):48-61, DOI:
    [摘要] (25778) [HTML] (0) [PDF 671.39 K] (55664)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2010,21(8):1834-1848, DOI:
    [摘要] (17906) [HTML] (0) [PDF 682.96 K] (49147)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2011,22(1):71-83, DOI:10.3724/SP.J.1001.2011.03958
    [摘要] (27820) [HTML] (0) [PDF 781.42 K] (48261)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2009,20(1):54-66, DOI:
    [摘要] (17707) [HTML] (0) [PDF 1.41 M] (44874)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2009,20(5):1337-1348, DOI:
    [摘要] (26249) [HTML] (0) [PDF 1.06 M] (40273)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2009,20(2):271-289, DOI:
    [摘要] (25422) [HTML] (0) [PDF 675.56 K] (38330)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2004,15(10):1493-1504, DOI:
    [摘要] (8289) [HTML] (0) [PDF 937.72 K] (35935)
    摘要:
    多年来计算机图形处理器(GP以大大超过摩尔定律的速度高速发展.图形处理器的发展极大地提高了计算机图形处理的速度和图形质量,并促进了与计算机图形相关应用领域的快速发展与此同时,图形处理器绘制流水线的高速度和并行性以及近年来发展起来的可编程功能为图形处理以外的通用计算提供了良好的运行平台,这使得基于GPU的通用计算成为近两三年来人们关注的一个研究热点.从介绍GPU的发展历史及其现代GPU的基本结构开始,阐述GPU用于通用计算的技术原理,以及其用于通用计算的主要领域和最新发展情况,并详细地介绍了GPU在流体模拟和代数计算、数据库应用、频谱分析等领域的应用和技术,包括在流体模拟方面的研究工作.还对GPU应用的软件工具及其最新发展作了较详细的介绍.最后,展望了GPU应用于通用计算的发展前景,并从硬件和软件两方面分析了这一领域未来所面临的挑战.
    2009,20(2):350-362, DOI:
    [摘要] (14802) [HTML] (0) [PDF 1.39 M] (34494)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2010,21(3):427-437, DOI:
    [摘要] (30766) [HTML] (0) [PDF 308.76 K] (34094)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2013,24(11):2476-2497, DOI:10.3724/SP.J.1001.2013.04486
    [摘要] (9008) [HTML] (0) [PDF 1.14 M] (30481)
    摘要:
    概率图模型作为一类有力的工具,能够简洁地表示复杂的概率分布,有效地(近似)计算边缘分布和条件分布,方便地学习概率模型中的参数和超参数.因此,它作为一种处理不确定性的形式化方法,被广泛应用于需要进行自动的概率推理的场合,例如计算机视觉、自然语言处理.回顾了有关概率图模型的表示、推理和学习的基本概念和主要结果,并详细介绍了这些方法在两种重要的概率模型中的应用.还回顾了在加速经典近似推理算法方面的新进展.最后讨论了相关方向的研究前景.
    2014,25(9):1889-1908, DOI:10.13328/j.cnki.jos.004674
    [摘要] (10391) [HTML] (96) [PDF 550.98 K] (27462)
    摘要:
    首先根据处理形式的不同,介绍了不同形式数据的特征和各自的典型应用场景以及相应的代表性处理系统,总结了大数据处理系统的三大发展趋势;随后,对系统支撑下的大数据分析技术和应用(包括深度学习、知识计算、社会计算与可视化等)进行了简要综述,总结了各种技术在大数据分析理解过程中的关键作用;最后梳理了大数据处理和分析面临的数据复杂性、计算复杂性和系统复杂性挑战,并逐一提出了可能的应对之策.
    2012,23(4):962-986, DOI:10.3724/SP.J.1001.2012.04175
    [摘要] (17171) [HTML] (0) [PDF 2.09 M] (26870)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2012,23(1):32-45, DOI:10.3724/SP.J.1001.2012.04091
    [摘要] (17365) [HTML] (0) [PDF 408.86 K] (26298)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2016,27(1):45-71, DOI:10.13328/j.cnki.jos.004914
    [摘要] (27129) [HTML] (153) [PDF 880.96 K] (26121)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2012,23(1):1-20, DOI:10.3724/SP.J.1001.2012.04100
    [摘要] (13040) [HTML] (0) [PDF 1017.73 K] (26018)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2005,16(5):857-868, DOI:
    [摘要] (18860) [HTML] (0) [PDF 489.65 K] (25771)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2011,22(1):115-131, DOI:10.3724/SP.J.1001.2011.03950
    [摘要] (12597) [HTML] (0) [PDF 845.91 K] (24186)
    摘要:
    Internet 流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3 个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.
    2013,24(1):77-90, DOI:10.3724/SP.J.1001.2013.04339
    [摘要] (10232) [HTML] (0) [PDF 0.00 Byte] (23468)
    摘要:
    任务并行编程模型是近年来多核平台上广泛研究和使用的并行编程模型,旨在简化并行编程和提高多核利用率.首先,介绍了任务并行编程模型的基本编程接口和支持机制;然后,从3个角度,即并行性表达、数据管理和任务调度介绍任务并行编程模型的研究问题、困难和最新研究成果;最后展望了任务并行未来的研究方向.
    2018,29(5):1471-1514, DOI:10.13328/j.cnki.jos.005519
    [摘要] (4362) [HTML] (185) [PDF 4.38 M] (22135)
    摘要:
    计算机辅助检测/诊断(computer-aided detection/diagnosis,简称CAD)能够提高诊断的准确性,减少假阳性的产生,为医生提供有效的诊断决策支持.旨在分析计算机辅助诊断工具的最新发展.以CAD研究较多的四大致命性癌症的发病医学部位为主线,按照不同的成像技术和病类,对目前CAD在不同医学图像领域的应用进行了较为详尽的综述,从图像数据集、算法和评估方法等方面做多维度梳理.最后分析了医学图像CAD系统研究领域目前存在的问题,并对此领域的研究趋势和发展方向进行展望.
    2015,26(1):62-81, DOI:10.13328/j.cnki.jos.004701
    [摘要] (14526) [HTML] (121) [PDF 1.04 M] (20658)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2009,20(1):124-137, DOI:
    [摘要] (15334) [HTML] (0) [PDF 1.06 M] (18858)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2017,28(4):959-992, DOI:10.13328/j.cnki.jos.005143
    [摘要] (7688) [HTML] (93) [PDF 3.58 M] (18550)
    摘要:
    大数据时代下,移动互联网发展与移动终端的普及形成了海量移动对象轨迹数据.轨迹数据含有丰富的时空特征信息,通过轨迹数据处理技术,可以挖掘人类活动规律与行为特征、城市车辆移动特征、大气环境变化规律等信息.海量的轨迹数据也潜在性地暴露出移动对象行为特征、兴趣爱好和社会习惯等隐私信息,攻击者可以根据轨迹数据挖掘出移动对象的活动场景、位置等属性信息.另外,量子计算因其强大的存储和计算能力成为大数据挖掘重要的理论研究方向,用量子计算技术处理轨迹大数据,可以使一些复杂的问题得到解决并实现更高的效率.对轨迹大数据中数据处理关键技术进行了综述.首先,介绍轨迹数据概念和特征,并且总结了轨迹数据预处理方法,包括噪声滤波、轨迹压缩等;其次,归纳轨迹索引与查询技术以及轨迹数据挖掘已有的研究成果,包括模式挖掘、轨迹分类等;总结了轨迹数据隐私保护技术基本原理和特点,介绍了轨迹大数据支撑技术,如处理框架、数据可视化;也讨论了轨迹数据处理中应用量子计算的可能方式,并且介绍了目前轨迹数据处理中所使用的核心算法所对应的量子算法实现;最后,对轨迹数据处理面临的挑战与未来研究方向进行了总结与展望.
    2011,22(6):1299-1315, DOI:10.3724/SP.J.1001.2011.03993
    [摘要] (9179) [HTML] (0) [PDF 987.90 K] (18477)
    摘要:
    由于属性基加密(attribute-based encryption,简称ABE)机制以属性为公钥,将密文和用户私钥与属性关联,能够灵活地表示访问控制策略,从而极大地降低了数据共享细粒度访问控制带来的网络带宽和发送结点的处理开销.因此,ABE 在细粒度访问控制领域具有广阔的应用前景.在对基本ABE 机制及其两种扩展:密钥-策略ABE(KP-ABE)和密文-策略ABE(CP-ABE)进行深入研究、分析后,针对ABE 中的CP-ABE 机制访问结构的设计、属性密钥撤销、ABE 的密钥滥用、多授权机构等难点问题进行了深入探讨和综合分析,对比了现有研究工作的功能及开销.最后讨论了ABE 未来需进一步研究的问题和主要研究方向.
    2009,20(3):524-545, DOI:
    [摘要] (16450) [HTML] (0) [PDF 1.09 M] (18305)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2013,24(5):1078-1097, DOI:10.3724/SP.J.1001.2013.04390
    [摘要] (10529) [HTML] (0) [PDF 1.74 M] (17783)
    摘要:
    软件定义网络(software-defined networking,简称SDN)技术分离了网络的控制平面和数据平面,为研发网络新应用和未来互联网技术提供了一种新的解决方案.综述了基于OpenFlow 的SDN 技术发展现状,首先总结了逻辑控制和数据转发分离架构的研究背景,并介绍了其关键组件和研究进展,包括OpenFlow交换机、控制器和SDN技术,然后从4 个方面分析了基于OpenFlow 的SDN 技术目前所面临的问题和解决思路.结合近年来的发展现状,归纳了在校园网、数据中心以及面向网络管理和网络安全方面的应用,最后探讨了未来的研究趋势.
    2010,21(7):1620-1634, DOI:
    [摘要] (11687) [HTML] (0) [PDF 765.23 K] (17029)
    摘要:
    车用自组网作为移动自组网在智能交通系统中的应用,有望为人们提供更安全、效率更高的旅行方式.广播协议为危险警告、协同驾驶、路况通报等交通信息的发布提供了有效途径.简要介绍了车用自组网的特点和应用分类.采用分析和比较方法,讨论各种信息广播协议的特点、性能差异和应用范围,并针对车用自组网的特点及应用需求指出未来信息广播模型的设计思想和突破方向.
    2005,16(1):1-7, DOI:
    [摘要] (20605) [HTML] (0) [PDF 614.61 K] (16885)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2012,23(8):2058-2072, DOI:10.3724/SP.J.1001.2012.04237
    [摘要] (9086) [HTML] (0) [PDF 800.05 K] (16877)
    摘要:
    分布式拒绝服务(distributed denial of service,简称DDoS)攻击是当今互联网的重要威胁之一.基于攻击包所处网络层次,将DDoS 攻击分为网络层DDoS 攻击和应用层DDoS 攻击,介绍了两类攻击的各种检测和控制方法,比较了处于不同部署位置控制方法的优劣.最后分析了现有检测和控制方法应对DDoS 攻击的不足,并提出了DDoS 过滤系统的未来发展趋势和相关技术难点.
    2004,15(11):1583-1594, DOI:
    [摘要] (7306) [HTML] (0) [PDF 1.57 M] (16592)
    摘要:
    在主、客观世界普遍存在的不确定性中,随机性和模糊性是最重要的两种形式.研究了随机性和模糊性之间的关联性,统一用熵作为客观事物和主观认知中不确定状态的度量,用超熵来度量不确定状态的变化,并利用熵和超熵进一步研究了混沌、分形和复杂网络中的不确定性,以及由此带来的种种进化和变异,为实现不确定性人工智能找到了一种简单、有效的形式化方法,也为包括形象思维在内的不确定性思维的自动化打下了基础.不确定性人工智能是人工智能进入21世纪的新发展.这个由多学科交叉渗透构成的新学科,必将使得机器能够具备人脑一样的不确定性信息和知识的表示能力、处理能力和思维能力.
    2006,17(9):1848-1859, DOI:
    [摘要] (10976) [HTML] (0) [PDF 770.40 K] (16143)
    摘要:
    文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
    2005,16(10):1743-1756, DOI:
    [摘要] (9003) [HTML] (0) [PDF 545.62 K] (16085)
    摘要:
    论述了可证明安全性理论在安全方案与安全协议的设计与分析中的应用,内容主要包括:什么是可证明安全性,可证明安全性理论涉及到的一些基本概念,RO(random oracle)模型方法论的基本思想及其在公钥加密和数字签名等方案中的应用研究进展,标准模型下可证明安全性理论在公钥加密和数字签名等方案中的应用研究进展,以及可证明安全性理论在会话密钥分配协议的设计与分析中的应用研究进展.
    2014,25(1):37-50, DOI:10.13328/j.cnki.jos.004497
    [摘要] (8553) [HTML] (107) [PDF 929.87 K] (15913)
    摘要:
    对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望. 从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析.
    2003,14(9):1621-1628, DOI:
    [摘要] (12069) [HTML] (0) [PDF 680.35 K] (15624)
    摘要:
    推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目的日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居.实验结果表明,该算法可以有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系统的推荐质量.
    2008,19(11):2803-2813, DOI:
    [摘要] (8366) [HTML] (0) [PDF 319.20 K] (15181)
    摘要:
    提出了一种基于近邻传播(affinity propagation,简称AP)算法的半监督聚类方法.AP是在数据点的相似度矩阵的基础上进行聚类.对于规模很大的数据集,AP算法是一种快速、有效的聚类方法,这是其他传统的聚类算法所不能及的,比如:K中心聚类算法.但是,对于一些聚类结构比较复杂的数据集,AP算法往往不能得到很好的聚类结果.使用已知的标签数据或者成对点约束对数据形成的相似度矩阵进行调整,进而达到提高AP算法的聚类性能.实验结果表明,该方法不仅提高了AP对复杂数据的聚类结果,而且在约束对数量较多时,该方法要优于相关比对算法.
    2009,20(8):2241-2254, DOI:
    [摘要] (5826) [HTML] (0) [PDF 1.99 M] (15160)
    摘要:
    从数据场思想出发,提出了一种基于拓扑势的社区发现算法.该方法引入拓扑势描述网络节点间的相互作用,将每个社区视为拓扑势场的局部高势区,通过寻找被低势区域所分割的连通高势区域实现网络的社区划分.理论分析与实验结果表明,该方法无须用户指定社区个数等算法参数,能够揭示网络内在的社区结构及社区间具有不确定性的重叠节点现象.算法的时间复杂度为O(m+n3/γ)~O(n2),n为网络节点数,m为边数,2<γ<3为一个常数.
    2014,25(4):839-862, DOI:10.13328/j.cnki.jos.004558
    [摘要] (14365) [HTML] (181) [PDF 1.32 M] (15143)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2009,20(6):1393-1405, DOI:
    [摘要] (10383) [HTML] (0) [PDF 831.86 K] (15051)
    摘要:
    组合测试能够在保证错误检出率的前提下采用较少的测试用例测试系统.但是,组合测试用例集的构造问题的复杂度是NP完全的.组合测试方法的有效性和复杂性吸引了组合数学领域和软件工程领域的学者们对其进行深入的研究.总结了近年来在组合测试方面的研究进展,主要内容包括:组合测试准则的研究、组合测试生成问题与其他NP完全问题的联系、组合测试用例的数学构造方法、采用计算机搜索的组合测试生成方法以及基于组合测试的错误定位技术.
    2009,20(8):2199-2213, DOI:
    [摘要] (9662) [HTML] (0) [PDF 2.05 M] (15004)
    摘要:
    对现有的应用于移动互联网的P2P技术方面的研究进行了分析.首先介绍了P2P技术和移动互联网的概念,并提出将P2P技术应用在移动互联网所面临的挑战和应用模式.其次,分别针对集中式架构、超级节点体系架构和ad hoc架构对应用于互联网的P2P网络体系架构进行了阐述.再其次,针对移动终端的两种接入模式,分别在资源定位算法和跨层优化两个方面进行了介绍.对各关键技术的特点进行了详细的分析,指出其存在的不足.最后,对未来的工作进行了展望.
    2018,29(10):2966-2994, DOI:10.13328/j.cnki.jos.005551
    [摘要] (6794) [HTML] (154) [PDF 610.06 K] (14911)
    摘要:
    近年来,随着互联网技术和应用模式的迅猛发展,引发了互联网数据规模的爆炸式增长,其中包含大量有价值的知识.如何组织和表达这些知识,并对其进行深入计算和分析备受关注.知识图谱作为丰富直观的知识表达方式应运而生.面向知识图谱的知识推理是知识图谱的研究热点之一,已在垂直搜索、智能问答等应用领域发挥了重要作用.面向知识图谱的知识推理旨在根据已有的知识推理出新的知识或识别错误的知识.不同于传统的知识推理,由于知识图谱中知识表达形式的简洁直观、灵活丰富,面向知识图谱的知识推理方法也更加多样化.将从知识推理的基本概念出发,介绍近年来面向知识图谱知识推理方法的最新研究进展.具体地,根据推理类型划分,将面向知识图谱的知识推理分为单步推理和多步推理,根据方法的不同,每类又包括基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理.详细总结这些方法,并探讨和展望面向知识图谱知识推理的未来研究方向和前景.
    2010,21(7):1605-1619, DOI:
    [摘要] (9074) [HTML] (0) [PDF 856.25 K] (14858)
    摘要:
    随着Internet规模的迅速扩大,复杂性和不确定性也随之增加,基于融合的网络态势感知必将成为网络管理的发展方向.在分析现有网络管理不足以及发展需求的基础上,介绍了网络态势感知的起源、概念、目标和特点.首先,提出了一个网络态势感知研究框架,介绍了研究历程,指出了研究重点以及存在的问题,并将现有评估方法分为3类:基于数学模型的方法、基于知识推理的方法、基于模式识别的方法.然后详细讨论了模型、知识表示和评估方法这3方面的研究内容,总结存在的共性问题,着重评价了每种评估方法的基本思路、评估过程和优缺点,并进行了对比分析.随后介绍了网络态势感知在安全、传输、生存性、系统评价等领域的应用研究.最后指出了网络态势感知的发展方向,并从问题体系、技术体系和应用体系3方面作了总结.
    2013,24(2):295-316, DOI:10.3724/SP.J.1001.2013.04336
    [摘要] (8960) [HTML] (0) [PDF 0.00 Byte] (14662)
    摘要:
    在新的应用模式下,传统层次结构数据中心网络在规模、带宽、扩展性和成本方面存在诸多不足.为了适应新型应用的需求,数据中心网络需要在低成本的前提下,满足高扩展性、低配置开销、健壮性和节能的要求.首先,概述了传统数据中心网络体系结构及其不足,并指出了新的需求;其次,将现有方案划分为两类,即以网络为中心和以服务器为中心的方案;然后,对两类方案中的代表性结构进行了详细的综述和对比分析;最后指出了数据中心网络未来的发展方向.
    2007,18(1):146-156, DOI:
    [摘要] (9174) [HTML] (0) [PDF 728.16 K] (14634)
    摘要:
    提出了旨在提高内容传递网络服务性能的代理放置策略CCSP(capacity-constrained surrogate placement).CCSP在保证最大化系统吞吐量的条件下,以最小化系统通信开销为目标,求解最优的代理放置方式.与通信网络中的资源分配问题现有求解策略不同,CCSP通过模拟内容传递网络的请求路由机制,考虑了代理服务器的负载分布及处理能力约束,从而保证系统具有最低的资源消耗、最大的吞吐能力和良好的负载均衡.提出了高效的贪婪算法用以求解树型网络条件下的CCSP问题,并通过仿真实验系统地分析了算法的有效性.
    2020,31(7):2245-2282, DOI:10.13328/j.cnki.jos.006037
    [摘要] (1992) [HTML] (108) [PDF 4.03 M] (14576)
    摘要:
    超声诊断是甲状腺、乳腺癌首选影像学检查和术前评估方法.但良/恶性结节的超声表现存在重叠,仍欠缺定量、稳定的分析手段,严重依赖操作者的经验.近年来,基于计算机技术的医疗影像分析水平快速发展,超声影像分析取得了一系列里程碑式的突破,为医疗提供有效的诊断决策支持.以甲状腺、乳腺两类超声影像为对象,梳理了计算机视觉、图像识别技术在医学超声图像上的学术进展,以超声影像自动诊断涉及的一系列关键技术为主线,从图像预处理、病灶区定位及分割、特征提取和分类这4个方面对近年来主流算法进行了详尽的综述分析,从算法分析、数据和评估方法等方面进行多维度梳理.最后讨论了具体面向这两种腺体的超声图像计算机分析存在的问题,并对此领域的研究趋势和发展方向进行了展望.
    2009,20(3):567-582, DOI:
    [摘要] (7491) [HTML] (0) [PDF 780.38 K] (14522)
    摘要:
    关于软件质量模型和软件质量评估模型的研究,一直是软件质量保障和评估领域的研究热点,国内外在这两方面进行了大量的研究,并取得了一定的研究成果.近年来,以操作系统为核心的基础软件呈平台化、体系化的发展趋势,基础软件平台的质量评估成为亟待解决的问题.在总结、分析软件质量模型、软件质量评估模型研究发展现状的基础上,重点归纳和描绘了基础软件平台的质量评估发展历程,并简要探讨了基础软件平台质量评估研究的发展方向,力求为展开基础软件平台的质量评估建立良好的基础.
    2010,21(5):916-929, DOI:
    [摘要] (11269) [HTML] (0) [PDF 944.50 K] (14307)
    摘要:
    重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了 这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这 两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除 中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研 究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.
    2012,23(5):1148-1166, DOI:10.3724/SP.J.1001.2012.04195
    [摘要] (13297) [HTML] (0) [PDF 946.37 K] (14222)
    摘要:
    随着云计算的发展,云数据库的重要性和价值日益显现.介绍了云数据库的特性、影响、相关产品.详细讨论了云数据库领域的研究问题,包括数据模型、系统体系架构、事务一致性、编程模型、数据安全、性能优化和测试基准等.最后讨论了云数据库未来的研究方向.
    2006,17(2):216-222, DOI:
    [摘要] (4772) [HTML] (0) [PDF 495.06 K] (14070)
    摘要:
    在图像模板匹配问题中,基于像素灰度值的相关算法尽管已经十分普遍,并得到广泛的应用,但目前此类算法都还存在有时间复杂度高、对图像亮度与尺寸变化敏感等缺点.为了克服这些缺点,提出一种新的基于图像灰度值的编码表示方法.这种方法将图像分割为一定大小的方块(称为R-块),计算每个R-块图像的总灰度值,并根据它与相邻R-块灰度值的排序关系进行编码.然后通过各个R-块编码值的比较,实现图像与模板的匹配新算法中各个R-块编码的计算十分简单;匹配过程只要对编码值进行相等比较,而且可以采用快速的比较算法新算法对像素灰度的变化与噪声具有鲁棒性,其时间复杂度是O(M2log(N)).实验结果表明,新算法比现有的灰度相关算法的计算时间快了两个数量级.
    2011,22(1):132-148, DOI:10.3724/SP.J.1001.2011.03899
    [摘要] (8944) [HTML] (0) [PDF 852.82 K] (14061)
    摘要:
    互联网已成为现代社会的重要信息基础设施,然而网络环境的并发性使得传统程序设计方法在开发高质量的网络程序时遇到了许多困难,严重影响了开发效率.并发问题对网络程序开发复杂度的影响可以类比多核处理器带来的“软件并发危机”,然而其中的并发问题却远远没有得到应有的重视.网络并发问题目前并不存在普适的应对方法,甚至在不同方法之间存在明显的争论.简要介绍了各种基本的并发模型及其常见的实现方法,并在此基础上着重分析了现有方法的内在复杂性,对比各种方法的优势与劣势,最后展望可能的研究和发展方向.
    2009,20(6):1425-1443, DOI:
    [摘要] (9281) [HTML] (0) [PDF 1.09 M] (14028)
    摘要:
    软件错误注入测试(software fault injection testing,简称SFIT)技术经过近30年的发展,一直是软件测试领域最活跃的研究内容之一.作为一种非传统的测试技术,在提高软件质量、减少软件危害及改进软件开发过程等方面起着重要作用.对软件错误注入测试的研究现状及动态进行了调研,对该领域相关技术进行了归类及介绍,并对当前较为有效的测试框架和原型工具进行了总结,同时介绍了正在研发的基于SFIT技术的构件安全性测试系统CSTS.在认真分析现有技术的基础上,总结了当前软件错误注入测试存在的问
    2021,32(10):3051-3067, DOI: 10.13328/j.cnki.jos.006217
    [摘要] (1147) [HTML] (100) [PDF 1619809] (1540)
    摘要:
    近年来,手势作为一种输入通道,已在人机交互、虚拟现实等领域得到了广泛的应用,引起了研究者的关注.特别是随着先进人机交互技术的出现以及计算机技术(特别是深度学习、GPU并行计算等)的飞速发展,手势理解和交互方法取得了突破性的成果,引发了研究的热潮.综述了动态手势理解与交互的研究进展与典型应用:首先阐述手势交互的核心概念,分析了动态手势识别与检测进展;而后阐述了动态手势交互在人机交互中的代表性应用,并总结了手势交互现状,分析了下一步的发展趋势.
    2021,32(10):3176-3202, DOI: 10.13328/j.cnki.jos.006203
    [摘要] (1080) [HTML] (108) [PDF 2544515] (786)
    摘要:
    传统的数据库系统围绕单次查询的模型构建,独立地执行并发查询.由于该模型的限制,传统数据库无法一次对多个查询进行优化.多查询共享技术旨在共享查询之间的公共部分,从而达到提高系统整体响应时间和吞吐量的目的.将多查询执行模式分为两类,介绍了各自的原型系统——基于全局查询计划的多查询原型系统和以运算符为中心的多查询原型系统,并且讨论了两种系统的优势以及所适用场景.在之后的内容中,将多查询共享技术按照查询的各个阶段分为查询编译阶段中的多查询共享技术以及查询执行阶段中的多查询共享技术两大类.以这两个方向为线索,梳理了多查询计划的表示方法、多查询表达式合并、多查询共享算法、多查询优化等各种方向的研究成果.在此基础上,还介绍了共享查询技术在关系数据库和非关系数据库中的应用.最后,分析了共享查询技术面临的机遇和挑战.
    2021,32(9):2642-2664, DOI: 10.13328/j.cnki.jos.006275
    [摘要] (1685) [HTML] (220) [PDF 2820900] (1185)
    摘要:
    背景:近年来,领域驱动设计(domain driven design,简称DDD)作为一种软件设计方法在业界中逐渐流行起来,并形成了若干应用的固有范式,即领域驱动设计模式(domain driven design pattern,简称DDDP).然而,目前软件开发社区却仍然对DDDP在软件项目中的作用缺少较为全面的了解.目的:旨在揭示DDDP的应用情况,即哪些DDDP被应用到了软件开发中,以及其所带来的收益、挑战及相应的缓解挑战方法.方法:应用系统化文献综述方法,对2003年~2019年7月之间发表的相关文献进行了识别、筛选、汇总和分析.结果:通过结合手动检索、自动检索和滚雪球等过程,覆盖了1 884篇相关文献,经过筛选,最终得到26篇高质量文献,对应26个独立的研究.总结了基础研究中DDDP的应用概况,即已经被应用到软件开发中的DDDP以及应用DDDP所获得的11项收益、17个挑战以及相应的缓解挑战方法.结论:因为对领域知识非常重视,领域驱动设计能够帮助实践者更好地进行软件设计,但在具体应用领域驱动设计模式时却存在着诸多挑战.虽然目前存在一些缓解方法能够在一定程度上应对挑战,但是仍然存在很多不足.通过系统文献综述,填补了学术界在这一领域的空白.考虑到DDDP的实践价值与当前理论成熟度的不匹配,未来工业界和学术界应该给予该领域更多关注.
    2021,32(9):2665-2690, DOI: 10.13328/j.cnki.jos.006274
    [摘要] (2233) [HTML] (189) [PDF 2519742] (2492)
    摘要:
    软件缺陷是软件开发和维护过程中不可避免的.随着现代软件规模的不断变大,软件缺陷的数量以及修复难度随之增加,为企业带来了巨大的经济损失.修复软件缺陷,成为了开发人员维护软件质量的重大负担.软件缺陷自动修复技术有希望将开发者从繁重的调试中解脱出来,近年来成为热门的研究领域之一.搜集了94篇该领域最新的高水平论文,进行了详细的分析和总结.基于缺陷修复技术在补丁生成阶段所使用的技术手段不同,系统性地将软件自动修复技术分为4大类,分别是基于启发式搜索、基于人工模板、基于语义约束和基于统计分析的修复技术.特殊地,根据对近几年最新研究的总结,首次提出了基于统计分析的技术分类,对已有分类进行了补充和完善.随后,基于对已有研究的分析,总结了该领域研究所面临的关键挑战及对未来研究的启示.最后,对缺陷修复领域常用的基准数据集和开源工具进行了总结.
    2021,32(8):2522-2544, DOI: 10.13328/j.cnki.jos.006215
    [摘要] (1630) [HTML] (271) [PDF 2757242] (2068)
    摘要:
    视觉问答是计算机视觉领域和自然语言处理领域的交叉方向,近年来受到了广泛关注.在视觉问答任务中,算法需要回答基于特定图片(或视频)的问题.自2014年第一个视觉问答数据集发布以来,若干大规模数据集在近5年内被陆续发布,并有大量算法在此基础上被提出.已有的综述性研究重点针对视觉问答任务的发展进行了总结,但近年来,有研究发现,视觉问答模型强烈依赖语言偏见和数据集的分布,特别是自VQA-CP数据集发布以来,许多模型的效果大幅度下降.主要详细介绍近年来提出的算法以及发布的数据集,特别是讨论了算法在加强鲁棒性方面的研究.对视觉问答任务的算法进行分类总结,介绍了其动机、细节以及局限性.最后讨论了视觉问答任务的挑战及展望.
    2021,32(8):2469-2504, DOI: 10.13328/j.cnki.jos.006153
    [摘要] (1679) [HTML] (210) [PDF 4508382] (1529)
    摘要:
    随着云计算和移动计算的普及,浏览器应用呈现多样化和规模化的特点,浏览器的安全问题也日益突出.为了保证Web应用资源的安全性,浏览器同源策略被提出.目前,RFC6454、W3C和HTML5标准都对同源策略进行了描述与定义,诸如Chrome、Firefox、Safari、Edge等主流浏览器均将其作为基本的访问控制策略.然而,浏览器同源策略在实际应用中面临着无法处理第三方脚本引入的安全威胁、无法限制同源不同frame的权限、与其他浏览器机制协作时还会为不同源的frame赋予过多权限等问题,并且无法保证跨域/跨源通信机制的安全性以及内存攻击下的同源策略安全.对浏览器同源策略安全研究进行综述,介绍了同源策略的规则,并概括了同源策略的威胁模型与研究方向,主要包括同源策略规则不足及应对、跨域与跨源通信机制安全威胁及应对以及内存攻击下的同源策略安全,并且展望了同源策略安全研究的未来发展方向.
    2021,32(7):2260-2286, DOI: 10.13328/j.cnki.jos.006309
    [摘要] (3325) [HTML] (249) [PDF 2739783] (2804)
    摘要:
    区块链技术是一种通过块链式结构、共识算法和智能合约来生成、存储、操作和验证数据的新型分布式基础架构和计算范式,其所构建的新型信任机制有助于推动互联网技术由信息互联网向价值互联网的转化.由于区块链中的账本数据采用公开交易记录、多节点共识确认的方式进行存储和验证,因此对系统中的身份管理及隐私保护提出了极大的挑战.首先分析了区块链系统交易模型的特点及其与传统中心化系统在身份认证、数据存储和交易确认方面的不同,阐述了区块链系统中身份管理技术涵盖的主要内容、关键问题及安全挑战;其次,从身份标识、身份认证和身份隐藏3个方面比较分析了目前主流区块链平台中身份管理和隐私保护的不同实现技术;最后,分析了现有区块链系统中身份管理的不足并对未来的研究方向进行了展望.
    2021,32(7):2078-2102, DOI: 10.13328/j.cnki.jos.006269
    [摘要] (1443) [HTML] (181) [PDF 2592322] (1195)
    摘要:
    随着图数据规模的日益庞大和图计算作业的日益复杂,图计算的分布化成为必然趋势.然而图计算作业在运行过程中面临着分布式图计算系统内外各种来源的非确定性所带来的严峻的可靠性问题.首先分析了分布式图计算框架中不确定性因素和不同类型图计算作业的鲁棒性,并提出了基于成本、效率和质量3个维度的面向分布式图计算作业的容错技术评估框架,然后分别对分布式图计算的4种容错机制——基于检查点的容错、基于日志的容错、基于复制的容错、基于算法补偿的容错等机制结合国内外相关工作做了深入的分析、评估和比较.最后对未来的研究方向进行了展望.
    2021,32(7):1926-1956, DOI: 10.13328/j.cnki.jos.006267
    [摘要] (1891) [HTML] (181) [PDF 3447593] (1764)
    摘要:
    复杂软件系统(如信息物理系统CPS、物联网IoT以及自适应软件系统等)在其开发和运行过程中会遇到各种类型的不确定性问题.针对这些不确定性问题,研究人员开展了大量的研究工作,提出了一系列的方法,取得了诸多成果.然而,由于此类系统本身固有的复杂性和其内在与外在不确定性的共同作用,截止目前研究人员针对该研究领域仍然缺乏系统性和整体性的理解和分析.为了深入探究该领域的研究现状,采用系统研究的方法(systematic mapping study)识别出142篇相关文献,并基于这些文献研究信息物理系统和物联网等系统生命周期中各个阶段和系统开发过程中产生的各种制品的不确定性及其处理方法.通过对相关文献进行分析发现针对复杂系统的不确定性研究主要集中在其生命周期的设计定义、系统分析和运行等阶段.此外,首先将文献划分为3种不确定性类型,包括外部不确定性、内部不确定性和传感器不确定性,并将142篇相关论文关注的不确定性进行了分类.为了深入探究不确定性,将外部不确定性细分为环境不确定性、基础设施不确定性、用户行为不确定性以及经济属性不确定性,将内部不确定性细分为系统结构不确定性、内部交互不确定性、支持系统运行的技术不确定性以及处理系统运行技术的不确定性.针对复杂系统中的开发制品,提出了对应的不确定性类型,包括模型的不确定性、数据的不确定性和参数的不确定性等8类.针对复杂系统的不确定性问题,研究人员主要采用不确定性下的决策、不确定性推理和不确定性规约/建模等方法进行不确定性分析和处理.基于文献分析结果,进一步探讨和展望了该领域未来的研究趋势.
    2021,32(7):2056-2077, DOI: 10.13328/j.cnki.jos.006266
    [摘要] (2389) [HTML] (254) [PDF 2296907] (3762)
    摘要:
    随着人工智能技术的深入发展,自动驾驶已成为人工智能技术的典型应用,近十年来得到了长足的发展,作为一类非确定性系统,自动驾驶车辆的质量和安全性得到越来越多的关注.对自动驾驶系统,特别是自动驾驶智能系统(如感知模块、决策模块、综合功能及整车)的测试技术得到了业界和学界的深入研究.调研了56篇相关领域的学术论文,分别就感知模块、决策模块、综合功能模块及整车系统的测试技术、用例生成方法和测试覆盖度量等维度对目前已有的研究成果进行了梳理,并描述了自动驾驶智能系统测试中的数据集及工具集.最后,对自动驾驶智能系统测试的未来工作进行了展望,从而为该领域的研究人员提供参考.
    2021,32(7):2016-2038, DOI: 10.13328/j.cnki.jos.006265
    [摘要] (1537) [HTML] (212) [PDF 2217579] (1472)
    摘要:
    并发错误是程序设计语言和软件工程领域的研究热点之一.近年来,针对应用程序并发错误检测的研究已取得了很大进展.但是由于操作系统内核的并发和同步机制复杂、代码规模庞大,与应用程序级并发错误检测相比,操作系统内核的并发错误检测研究仍面临巨大的挑战.对此,国内外学者提出了各种用于操作系统内核并发错误检测的方法.首先介绍了并发错误的基本类型、检测方法和评价指标,讨论了现有的并发错误检测方法和工具的局限性;然后,从形式化验证、静态分析、动态分析和静态动态相结合4个方面,对现有的操作系统内核并发错误检测的研究工作进行了分类阐述,并作了系统总结和对比分析;最后,探讨了操作系统内核并发错误检测研究面临的挑战,并对该领域未来的研究趋势进行了展望.
    2021,32(7):2118-2141, DOI: 10.13328/j.cnki.jos.006258
    [摘要] (2555) [HTML] (249) [PDF 2219218] (2525)
    摘要:
    在软件的开发和维护过程中,与代码对应的注释经常存在缺失、不足或者与代码实际内容不匹配等问题,但手工编写代码注释对开发人员来说费时费力,且注释质量难以保证,因此亟需研究人员提出有效的代码注释自动生成方法.代码注释自动生成问题是当前程序理解研究领域的一个研究热点,对该问题进行了系统综述.主要将已有的自动生成方法细分为3类:基于模板的方法、基于信息检索的方法和基于深度学习的方法.依次对每一类方法的已有研究成果进行了系统的梳理、总结和点评.随后分析了已有的实证研究中经常使用的语料库和主要的注释质量评估方法,以利于针对该问题的后续研究可以进行合理的实验设计.最后进行总结,并对未来值得关注的研究方向进行了展望.
    2021,32(5):1404-1426, DOI: 10.13328/j.cnki.jos.006214
    [摘要] (2896) [HTML] (219) [PDF 2228197] (2736)
    摘要:
    人工智能在与人类生活息息相关的场景中自主决策时,正逐渐面临法律或伦理的问题或风险.可信机器学习是建立安全人工智能系统的核心技术,是人工智能领域的热门研究方向,而公平性是可信机器学习的重要考量.公平性旨在研究机器学习算法决策对个人或群体不存在因其固有或后天属性所引起的偏见或偏爱.从公平表征、公平建模和公平决策这3个角度出发,以典型案例中不公平问题及其危害为驱动,分析数据和算法中造成不公平的潜在原因,建立机器学习中的公平性抽象定义及其分类体系,进一步研究用于消除不公平的机制.可信机器学习中的公平性研究在人工智能多个领域中处于起步阶段,如计算机视觉、自然语言处理、推荐系统、多智能体系统和联邦学习等.建立具备公平决策能力的人工智能算法,是加速推广人工智能落地的必要条件,且极具理论意义和应用价值.
    2021,32(5):1495-1525, DOI: 10.13328/j.cnki.jos.006213
    [摘要] (2422) [HTML] (192) [PDF 2987069] (3063)
    摘要:
    区块链作为一种多技术融合的新兴服务架构,因其去中心化、不可篡改等特点,受到了学术界和工业界的广泛关注.然而,由于区块链技术架构的复杂性,针对区块链的攻击方式层出不穷,逐年增加的安全事件导致了巨大的经济损失,严重影响了区块链技术的发展与应用.从层级分类、攻击关联分析两个维度对区块链已有安全问题的系统架构、攻击原理、防御策略展开研究.首先,按照区块链层级架构对现有区块链攻击进行归类,介绍了这些攻击方式的攻击原理,分析了它们的共性与特性;其次,分析总结了已有解决方案的思路,提出了一些有效的建议和防御措施;最后,通过攻击关联分析归纳出多个区块链攻击簇,构建了一个相对完整的区块链安全防御体系,展望了区块链技术在未来复杂服务场景下的安全态势.
    2021,32(5):1461-1479, DOI: 10.13328/j.cnki.jos.006210
    [摘要] (1807) [HTML] (148) [PDF 1980255] (2037)
    摘要:
    基于地理位置信息的应用和服务的迅速发展,对轨迹数据挖掘提出了新的需求和挑战.原始轨迹数据通常是由坐标-时间戳元组构成的有序序列,而现有的大多数数据分析算法均要求输入数据位于向量空间中.因此,为了将轨迹数据从变长的坐标-时间戳序列转化成定长的向量表示且保持原有的特征,对轨迹数据进行有效的表示是十分重要且必要的一步.传统的轨迹表示方法大多是基于人工设计特征,通常仅将轨迹表示作为数据预处理的一部分.随着深度学习的兴起,这种从大规模数据中学习的能力使得基于深度学习的轨迹表示方法相比于传统方法取得了巨大的效果提升,并赋予了轨迹表示更多的可能性.对轨迹表示领域中的研究进展进行了全面的总结,将轨迹表示按照研究对象的不同尺度,归纳为对轨迹单元的表示和对整条轨迹的表示两大类别,并在每种类别下对不同原理的方法进行了对比分析.其中重点分析了基于轨迹点的表示方法,也对近年来广泛使用的基于神经网络的轨迹表示的研究成果做了系统的归类.此外,介绍了基于轨迹表示的关键应用,最后对轨迹表示领域的未来研究方向进行了展望.
    2021,32(5):1427-1460, DOI: 10.13328/j.cnki.jos.006205
    [摘要] (2735) [HTML] (137) [PDF 3573528] (5143)
    摘要:
    数字病理图像分析对于乳腺癌、前列腺癌等良恶性分级诊断具有重要意义,其中,组织基元的形态和目标测量是量化分析的重要依据.然而,由于病理数据多样性和复杂性等新特点,其分割任务面临着特征提取困难、实例分割困难等挑战.人工智能辅助病理量化分析将复杂病理数据转化为可挖掘的图像特征,使得自动提取组织基元的定量化信息成为可能.特别是随着计算机计算能力的快速发展,深度学习技术凭借其强大的特征学习、设计灵活等特性在数字病理量化分析领域取得了突破性成果.系统概述目前代表性深度学习方法,包括卷积神经网络、全卷积网络、编码器-解码器模型、循环神经网络、生成对抗网络等方法体系,总结深度学习在病理图像分割等任务中的建模机理和应用,并梳理了现有方法的方法理论、关键技术、优缺点和性能分析.最后讨论了未来数字病理图像分割深度学习建模的开放性挑战和新趋势.
    2021,32(5):1526-1546, DOI: 10.13328/j.cnki.jos.006204
    [摘要] (1706) [HTML] (129) [PDF 2092148] (1616)
    摘要:
    人工智能的迅速发展和广泛应用促进了数字技术的整体跃升.然而,基于人工智能技术的智能攻击也逐渐成为一种新型的攻击手段,传统的攻击防护方式已经不能满足安全防护的实际需求.通过预测攻击行为的未来步骤,提前部署针对性的防御措施,可以在智能攻击的对抗中取得先机和优势,有效保护系统安全.首先界定了智能攻击和行为预测的问题域,对相关研究领域进行了概述;然后梳理了面向智能攻击的行为预测的研究方法,对相关工作进行分类和详细介绍;之后,分别阐述了不同种类的预测方法的原理机制,并从特征及适应范围等角度对各个种类的方法做进一步对比和分析;最后,展望了智能攻击行为预测的挑战和未来研究方向.
    2021,32(5):1373-1384, DOI: 10.13328/j.cnki.jos.006200
    [摘要] (1701) [HTML] (124) [PDF 1409203] (1370)
    摘要:
    近年来,随着信息技术快速发展,软件重要性与日俱增,极大地推动了国民经济的发展.然而,由于软件业务形态越来越复杂和需求变化越来越快,软件的开发和维护成本急剧增加,迫切需要探索新的软件开发模式和技术.目前,各行业在软件活动中积累了规模巨大的软件代码和数据,这些软件资产为软件智能化开发建立了数据基础.与此同时,深度学习等人工智能技术在多个领域取得的成功应用,促使研究者考虑使用智能化技术与软件工程技术相结合,解决程序自动生成问题.程序智能合成方法是程序自动生成的新途径,通过实现软件开发过程的自动化,提高软件的生产率.首先分析了软件工程的发展历程及挑战,进而研究了智能化程序合成技术领域的研究布局以及各方法的优势和劣势.最后,对程序智能合成技术加以总结,并给出了未来的研究建议.
    2021,32(4):1082-1115, DOI: 10.13328/j.cnki.jos.006169
    [摘要] (2029) [HTML] (136) [PDF 3214638] (2671)
    摘要:
    语言模型旨在对语言的内隐知识进行表示,作为自然语言处理的基本问题,一直广受关注.基于深度学习的语言模型是目前自然语言处理领域的研究热点,通过预训练-微调技术展现了内在强大的表示能力,并能够大幅提升下游任务性能.围绕语言模型基本原理和不同应用方向,以神经概率语言模型与预训练语言模型作为深度学习与自然语言处理结合的切入点,从语言模型的基本概念和理论出发,介绍了神经概率与预训练模型的应用情况和当前面临的挑战,对现有神经概率、预训练语言模型及方法进行了对比和分析.同时又从新型训练任务和改进网络结构两方面对预训练语言模型训练方法进行了详细阐述,并对目前预训练模型在规模压缩、知识融合、多模态和跨语言等研究方向进行了概述和评价.最后总结了语言模型在当前自然语言处理应用中的瓶颈,对未来可能的研究重点做出展望.
    2021,32(4):1129-1150, DOI: 10.13328/j.cnki.jos.006168
    [摘要] (1813) [HTML] (254) [PDF 2142168] (2651)
    摘要:
    索引是数据库系统中用于提升数据存取性能的主要技术之一.在大数据时代,随着数据量的不断增长,传统索引(如B+树)的问题日益突出:(1)空间代价过高.例如,B+树索引需要借助O(n)规模的额外空间来索引原始的数据,这对于大数据环境而言是难以容忍的.(2)每次查询需要多次的间接搜索.例如,B+树中的每次查询都需要访问从树根到叶节点路径上的所有节点,这使得B+树的查找性能受限于数据规模.自2018年以来,人工智能与数据库领域的结合催生了“学习索引”这一新的研究方向.学习索引利用机器学习技术学习数据分布和查询负载特征,并用基于数据分布拟合函数的直接式查找代替传统的间接式索引查找,从而降低了索引的空间代价并提升了查询性能.首先对学习索引技术的现有工作进行了系统梳理和分类;然后,介绍了各种学习索引技术的研究动机与关键技术,对比分析了各种索引结构的优劣;最后,对学习索引的未来研究方向进行了展望.
    2021,32(4):1067-1081, DOI: 10.13328/j.cnki.jos.006167
    [摘要] (1838) [HTML] (124) [PDF 1664930] (1550)
    摘要:
    近年来,多模态学习逐步成为机器学习、数据挖掘领域的研究热点之一,并成功地应用于诸多现实场景中,如跨媒介搜索、多语言处理、辅助信息点击率预估等.传统多模态学习方法通常利用模态间的一致性或互补性设计相应的损失函数或正则化项进行联合训练,进而提升单模态及集成的性能.而在开放环境下,受数据缺失及噪声等因素的影响,多模态数据呈现不均衡性.具体表现为单模态信息不充分或缺失,从而导致“模态表示强弱不一致”“模态对齐关联不一致”两大挑战,而针对不均衡多模态数据直接利用传统的多模态方法甚至会退化单模态和集成的性能.针对这类问题,可靠多模态学习被提出并进行了广泛研究,系统地总结和分析了目前国内外学者针对可靠多模态学习取得的进展,并对未来研究可能面临的挑战进行展望.
    2021,32(4):1201-1227, DOI: 10.13328/j.cnki.jos.006166
    [摘要] (2506) [HTML] (157) [PDF 3903352] (3456)
    摘要:
    目标检测一直以来都是计算机视觉领域的研究热点之一,其任务是返回给定图像中的单个或多个特定目标的类别与矩形包围框坐标.随着神经网络研究的飞速进展,R-CNN检测器的诞生标志着目标检测正式进入深度学习时代,速度和精度相较于传统算法均有了极大的提升.但是,目标检测的尺度问题对于深度学习算法而言也始终是一个难题,即检测器对于尺度极大或极小目标的检测精度会显著下降,因此,近年来有不少学者在研究如何才能更好地实现多尺度目标检测.虽然已有一系列的综述文章从算法流程、网络结构、训练方式和数据集等方面对基于深度学习的目标检测算法进行了总结与分析,但对多尺度目标检测的归纳和整理却鲜有人涉足.因此,首先对基于深度学习的目标检测的两个主要算法流派的奠基过程进行了回顾,包括以R-CNN系列为代表的两阶段算法和以YOLO、SSD为代表的一阶段算法;然后,以多尺度目标检测的实现为核心,重点诠释了图像金字塔、构建网络内的特征金字塔等典型策略;最后,对多尺度目标检测的现状进行总结,并针对未来的研究方向进行展望.
    2021,32(4):1165-1185, DOI: 10.13328/j.cnki.jos.006165
    [摘要] (1187) [HTML] (191) [PDF 2172673] (1682)
    摘要:
    为了解决量子计算对公钥密码安全的威胁,后量子密码成为密码领域的前沿焦点研究问题.后量子密码通过数学理论保证了算法的安全性,但在具体实现和应用中易受侧信道攻击,这严重威胁到后量子密码的安全性.基于美国NIST第2轮候选算法和中国CACR公钥密码竞赛第2轮的候选算法,针对基于格、基于编码、基于哈希、基于多变量等多种后量子密码算法进行分类调研,分析其抗侧信道攻击的安全性现状和现有防护策略.为了深入分析后量子密码的侧信道攻击方法,按照算法核心算子和攻击类型进行分类,总结了针对各类后量子密码常用的攻击手段、攻击点及攻击评价指标.进一步地,根据攻击类型和攻击点,梳理了现有防护策略及相应的开销代价.最后,根据攻击方法、防护手段和防护代价提出了一些安全建议,并且还分析了未来潜在的侧信道攻击手段与防御方案.
    2021,32(4):1151-1164, DOI: 10.13328/j.cnki.jos.006116
    [摘要] (1599) [HTML] (125) [PDF 1495600] (1407)
    摘要:
    由于Shor算法可以在多项式时间内解决大整数分解以及离散对数问题,使得基于这些问题设计的经典的密码体制不再安全.目前涌现出许多后量子密码体制的研究,如基于格、基于编码、基于多变量和基于椭圆曲线同源的密码系统.相比于其他后量子密码体制,基于椭圆曲线同源的密码系统具有密钥尺寸短的优势,然而其实现效率不占优势.以两类基于超奇异椭圆曲线同源的密钥交换协议为基准,根据经典的椭圆曲线标量乘和双线性对的优化技巧,并结合椭圆曲线同源自身的一些特殊性质,分析优化这两类协议的可能性.与此同时,分类回顾了目前椭圆曲线同源的有效计算方面的已有进展,提出了该方向可进一步开展的研究工作.
    2021,32(3):604-621, DOI: 10.13328/j.cnki.jos.006182
    [摘要] (2332) [HTML] (141) [PDF 1827342] (1584)
    摘要:
    应用驱动创新,数据库技术就是在支持主流应用的提质降本增效中发展起来的.从OLTP、OLAP到今天的在线机器学习建模无不如此.机器学习是当前人工智能技术落地的主要途径,通过对数据进行建模而提取知识、实现预测分析.从数据管理的视角对机器学习训练过程进行解构和建模,从数据选择、数据存储、数据存取、自动优化和系统实现等方面,综述了数据管理技术的应用及优缺点,在此基础上,提出支持在线机器学习的数据管理技术的若干关键技术挑战.
    2021,32(3):859-885, DOI: 10.13328/j.cnki.jos.006175
    [摘要] (1526) [HTML] (167) [PDF 2512630] (1810)
    摘要:
    GPU以其超高速计算能力和超大数据处理带宽受到数据库厂商及研究人员的青睐,以GPU计算为核心的数据库分支(GDBMS)蓬勃发展,以其吞吐量大、响应时间短、成本低廉、易于扩展的特点,与人工智能、时空数据分析、数据可视化、商务智能交互融合能力,彻底改变了数据分析领域的格局.将对GDBMS的四大核心组件——查询编译器、查询处理器、查询优化器和存储管理器进行综述,希望促进未来的GDBMS研究和商业应用.
    2021,32(2):579-600, DOI: 10.13328/j.cnki.jos.006155
    [摘要] (2116) [HTML] (112) [PDF 2397662] (2798)
    摘要:
    作为曲面变形领域的重要课题,展开与折叠已经成为近年来的研究热点.为了满足三维物体在美学、力学等方面的约束,通常需要为其设计展开与折叠结构.利用计算机相关技术模拟物体的展开与折叠,可设计出满足约束条件的几何结构.目前,展开与折叠广泛应用于工业设计、生物医疗、智能机器人、家具设计等领域.主要介绍近年来计算机展开与折叠物体的研究现状:首先对展开与折叠算法进行分类,并简述每类方法的基本思想;然后对各类方法进行归纳分析,总结各类方法的优势与局限性;最后给出相应的评价准则,用于进一步对比.曲面的折叠与展开方法逐步发展创新,趋于成熟,但由于实际应用需求复杂,变形结果并不完美.对目前的折叠与展开方法进行综述,能够为未来的工作提供研究方向.
    2021,32(2):300-326, DOI: 10.13328/j.cnki.jos.006151
    [摘要] (2463) [HTML] (136) [PDF 2738614] (3160)
    摘要:
    随着云计算的发展,数据中心网络成为近年来学术界和工业界关注的研究热点.现代数据中心网络通常采用胖树等多根树拓扑结构,存在多条可用路径来提供高对分带宽.由于等价多路径路由等传统的负载均衡方法无法适应数据中心网络中高动态和强突发的流量特性,多种针对数据中心的负载均衡方法不断涌现.围绕数据中心中负载均衡的基本问题,介绍了当前国际国内的研究现状,包括基于中央控制器、基于交换机和基于主机的负载均衡方法,并展望了数据中心网络负载均衡的发展趋势.
    2021,32(2):277-299, DOI: 10.13328/j.cnki.jos.006150
    [摘要] (4027) [HTML] (226) [PDF 2292239] (3228)
    摘要:
    共识协议作为区块链的核心技术,近年来已经得到学术界和产业界的广泛重视,并取得了一系列研究成果.当前,关于共识协议的综述研究一般将共识协议作为整体进行比较分析,缺乏对共识协议中主要步骤的解耦与比较.将共识协议分为出块节点选举和主链共识两个主要步骤,并针对每个步骤进行协议间的分析比较.在出块节点选举部分,主要讨论工作量证明和权益证明,分析其中存在的问题以及相应解决方案的分类比较.在主链共识部分,针对概率性共识和确定性共识,总结其安全目标,并进行安全性分析比较.通过对区块链共识协议的系统梳理,最后总结共识协议的发展现状和发展趋势,以及未来的重要研究方向.
    2021,32(2):406-423, DOI: 10.13328/j.cnki.jos.006147
    [摘要] (3344) [HTML] (116) [PDF 1846848] (3089)
    摘要:
    机器学习的应用遍及人工智能的各个领域,但因存储和传输安全问题以及机器学习算法本身的缺陷,机器学习面临多种面向安全和隐私的攻击.基于攻击发生的位置和时序对机器学习中的安全和隐私攻击进行分类,分析和总结了数据投毒攻击、对抗样本攻击、数据窃取攻击和询问攻击等产生的原因和攻击方法,并介绍和分析了现有的安全防御机制.最后,展望了安全机器学习未来的研究挑战和方向.
    2021,32(2):370-405, DOI: 10.13328/j.cnki.jos.006146
    [摘要] (2542) [HTML] (140) [PDF 3373578] (2986)
    摘要:
    零样本学习旨在通过运用已学到的已知类知识去认知未知类.近年来,“数据+知识驱动”已经成为当下的新潮流,而在计算机视觉领域内的零样本任务中,“知识”本身却缺乏统一明确的定义.针对这种情况,尝试从知识的角度出发,梳理了本领域内“知识”这一概念所覆盖的范畴,共划分为初级知识、抽象知识以及外部知识.基于前面对知识的定义和划分,梳理了当前的零样本学习(主要是图像分类任务的模型)工作,分为基于初级知识的零样本模型、基于抽象知识的零样本模型以及引入外部知识的零样本模型.还对领域内存在的域偏移和枢纽点问题进行了阐述,并基于问题对现有工作进行了总结归纳.最后总结了目前常用的图像分类任务的数据集和知识库、图像分类实验评估标准以及代表性的模型实验结果,并对未来的工作进行了展望.
    2021,32(2):424-444, DOI: 10.13328/j.cnki.jos.006145
    [摘要] (2591) [HTML] (101) [PDF 2029835] (2225)
    摘要:
    基于事件社会网络(event-based social network,简称EBSN)是一种结合了线上网络和线下网络的新型社会网络,近年来得到了越来越多的关注,已有许多国内外重要研究机构的研究者对其进行研究并取得了许多研究成果.在EBSN推荐系统中,一个重要的任务就是设计出更好、更合理的推荐算法以提高推荐精确度和用户满意度,其关键在于充分结合EBSN中的各种上下文信息去挖掘用户、事件和群组的隐藏特征.主要对EBSN推荐系统的最新研究进展进行综述.首先,概述EBSN的定义、结构、属性和特征,介绍EBSN推荐系统的基本框架,并分析EBSN推荐系统与其他推荐系统的区别;其次,对EBSN推荐系统的主要推荐方法和推荐内容进行归纳、总结和对比分析;最后,分析EBSN推荐系统的研究难点及其发展趋势,并给出总结.
    2021,32(2):496-518, DOI: 10.13328/j.cnki.jos.006140
    [摘要] (3139) [HTML] (144) [PDF 2307193] (8527)
    摘要:
    深度学习在计算机视觉领域取得了重大成功,超越了众多传统的方法.然而近年来,深度学习技术被滥用在假视频的制作上,使得以Deepfakes为代表的伪造视频在网络上泛滥成灾.这种深度伪造技术通过篡改或替换原始视频的人脸信息,并合成虚假的语音来制作色情电影、虚假新闻、政治谣言等.为了消除此类伪造技术带来的负面影响,众多学者对假视频的鉴别进行了深入的研究,并提出一系列的检测方法来帮助机构或社区去识别此类伪造视频.尽管如此,目前的检测技术仍然存在依赖特定分布数据、特定压缩率等诸多的局限性,远远落后于假视频的生成技术.并且不同学者解决问题的角度不同,使用的数据集和评价指标均不统一.迄今为止,学术界对深度伪造与检测技术仍缺乏统一的认识,深度伪造和检测技术研究的体系架构尚不明确.回顾了深度伪造与检测技术的发展,并对现有研究工作进行了系统的总结和科学的归类.最后讨论了深度伪造技术蔓延带来的社会风险,分析了检测技术的诸多局限性,并探讨了检测技术面临的挑战和潜在研究方向,旨在为后续学者进一步推动深度伪造检测技术的发展和部署提供指导.
    2021,32(2):349-369, DOI: 10.13328/j.cnki.jos.006138
    [摘要] (4563) [HTML] (119) [PDF 2470350] (10741)
    摘要:
    小样本学习旨在通过少量样本学习到解决问题的模型.近年来,在大数据训练模型的趋势下,机器学习和深度学习在许多领域中取得了成功.但是在现实世界中的很多应用场景中,样本量很少或者标注样本很少,而对大量无标签样本进行标注工作将会耗费很大的人力.所以,如何用少量样本进行学习就成为目前人们需要关注的问题.系统地梳理了当前小样本学习的相关工作,具体来说介绍了基于模型微调、基于数据增强和基于迁移学习这3大类小样本学习模型与算法的研究进展;将基于数据增强的方法细分为基于无标签数据、基于数据合成和基于特征增强这3类,将基于迁移学习的方法细分为基于度量学习、基于元学习和基于图神经网络这3类;总结了目前常用的小样本数据集和代表性的小样本学习模型在这些数据集上的实验结果;随后对小样本学习的现状和挑战进行了概述;最后展望了小样本学习的未来发展方向.
    2021,32(2):551-578, DOI: 10.13328/j.cnki.jos.006135
    [摘要] (3045) [HTML] (173) [PDF 2808870] (4561)
    摘要:
    隐写术及隐写分析是信息安全领域研究热点之一.隐写术的滥用造成许多安全隐患,如非法分子利用隐写进行隐蔽通信完成恐怖袭击.传统隐写分析方法的设计需要大量先验知识,而基于深度学习的隐写分析方法利用网络强大的表征学习能力自主提取图像异常特征,大大减少了人为参与,取得了较好的研究效果.为了促进基于深度学习的隐写分析方法研究,对目前隐写分析领域的主要方法和突破性工作进行了分析与总结.首先,比较了传统隐写分析方法与基于深度学习的隐写分析方法的差异;然后根据训练方式的不同,将基于深度学习的隐写分析模型分为两类——半学习隐写分析模型与全学习隐写分析模型,详细介绍了基于深度学习的各类隐写分析网络结构与检测效果;其次,分析和总结了对抗样本对深度学习安全带来的挑战,并阐述了基于隐写分析的对抗样本检测方法;最后,总结了现有基于深度学习的隐写分析模型存在的优缺点,并探讨了基于深度学习的隐写分析模型的发展趋势.
    2021,32(2):475-495, DOI: 10.13328/j.cnki.jos.006134
    [摘要] (1895) [HTML] (105) [PDF 2109911] (1509)
    摘要:
    网络测量为网络设计者与管理者提供网络内部细粒度的运行状态信息,是对网络进行高效管理与优化的基础.网络断层扫描是网络测量领域的一个研究热点,是一种端到端的网络测量方法.与传统网络内部测量方法不同,网络断层扫描利用端到端的测量信息计算和推断网络内部性能和状态,从而实现与网络组成和协议无关的网络测量,具有较低的测量开销.对近年来国内外学者在网络断层扫描研究领域取得的成果进行了系统的总结.首先介绍了网络断层扫描的基本模型,并指出了影响网络断层扫描性能的3个重要因素:监测节点部署、测量路径构造和测量数据分析;接着,依次归纳了这3个方面的研究进展和研究成果;随后分析了已有网络断层扫描方法在实际应用中存在的缺陷,并给出了应对这些核心缺陷的理论和关键算法;最后,基于现有研究成果讨论了网络断层扫描的发展趋势和进一步的研究方向.
    2021,32(2):247-276, DOI: 10.13328/j.cnki.jos.006130
    [摘要] (2905) [HTML] (109) [PDF 2901231] (2481)
    摘要:
    基于信息检索的软件缺陷定位方法是当前软件缺陷定位领域中的一个研究热点.该方法主要分析缺陷报告文本和程序模块代码,通过计算缺陷报告和程序模块间的相似度,选取与缺陷报告相似度最高的若干程序模块,将其推荐给开发人员.对近些年国内外研究人员在该综述主题上取得的成果进行了系统的梳理和总结.首先,给出研究框架并阐述影响方法性能的3个重要因素——数据源、检索模型和场景应用;其次,依次对这3个影响因素的已有研究成果进行总结;然后,总结基于信息检索的软件缺陷定位研究中常用的性能评测指标和评测数据集;最后总结全文,并对未来值得关注的研究方向进行展望.
    2021,32(2):327-348, DOI: 10.13328/j.cnki.jos.006125
    [摘要] (2779) [HTML] (176) [PDF 2215808] (3015)
    摘要:
    我们生活在一个由大量不同模态内容构建而成的多媒体世界中,不同模态信息之间具有高度的相关性和互补性,多模态表征学习的主要目的就是挖掘出不同模态之间的共性和特性,产生出可以表示多模态信息的隐含向量.主要介绍了目前应用较广的视觉语言表征的相应研究工作,包括传统的基于相似性模型的研究方法和目前主流的基于语言模型的预训练的方法.目前比较好的思路和解决方案是将视觉特征语义化,然后与文本特征通过一个强大的特征抽取器产生出表征,其中,Transformer作为主要的特征抽取器被应用表征学习的各类任务中.分别从研究背景、不同研究方法的划分、测评方法、未来发展趋势等几个不同角度进行阐述.
    2021,32(2):445-474, DOI: 10.13328/j.cnki.jos.006124
    [摘要] (2494) [HTML] (106) [PDF 3047605] (2114)
    摘要:
    网络处理器作为能够完成路由查找、高速分组处理以及QoS保障等主流业务的网络设备核心计算芯片,可以结合自身可编程性完成多样化分组处理需求,适配不同网络应用场景.面向超高带宽及智能化终端带来的网络环境转变,高性能可演进的下一代网络处理器设计是网络通信领域的热点问题,受到学者们的广泛关注.融合不同芯片架构优势、高速服务特定业务,使得下一代网络处理器具备分组处理性能加速、动态配置硬件资源和服务应用智能化的特点.对利用新型可编程技术、面向新型网络体系结构以及针对新型高性能业务的下一代网络处理器设计方案与现有研究进行分析比较,并对下一代网络处理器的工业化进程做了介绍;提出了高性能可演进的下一代网络处理器体系架构,通过软硬件协同分组处理流水线、多级缓存与分组调度、资源管理及编程接口等方面给出了架构设计细节,研制了原型系统并对其性能进行了测试.明确了自主可控的网络处理器体系架构的发展方向和智能化应用场景,讨论了未来可能的研究方向.
    2021,32(2):519-550, DOI: 10.13328/j.cnki.jos.006104
    [摘要] (2770) [HTML] (287) [PDF 4375565] (6413)
    摘要:
    深度学习在医学影像分割领域得到广泛应用,其中,2015年提出的U-Net因其分割小目标效果较好、结构具有可扩展性,自提出以来受到广泛关注.近年来,随着医学图像割性能要求的提升,众多学者针对U-Net结构也在不断地改进和扩展,比如编解码器的改进、外接特征金字塔等.通过对基于U-Net结构改进的医学影像分割技术,从面向性能优化和面向结构改进两个方面进行总结,对相关方法进行了综述、分类和总结,并介绍图像分割中常用的损失函数、评价参数和模块,进而总结了针对不同目标改进U-Net结构的思路和方法,为相关研究提供了参考.
    2021,32(1):41-67, DOI: 10.13328/j.cnki.jos.006131
    [摘要] (4971) [HTML] (119) [PDF 2894587] (4716)
    摘要:
    在大数据时代下,深度学习、强化学习以及分布式学习等理论和技术取得的突破性进展,为机器学习提供了数据和算法层面强有力的支撑,同时促进了机器学习的规模化和产业化发展.然而,尽管机器学习模型在现实应用中有着出色的表现,但其本身仍然面临着诸多的安全威胁.机器学习在数据层、模型层以及应用层面临的安全和隐私威胁呈现出多样性、隐蔽性和动态演化的特点.机器学习的安全和隐私问题吸引了学术界和工业界的广泛关注,一大批学者分别从攻击和防御的角度对模型的安全和隐私问题进行了深入的研究,并且提出了一系列的攻防方法.回顾了机器学习的安全和隐私问题,并对现有的研究工作进行了系统的总结和科学的归纳,同时明确了当前研究的优势和不足.最后探讨了机器学习模型安全与隐私保护研究当前所面临的挑战以及未来潜在的研究方向,旨在为后续学者进一步推动机器学习模型安全与隐私保护研究的发展和应用提供指导.
    2021,32(1):21-40, DOI: 10.13328/j.cnki.jos.006121
    [摘要] (4461) [HTML] (116) [PDF 1980660] (3378)
    摘要:
    人工智能技术因其强大的学习和泛化能力已被广泛应用于各种真实场景中.然而,现有的人工智能技术仍然面临着三大挑战:第一,现有的AI技术使用门槛高,依赖于AI从业者选择合适模型、设计合理参数、编写程序,因此很难被广泛应用到非计算机领域;第二,现有的AI算法训练效率低,造成了大量计算资源的浪费,甚至延误决策时机;第三,现有的AI技术非常强地依赖于高质量数据,如果数据质量较低,可能带来计算结果的错误.数据库技术可以有效解决这3个难题,因此目前,面向AI的数据管理得到了广泛关注.首先给出AI中数据管理的整体框架,然后详细综述基于声明式语言模型的AI系统、面向AI优化的计算引擎、执行引擎和面向AI的数据治理引擎这4个方面,最后展望未来的研究方向和所面临的挑战.
    2021,32(1):118-136, DOI: 10.13328/j.cnki.jos.006120
    [摘要] (3584) [HTML] (123) [PDF 1858703] (2545)
    摘要:
    近年来,人工智能(artificial intelligence,简称AI)以强劲势头吸引着学术界和工业界的目光,并被广泛应用于各种领域.计算机网络为人工智能的实现提供了关键的计算基础设施.然而,传统网络固有的分布式结构往往无法快速、精准地提供人工智能所需要的计算能力,导致人工智能难以实际应用和部署.软件定义网络(software defined networking,简称SDN)提出集中控制的理念,中央控制器能够按需快速地为人工智能适配计算能力,从而实现其全面部署.将人工智能与SDN网络相结合,实现智能化软件定义网络,既可以解决棘手的传统网络问题,也能够促进网络应用创新.因此,首先研究将人工智能应用于软件定义网络所存在的问题,深入分析基于人工智能的SDN的优势,说明软件定义网络与人工智能结合的必要性.其次,自底向上地从SDN的数据平面、控制平面和应用平面角度出发,思考了不同网络平面与人工智能的结合.通过描述智能化软件定义网络的相关研究历程,介绍了智能软件定义网络在路由优化、网络安全和流量安全这3个方面的关键技术和所面对的挑战.最后,结合其他新兴领域说明智能软件定义网络的优势和前景,并对未来研究工作进行了展望.
    2021,32(1):1-20, DOI: 10.13328/j.cnki.jos.006111
    [摘要] (4905) [HTML] (127) [PDF 2035575] (3599)
    摘要:
    区块链是一种结合分布式共识、加密、时间戳等方法,在不依赖任何第三方中心化机构的情况下,实现点对点交易、协调以及协作的技术.近几年,区块链技术的不断发展引起了产业界和学术界的极大兴趣.但是,区块链的存储可扩展性问题,提高了区块链设备的门槛,成为了区块链应用落地的瓶颈.介绍了区块链的基本原理和存储模型,分析了当前区块链所面临的存储问题;然后,针对区块链存储可扩展性问题,从链下存储和链上存储这两条技术路线出发,论述了主要的解决方案的原理与思路;最后,总结了提高区块链存储可扩展性的技术研究进展,指出了当前解决方案所面临的问题,为未来的研究工作提供了方向.
    2021,32(1):194-217, DOI: 10.13328/j.cnki.jos.006105
    [摘要] (3438) [HTML] (181) [PDF 2196884] (3171)
    摘要:
    首先定位网络攻击事件的源头,然后进行有效的电子数据证据的收集,是网络取证的任务之一.定位网络攻击事件源头需要使用网络攻击追踪溯源技术.然而,现有的网络攻击追踪溯源技术研究工作主要从防御的角度来展开,以通过定位攻击源及时阻断攻击为主要目标,较少会考虑到网络取证的要求,从而导致会在网络攻击追踪溯源过程中产生的大量有价值的数据无法成为有效电子数据证据在诉讼中被采用,因而无法充分发挥其在网络取证方面的作用.为此,提出了一套取证能力评估指标,用于评估网络攻击追踪溯源技术的取证能力.总结分析了最新的网络攻击追踪溯源技术,包括基于软件定义网络的追踪溯源技术,基于取证能力评估指标分析了其取证能力,并针对不足之处提出了改进建议.最后,提出了针对网络攻击追踪溯源场景的网络取证过程模型.该工作为面向网络取证的网络攻击追踪溯源技术的研究提供了参考.
    2021,32(1):218-245, DOI: 10.13328/j.cnki.jos.006103
    [摘要] (2728) [HTML] (106) [PDF 2883399] (2266)
    摘要:
    保护网络空间隐私的愿望推动了匿名通信系统的研究,使得用户可以在使用互联网服务时隐藏身份和通信关系等敏感信息,不同的匿名通信系统提供不同强度的匿名保护.如何量化和比较这些系统提供的匿名程度,从开始就是重要的研究主题,如今愈发得到更多关注,成为新的研究焦点,需要开展更多的研究和应用.匿名度量可以帮助用户了解匿名通信系统提供的保护级别,帮助开发者在设计和改进匿名通信系统时提供客观和科学的依据.给出了匿名度量研究的通用框架,包含匿名通信、匿名攻击和匿名度量这3部分及其相互关系.综述了匿名度量领域的研究工作,寻找其发展脉络和特点,按时间线回顾和归纳基于多种理论和方法的匿名度量标准,结合匿名通信攻击技术,对典型的度量方法各自的特点和相互关系进行梳理和比较,介绍度量研究新的进展,展望研究的下一步方向和发展趋势.分析表明,匿名度量有助于判断匿名通信系统是否提供了所承诺的匿名性.用于表达匿名程度的度量标准越来越多样,基于信息论的度量方法应用最为广泛,随着Tor等匿名通信系统的大规模部署,出现了基于统计数据针对真实系统和基础设施进行的匿名性评估.随着匿名技术的进一步发展,如何扩展度量标准应用于新出现的匿名技术、如何组合度量标准以适用于新的匿名系统,都是有应用前景的研究方向.
    2021,32(1):167-193, DOI: 10.13328/j.cnki.jos.006100
    [摘要] (4356) [HTML] (138) [PDF 2666807] (4089)
    摘要:
    近年来,随着Web 2.0的普及,使用图挖掘技术进行异常检测受到人们越来越多的关注.图异常检测在欺诈检测、入侵检测、虚假投票、僵尸粉丝分析等领域发挥着重要作用.在广泛调研国内外大量文献以及最新科研成果的基础上,按照数据表示形式将面向图的异常检测划分成静态图上的异常检测与动态图上的异常检测两大类,进一步按照异常类型将静态图上的异常分为孤立个体异常和群组异常检测两种类别,动态图上的异常分为孤立个体异常、群体异常以及事件异常这3种类型.对每一类异常检测方法当前的研究进展加以介绍,对每种异常检测算法的基本思想、优缺点进行分析、对比,总结面向图的异常检测的关键技术、常用框架、应用领域、常用数据集以及性能评估方法,并对未来可能的发展趋势进行展望.
    2021,32(1):68-92, DOI: 10.13328/j.cnki.jos.006096
    [摘要] (3972) [HTML] (116) [PDF 2495103] (3498)
    摘要:
    随着训练可用数据量的增长与计算平台处理能力的增强,基于深度学习的智能模型能够完成越来越复杂的任务,其在计算机视觉、自然语言处理等人工智能领域已经取得重大的突破.然而,这些深度模型具有庞大的参数规模,与此相伴的可畏的计算开销与内存需求使其在计算能力受限平台(例如移动嵌入式设备)的部署中遇到了巨大的困难与挑战.因此,如何在不影响深度学习模型性能的情况下进行模型压缩与加速成为研究热点.首先对国内外学者提出的经典深度学习模型压缩与加速方法进行分析,从参数剪枝、参数量化、紧凑网络、知识蒸馏、低秩分解、参数共享和混合方式这7个方面分类总结;其次,总结对比几种主流技术的代表性方法在多个公开模型上的压缩与加速效果;最后,对于模型压缩与加速领域的未来研究方向加以展望.
    2021,32(1):137-166, DOI: 10.13328/j.cnki.jos.006095
    [摘要] (2901) [HTML] (111) [PDF 3333959] (2545)
    摘要:
    安全与可信是云计算中极为重要的需求,如何保护用户在云平台上托管的应用程序代码和数据的安全、防止云服务提供商和其他攻击者窃取用户机密数据,一直是个难题.2013年,Intel公司提出了新的处理器安全技术SGX,能够在计算平台上提供一个用户空间的可信执行环境,保证用户关键代码及数据的机密性和完整性.SGX技术自提出以来,已成为云计算安全问题的重要解决方案.如何有效地应用SGX技术来保护用户的应用程序,成为近年来的研究热点.介绍了SGX的相关机制和SDK,概括了SGX应用所面临的安全问题、性能瓶颈问题、开发困难问题和功能局限性等问题,总结并归纳了SGX应用支持技术的研究进展,包括SGX应用安全防护技术、SGX应用性能优化技术、SGX应用辅助开发技术和SGX功能扩展技术,并展望了未来的发展方向.
    2021,32(1):93-117, DOI: 10.13328/j.cnki.jos.006092
    [摘要] (3433) [HTML] (116) [PDF 2992785] (3565)
    摘要:
    复杂网络在现实场景中无处不在,高效的复杂网络分析技术具有广泛的应用价值,比如社区检测、链路预测等.然而,很多复杂网络分析方法在处理大规模网络时需要较高的时间、空间复杂度.网络表征学习是一种解决该问题的有效方法,该类方法将高维稀疏的网络信息转化为低维稠密的实值向量,可以作为机器学习算法的输入,便于后续应用的高效计算.传统的网络表征学习方法将实体对象嵌入到低维欧氏向量空间中,但复杂网络是一类具有近似树状层次结构、幂率度分布、强聚类特性的网络,该结构更适合用具有负曲率的双曲空间来描述.针对复杂网络的双曲空间表征学习方法进行系统性的介绍和总结.
    2020,31(10):3120-3146, DOI: 10.13328/j.cnki.jos.006067
    [摘要] (2200) [HTML] (93) [PDF 2575041] (1157)
    摘要:
    计算设备处理和存储日益增多的敏感信息,如口令和指纹信息等,对安全性提出更高要求.物理攻击技术的发展催生了一种通过攻击电路板级硬件组件来获取操作系统机密信息的攻击方法:电路板级物理攻击.该类攻击具有工具简单、成本低、易流程化等特点,极容易被攻击者利用形成黑色产业,是操作系统面临的新安全威胁和挑战.在处理器上扩展内存加密引擎可抵抗该类攻击,但是目前大部分计算设备并未配备该硬件安全机制.学术界和产业界提出软件方式抗电路板级物理攻击的操作系统防御技术,该类技术已成为近年来的研究热点.深入分析了该类技术的研究进展,总结其技术优势和不足,并探讨其发展趋势.首先,介绍了电路板级物理攻击的定义、威胁模型、现实攻击实例.之后,介绍软件方式抗电路板级物理攻击的操作系统防御技术所依赖的一些基础技术.然后,对该类防御技术的研究进展按照保护范围进行分类总结和归纳.最后,分析了该类防御技术的优势与不足,给出工程实现建议,并探讨该类防御技术未来的研究趋势.
    2020,31(10):3100-3119, DOI: 10.13328/j.cnki.jos.006066
    [摘要] (2386) [HTML] (114) [PDF 2105166] (2372)
    摘要:
    数据中心是重要的信息基础设施,也是企业互联网应用的关键支撑.然而,目前数据中心的服务器资源利用率较低(仅为10%~20%),导致大量的资源浪费,带来了极大的额外运维成本,成为制约各大企业提升计算效能的关键问题.混部(colocation),即将在线作业与离线作业混合部署,以空闲的在线集群资源满足离线作业的计算需求,作为一种重要的技术手段,混部能够有效提升数据中心资源利用率,成为当今学术界和产业界的研究热点.分析了在线作业与离线作业的特征,探讨了在离线作业间性能干扰等混部所面临的技术挑战,从性能干扰模型、作业调度、资源隔离与资源动态分配等方面就在离线混部技术进行了综述,并以业界典型混部管理系统为例探讨了在离线混部关键技术在产业界的应用及其效果,最后对未来的研究方向进行了展望.
    2020,31(10):3087-3099, DOI: 10.13328/j.cnki.jos.006065
    [摘要] (2484) [HTML] (158) [PDF 1537454] (1971)
    摘要:
    近年来,现场可编程逻辑门阵列(FPGA)在异构计算领域因其优异的可定制性和可重配置特点吸引了工业界和学术界的广泛关注.基于FPGA的硬件加速系统设计涉及到深度的软硬件协同开发,利用软硬件各自开发工具分别开发再集成的传统开发方式具有学习门槛高,集成、测试、部署耗时长等缺陷,开发人员难以利用FPGA可快速重配置的特点来实现系统开发过程中的快速原型和快速迭代.如何让硬件加速系统的开发利用到现代软件工程和程序语言领域的成果,研究者们经历了长期的探索,首先根据相关研究总结了硬件及硬件加速系统开发工具设计的历史教训和成功经验,然后介绍设计实践,最后进行总结并提出对未来的展望.
    2020,31(9):2903-2925, DOI: 10.13328/j.cnki.jos.006091
    [摘要] (3398) [HTML] (182) [PDF 2425613] (3489)
    摘要:
    最近几年,随着加密货币和去中心化应用的流行,区块链技术受到了各行业极大的关注.从数据管理的角度,区块链可以视作是在一个分布式环境下众多不可信节点共同维护且不可篡改的账本.由于节点间相互不可信,区块链通过共识协议,确保数据存储的一致性,实现去中心化的数据管理.针对区块链的安全性以及共识协议,已有诸多工作进行全面的分析.将从数据管理的角度,分析区块链技术与传统数据库下数据管理技术的异同.分布式数据管理的研究已经持续数十年,涵盖了数据存储模式、事务处理机制、查询执行与验证、系统可扩展性等诸多方面,并已有诸多技术广泛应用于实际的分布式数据库中.该类工作往往假定存在中心可信节点或者节点只可能发生崩溃而不存在恶意攻击.然而在区块链环境中,系统设计需考虑不可信节点可能的攻击行为以及拜占庭容错.这给数据管理带来了新的问题与挑战.因此,将梳理并分析国内外有关区块链数据管理的文献,并展望未来的研究方向.
    2020,31(9):2826-2854, DOI: 10.13328/j.cnki.jos.006087
    [摘要] (2236) [HTML] (108) [PDF 3149103] (3748)
    摘要:
    缺陷的存在,会影响软件系统的正常使用甚至带来重大危害.为了帮助开发者尽快找到并修复这些缺陷,研究者提出了基于信息检索的缺陷定位方法.这类方法将缺陷定位视为一个检索任务,它为每个缺陷报告生成一份按照程序实体与缺陷相关度降序排序的列表.开发者可以根据列表顺序来审查代码,从而降低审查成本并加速缺陷定位的进程.近年来,该领域的研究工作十分活跃,在改良定位方法和完善评价体系方面取得了较大进展.与此同时,为了能够在实践中更好地应用这类方法,该领域的研究工作仍面临着一些亟待解决的挑战.对近年来国内外学者在该领域的研究成果进行系统性的总结:首先,描述了基于信息检索的缺陷定位方法的研究问题;然后,分别从模型改良和模型评估两方面陈述了相关的研究进展,并对具体的理论和技术途径进行梳理;接着,简要介绍了缺陷定位的其他相关技术;最后,总结了目前该领域研究过程中面临的挑战并给出建议的研究方向.
    2020,31(9):2802-2825, DOI: 10.13328/j.cnki.jos.006085
    [摘要] (1974) [HTML] (121) [PDF 4899644] (1657)
    摘要:
    故障检测率FDR(fault detection rate)是可靠性研究的关键要素,对于测试环境构建、故障检测效率提升、可靠性建模和可靠性增长具有重要作用,对于提高系统可靠性与确定发布时间具有重要现实意义.首先,对基于NHPP(non-homogeneous poisson process,非齐次泊松过程)类的软件可靠性增长模型SRGM(software reliability growth mode)进行概述,给出了建模本质、功用与流程.基于此,引出可靠性建模与研究中的关键参数——FDR,给出定义,对测试环境描述能力进行分析,展示不同模型的差异.着重剖析了FDR与失效强度、冒险率(风险率)的区别,得出三者之间的关联性表述.全面梳理了FDR的大类模型,分别从测试覆盖函数视角、直接设定角度、测试工作量函数参与构成方式这3个方面进行剖析,继而提出统一的FDR相关的可靠性模型.考虑到对真实测试环境描述能力的需要,建立不完美排错框架模型,衍生出不完美排错下多个不同FDR参与的可靠性增长模型.进一步,在12个真实描述应用场景与公开发表的失效数据集上进行实验,验证不同FDR模型相关的可靠性模型效用,对差异性进行分析与讨论.结果表明,FDR模型自身的性能可以支撑可靠性模型性能的提升.最后,指出了未来研究趋势和需要解决的问题.
    2020,31(9):2883-2902, DOI: 10.13328/j.cnki.jos.006083
    [摘要] (2404) [HTML] (96) [PDF 3919530] (2259)
    摘要:
    近年来,随着智能监控领域的不断发展,行人重识别问题逐渐受到学术界和工业界的广泛关注,其主要研究将不同摄像头下相同身份的行人图像进行关联.当前,大部分研究工作关注在有监督场景下,即给定的训练数据都存在标记信息,然而考虑到数据标注工作的高成本,这在现实应用中往往是难以拓展的.关注于弱监督场景下的行人重识别算法,包括无监督场景和半监督场景,并且对当前先进的方法进行了分类和描述.对于无监督场景的行人重识别算法,根据其技术类型划分为5类,分别为基于伪标记的方法、基于图像生成的方法、基于实例分类的方法、基于领域自适应的方法和其他方法;对于半监督场景的行人重识别方法,根据其场景类型划分为4类,分别为少量的人有标记的场景、每一个人有少量标记的场景、基于tracklet的学习的场景和摄像头内有标记但摄像头间无标记的场景.最后,对当前行人重识别的相关数据集进行了整理,并对现有的弱监督方法的实验结果进行分析与总结.
    2020,31(9):2654-2677, DOI: 10.13328/j.cnki.jos.005946
    [摘要] (6198) [HTML] (103) [PDF 2526792] (5042)
    摘要:
    深度学习算法和GPU算力的不断进步,正促进着人工智能技术在包括计算机视觉、语音识别、自然语言处理等领域得到广泛应用.与此同时,深度学习已经开始应用于以自动驾驶为代表的安全攸关领域.但是,近两年接连发生了几起严重的交通事故表明,深度学习技术的成熟度还远未达到安全攸关应用的要求.因此,对可信人工智能系统的研究已经成为了一个热点方向.对现有的面向实时应用的深度学习领域的研究工作进行了综述,首先介绍了深度学习技术应用于实时嵌入式系统所面临的关键设计问题;然后,从深层神经网络的轻量化设计、GPU时间分析与任务调度、CPU+GPU SoC异构平台的资源管理、深层神经网络与网络加速器的协同设计等多个方面对现有的研究工作进行了分析和总结;最后展望了面向实时应用的深度学习领域进一步的研究方向.
    2020,31(9):2627-2653, DOI: 10.13328/j.cnki.jos.005942
    [摘要] (5918) [HTML] (115) [PDF 3015191] (6110)
    摘要:
    深度神经网络已经被证明可以有效地解决图像、自然语言等不同领域的问题.同时,伴随着移动互联网技术的不断发展,便携式设备得到了迅速的普及,用户提出了越来越多的需求.因此,如何设计高效、高性能的轻量级神经网络,是解决问题的关键.详细阐述了3种构建轻量级神经网络的方法,分别是人工设计轻量级神经网络、神经网络模型压缩算法和基于神经网络架构搜索的自动化神经网络架构设计;同时,简要总结和分析了每种方法的特点,并重点介绍了典型的构建轻量级神经网络的算法;最后,总结现有的方法,并给出了未来发展的前景.
    2020,31(8):2574-2587, DOI: 10.13328/j.cnki.jos.006088
    [摘要] (2384) [HTML] (112) [PDF 1759865] (3691)
    摘要:
    随着互联网规模的不断增大,网络管理和运维变得极其复杂,网络自治成为未来网络发展的趋势,基于意图的网络(intent-based networking,简称IBN)应运而生.首先从IBN的定义入手,介绍学术界及产业界对IBN范畴及体系结构的描述,并概述IBN实现的闭环,包括意图获取、意图转译、策略验证、意图下发与执行、实时反馈及优化;其次,按照IBN闭环,详细阐述IBN关键技术的研究现状;随后,举例说明IBN在网络测量和网络业务编排中的应用;最后,展望未来研究工作并总结全文.
    2020,31(8):2432-2452, DOI: 10.13328/j.cnki.jos.006081
    [摘要] (2411) [HTML] (102) [PDF 2534021] (2527)
    摘要:
    缺陷定位是软件工程研究最活跃的领域之一.大部分软件缺陷都会被提交到类似于Bugzilla和Jira的缺陷追踪系统中.由于提交的缺陷报告数量过多,开发人员不能及时处理,因而迫切需要一个自动化工具来帮助开发人员识别缺陷相关源代码文件.研究人员已提出了大量缺陷定位技术.基于信息检索的软件缺陷定位技术(information retrieval-based bug localization,简称IRBL)利用了缺陷报告的文本特性,并且由于计算成本低、对不同的程序语言更具普适性而成为缺陷定位领域的研究热点,取得了一系列研究成果.然而,IRBL技术也在数据预处理、相似度计算和工程应用等方面存在诸多挑战.鉴于此,对现有的IRBL技术进行梳理总结,主要内容包括:(1)梳理了IRBL中数据预处理的过程和信息检索通用方法;(2)对IRBL技术中利用的数据特征进行了详细的分类和总结;(3)总结了技术评估中使用的性能评估指标;(4)归纳出了IRBL技术的关键问题;(5)展望了IRBL技术的未来发展.
    2020,31(8):2603-2624, DOI: 10.13328/j.cnki.jos.006080
    [摘要] (2730) [HTML] (144) [PDF 2291793] (1643)
    摘要:
    随着异构计算技术的不断进步,CPU和GPU等设备相集成的异构融合处理器在近些年得到了充分的发展,并引起了学术界和工业界的关注.将多种设备进行集成带来了许多好处,例如,多种设备可以访问同样的内存,可以进行细粒度的交互.然而,这也带来了系统编程和优化方面的巨大挑战.充分发挥异构融合处理器的性能,需要充分利用集成体系结构中共享内存等特性;同时,还需结合具体应用特征对异构融合处理器上的不同设备进行优化.首先对目前涉及异构融合处理器的研究工作进行了分析,之后介绍了异构融合处理器的性能分析工作,并进一步介绍了相关优化技术,随后对异构融合处理器的应用进行了总结.最后,对异构融合处理器未来的研究方向进行展望,并进行了总结.
    2020,31(8):2465-2491, DOI: 10.13328/j.cnki.jos.006078
    [摘要] (2089) [HTML] (94) [PDF 3518065] (3588)
    摘要:
    情感识别是多学科交叉的研究方向,涉及认知科学、心理学、信号处理、模式识别、人工智能等领域的研究热点,目的是使机器理解人类情感状态,进而实现自然人机交互.首先,从心理学及认知学角度介绍了语音情感认知的研究进展,详细介绍了情感的认知理论、维度理论、脑机制以及基于情感理论的计算模型,旨在为语音情感识别提供科学的情感理论模型;然后,从人工智能的角度,系统地总结了目前维度情感识别的研究现状和发展,包括语音维度情感数据库、特征提取、识别算法等技术要点;最后,分析了维度情感识别技术目前面临的挑战以及可能的解决思路,对未来研究方向进行了展望.
    2020,31(8):2404-2431, DOI: 10.13328/j.cnki.jos.006076
    [摘要] (2910) [HTML] (103) [PDF 3474396] (2412)
    摘要:
    软件系统自适应提供了应对动态变化的环境和不确定的需求的技术方案.在已有的软件系统自适应性的相关研究中,有一类工作将软件系统自适应性转换为回归、分类、聚类、决策等问题,并利用强化学习、神经网络/深度学习、贝叶斯决策理论和概率图模型、规则学习等机器学习算法进行问题建模与求解,并以此构造软件系统自适应机制.将其称为机器学习赋能的软件自适应性.通过系统化的文献调研,综述了该研究方向的前沿工作:首先介绍基本概念,然后分别从机器学习、软件自适应的视角对当前工作进行分类;按机器学习算法、软件对外交互、软件对内控制、自适应过程、自适应任务和学习能力的对应关系等方面进行分析;最后对未来的研究进行展望.
    2020,31(7):2040-2061, DOI: 10.13328/j.cnki.jos.006055
    [摘要] (3019) [HTML] (136) [PDF 2956575] (6839)
    摘要:
    软件复杂性的增加,给软件安全性带来极大的挑战.随着软件规模的不断增大以及漏洞形态多样化,传统漏洞挖掘方法由于存在高误报率和高漏报率的问题,已无法满足复杂软件的安全性分析需求.近年来,随着人工智能产业的兴起,大量机器学习方法被尝试用于解决软件漏洞挖掘问题.首先,通过梳理基于机器学习的软件漏洞挖掘的现有研究工作,归纳了其技术特征与工作流程;接着,从其中核心的原始数据特征提取切入,以代码表征形式作为分类依据,对现有研究工作进行分类阐述,并系统地进行了对比分析;最后,依据对现有研究工作的整理总结,探讨了基于机器学习的软件漏洞挖掘领域面临的挑战,并展望了该领域的发展趋势.
    2020,31(7):2127-2156, DOI: 10.13328/j.cnki.jos.006052
    [摘要] (3969) [HTML] (139) [PDF 3239791] (5205)
    摘要:
    机器学习已成为大数据、物联网和云计算等领域的核心技术.机器学习模型训练需要大量数据,这些数据通常通过众包方式收集,其中含有大量隐私数据,包括个人身份信息(如电话号码、身份证号等)、敏感信息(如金融财务、医疗健康等信息).如何低成本且高效地保护这些数据是一个重要的问题.介绍了机器学习及其隐私定义和隐私威胁,重点对机器学习隐私保护主流技术的工作原理和突出特点进行了阐述,并分别按照差分隐私、同态加密和安全多方计算等机制对机器学习隐私保护领域的研究成果进行了综述.在此基础上,对比分析了机器学习不同隐私保护机制的主要优缺点.最后,对机器学习隐私保护的发展趋势进行展望,并提出该领域未来可能的研究方向.
    2020,31(7):2221-2244, DOI: 10.13328/j.cnki.jos.006050
    [摘要] (2609) [HTML] (106) [PDF 2330085] (6135)
    摘要:
    数据中心网络是现代网络和云计算的重要基础设施,实现数据中心网络负载均衡是保证网络吞吐并提高服务体验的关键环节.首先分析了数据中心网络与传统互联网之间的区别,总结其特点及特殊性在负载均衡方案设计方面的优势.然后从数据中心的复杂性和多样性角度分析其负载均衡方案设计所面临的挑战.将现有数据中心网络负载均衡方案根据不同的实现层次从网络层、传输层、应用层和综合方案4个角度进行分析,对比各个方案的优缺点,并从控制结构、负载均衡粒度、拥塞感知机制、负载均衡策略、可扩展性和部署难度几个方面进行综合评价.最后对现有数据中心网络负载均衡方案进行总结,并指出未来可能的研究方向.
    2020,31(7):2095-2126, DOI: 10.13328/j.cnki.jos.006048
    [摘要] (2817) [HTML] (138) [PDF 3456324] (12867)
    摘要:
    机器阅读理解的目标是使机器理解自然语言文本,并能够正确回答与文本相关的问题.由于数据集规模的制约,早期的机器阅读理解方法大多基于人工特征以及传统机器学习方法进行建模.近年来,随着知识库、众包群智的发展,研究者们陆续提出了高质量的大规模数据集,为神经网络模型以及机器阅读理解的发展带来了新的契机.对基于神经网络的机器阅读理解相关的最新研究成果进行了详尽的归纳:首先,概述了机器阅读理解的发展历程、问题描述以及评价指标;然后,针对当前最流行的神经阅读理解模型架构,包括嵌入层、编码层、交互层和输出层中所使用的相关技术进行了全面的综述,同时阐述了最新的BERT预训练模型及其优势;之后,归纳了近年来机器阅读理解数据集和神经阅读理解模型的研究进展,同时,详细比较分析了最具代表性的数据集以及神经网络模型;最后展望了机器阅读理解研究所面临的挑战和未来的研究方向.
    2020,31(7):2019-2039, DOI: 10.13328/j.cnki.jos.006047
    [摘要] (2073) [HTML] (144) [PDF 2123604] (1850)
    摘要:
    随着分布式软件系统在各个行业的广泛应用,如何提升系统运维效率,保障其服务的可靠与稳定,得到了学术界与工业界的关注.分布式软件系统其规模庞大、结构复杂、持续更新且大量服务请求并发执行的特点,给分布式软件系统的运维任务带来了严峻的挑战.传统的以组件/节点/进程/线程为中心的系统监控与追踪方法难以支持分布式软件的故障诊断、性能调优、系统理解等运维任务.分布式追踪技术识别并提取出分布式软件系统因处理单个服务请求所产生的因果相关的事件,以服务请求为中心对分布式软件系统的行为进行精准、细粒度地刻画,对提高分布式软件系统的运维效率有重要意义.对分布式追踪技术的研究与应用进行了综述,从追踪数据获取、请求事件提取、因果关系判断及请求路径表示这4个方面总结了分布式追踪技术的现状;同时以基于请求执行路径的故障诊断和性能分析为例,讨论了学术界对分布式追踪技术的应用研究;最后,对分布式追踪技术的数据读写依赖问题、通用性问题和评价问题进行了探讨并对未来的研究方向进行了展望.
    2020,31(7):2205-2220, DOI: 10.13328/j.cnki.jos.006046
    [摘要] (2016) [HTML] (186) [PDF 1726772] (2333)
    摘要:
    DNS为互联网应用提供名字解析服务,是互联网的重要基础服务设施.近年发生的互联网安全事件表明DNS正面临严峻的安全威胁.DNS的安全脆弱性主要包括:协议设计脆弱性、技术实现脆弱性和体系结构脆弱性.针对上述脆弱性,对DNS协议设计、系统实现、检测监控和去中心化等方面的最新研究成果进行了归纳和总结,并且对未来可能的热点研究方向进行了展望.
    2020,31(7):1997-2018, DOI: 10.13328/j.cnki.jos.006045
    [摘要] (2398) [HTML] (98) [PDF 2445617] (4462)
    摘要:
    基于日志数据的故障诊断是指通过智能化手段分析系统运行时产生的日志数据以自动化地发现系统异常、诊断系统故障.随着智能运维(artificial intelligence for IT operations,简称AIOps)的快速发展,该技术正成为学术界和工业界的研究热点.首先总结了基于日志数据的分布式软件系统故障诊断研究框架,然后就日志处理与特征提取、基于日志数据的异常检测、基于日志数据的故障预测和基于日志数据分析的故障根因诊断等关键技术对近年来国内外相关工作进行了深入分析,最后以所提出的研究框架为指导总结相关研究工作,并对未来研究可能面临的挑战进行了展望.
    2020,31(7):2062-2094, DOI: 10.13328/j.cnki.jos.006040
    [摘要] (2563) [HTML] (177) [PDF 3423563] (9774)
    摘要:
    自动术语抽取是从文本集合中自动抽取领域相关的词或短语,是本体构建、文本摘要、知识图谱等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究的兴起,使得自动术语抽取技术进一步得到学者的广泛关注,取得了较为丰富的研究成果.以术语排序算法为主线,对自动术语抽取方法的理论、技术、现状及优缺点进行研究综述:首先概述了自动术语抽取问题的形式化定义和解决框架.然后围绕"浅层语言分析"中基础语言信息和关系结构信息两个层面的特征对近年来国内外的研究成果进行分类,系统总结了现有自动术语抽取方法的研究进展和面临的挑战.最后对术语抽取使用的数据资源及实验评价进行分析,并对自动术语抽取未来可能的研究趋势进行了探讨与展望.
    2020,31(7):2184-2204, DOI: 10.13328/j.cnki.jos.006039
    [摘要] (2383) [HTML] (129) [PDF 2165811] (8434)
    摘要:
    数据转发与控制分离的软件定义网络(software defined networking,简称SDN)是对传统网络架构的彻底颠覆,为网络各方面的研究引入了新的机遇和挑战.随着传统网络研究方法在SDN中遭遇瓶颈,基于深度学习的方法被引入到SDN的研究中,在实现实时智能的网络管控上成果颇丰,推动了SDN研究的深入发展.调查了深度学习开发平台,训练数据集、智能SDN架构等深度学习引入SDN的促进因素;对智能路由、入侵检测、流量感知和其他应用等SDN研究领域中的深度学习应用进行系统的介绍,深入分析了现有深度学习应用的特点和不足;最后展望了SDN未来的研究方向与趋势.
    2020,31(7):2245-2282, DOI: 10.13328/j.cnki.jos.006037
    [摘要] (1992) [HTML] (108) [PDF 4228528] (14577)
    摘要:
    超声诊断是甲状腺、乳腺癌首选影像学检查和术前评估方法.但良/恶性结节的超声表现存在重叠,仍欠缺定量、稳定的分析手段,严重依赖操作者的经验.近年来,基于计算机技术的医疗影像分析水平快速发展,超声影像分析取得了一系列里程碑式的突破,为医疗提供有效的诊断决策支持.以甲状腺、乳腺两类超声影像为对象,梳理了计算机视觉、图像识别技术在医学超声图像上的学术进展,以超声影像自动诊断涉及的一系列关键技术为主线,从图像预处理、病灶区定位及分割、特征提取和分类这4个方面对近年来主流算法进行了详尽的综述分析,从算法分析、数据和评估方法等方面进行多维度梳理.最后讨论了具体面向这两种腺体的超声图像计算机分析存在的问题,并对此领域的研究趋势和发展方向进行了展望.
    2020,31(6):1761-1785, DOI: 10.13328/j.cnki.jos.006042
    [摘要] (2326) [HTML] (114) [PDF 2610014] (2212)
    摘要:
    近年来,随着信息技术的发展及物联网技术的兴起,出现了越来越多的持续监控应用场景,如智能交通实时监控、疾病实时监控、智能基础设施应用等.在这些场景中,如何对参与者持续分享的数据进行隐私保护面临重大挑战.差分隐私是一种严格和可证明的隐私定义,早期差分隐私研究大都基于一个大规模、静态的数据集做一次性的计算和发布.而持续监控下差分隐私保护需对动态数据做持续计算和发布.目前,持续监控下差分隐私保护是差分隐私领域新的研究热点之一.对持续监控下差分隐私保护的已有研究成果进行总结.首先,对该场景下差分隐私保护模型进行阐述;然后,重点介绍了持续监控下满足event级、user级和w-event级隐私保护的实现方案.在对已有研究成果深入对比分析的基础上,指出了持续监控下差分隐私保护的未来研究方向.
    2020,31(6):1723-1746, DOI: 10.13328/j.cnki.jos.006029
    [摘要] (2539) [HTML] (97) [PDF 2369152] (3156)
    摘要:
    作为社会媒体文本情感分析的重要研究课题之一,跨领域文本情感分类旨在利用源领域资源或模型迁移地服务于目标领域的文本情感分类任务,其可以有效缓解目标领域中带标签数据不足问题.从3个角度对跨领域文本情感分类方法行了归纳总结:(1)按照目标领域中是否有带标签数据,可分为直推式和归纳式情感迁移方法;(2)按照不同情感适应性策略,可分为实例迁移方法、特征迁移方法、模型迁移方法、基于词典的方法、联合情感主题方法以及图模型方法等;(3)按照可用源领域个数,可分为单源和多源跨领域文本情感分类方法.此外,还介绍了深度迁移学习方法及其在跨领域文本情感分类的最新应用成果.最后,围绕跨领域文本情感分类面临的关键技术问题,对可能的突破方向进行了展望.
    2020,31(6):1681-1702, DOI: 10.13328/j.cnki.jos.006014
    [摘要] (2760) [HTML] (107) [PDF 2113729] (2670)
    摘要:
    软件不变量是软件的重要属性,在软件验证、软件调试和软件测试等领域有重要作用.自20世纪末以来,基于动态分析的不变量综合技术成为相关领域的一个研究热点,并且取得了一定的进展.收集了90篇相关论文对该领域进行系统总结.基于动态分析的不变量综合技术是该领域的核心问题,提出了“学习者-预言”框架统一描述相关方法,并且在此框架内根据学习者的归纳方法将综合技术大致分为4类,分别是基于模板穷举的方法、基于数值计算的方法、基于统计学习的方法以及基于符号执行的方法.其次,讨论了基于动态分析综合的不变量在软件验证和软件工程等领域的重要应用.随后,总结不变量生成技术中常用的实验对象程序和开源的不变量综合工具.最后,总结该领域并展望未来的研究方向.
    2020,31(5):1465-1496, DOI: 10.13328/j.cnki.jos.005988
    [摘要] (2917) [HTML] (115) [PDF 4088096] (10943)
    摘要:
    自然场景文本检测与识别研究对于从场景中获取信息有重要意义,而深度学习技术有助于提高文本检测与识别的能力.主要对基于深度学习的自然场景文本检测与识别方法和其研究进展进行整理分类、分析和总结.首先论述自然场景文本检测与识别的相关研究背景及主要技术研究路线;然后,根据自然场景文本信息处理的不同阶段,进一步介绍文本检测模型、文本识别模型和端到端的文本识别模型,并阐述和分析每类模型方法的基本思路和优缺点;另外,列举了常见公共标准数据集以及性能评估指标和方法,并对不同模型相关实验结果进行了对比分析;最后总结基于深度学习的自然场景文本检测与识别技术面临的挑战和发展趋势.
    2020,31(5):1406-1434, DOI: 10.13328/j.cnki.jos.005967
    [摘要] (4262) [HTML] (142) [PDF 3333831] (4267)
    摘要:
    基于区块链的分布式账本集成了非对称加密体系、P2P网络、共识算法、智能合约等多种技术,保证事务记录的一致性和不可篡改性.但是,区块链技术中的账本共享机制也带来了隐私威胁,用户身份、账户地址、交易内容等信息的隐私保护成为研究的关注点.讨论了区块链系统中的隐私威胁;着重分析了地址混淆、信息隐藏、通道隔离等3类隐私保护机制,详细介绍各类机制的原理、模型、特征及实现技术;最后探讨了实际应用中,区块链隐私保护技术在系统性能和可扩展性方面的挑战和发展方向.
    2020,31(5):1435-1453, DOI: 10.13328/j.cnki.jos.005966
    [摘要] (2507) [HTML] (155) [PDF 2165239] (3401)
    摘要:
    代码补全(code completion)是自动化软件开发的重要功能之一,是大多数现代集成开发环境和源代码编辑器的重要组件.代码补全提供即时类名、方法名和关键字等预测,辅助开发人员编写程序,直观提高软件开发效率.近年来,开源软件社区中源代码和数据规模不断扩大,人工智能技术取得了卓越进展,这对自动化软件开发技术产生了极大的促进作用.智能代码补全(intelligent code completion)根据源代码建立语言模型,从语料库学习已有代码特征,根据待补全位置的上下文代码特征在语料库中检索最相似的匹配项进行推荐和预测.相对于传统代码补全,智能代码补全凭借其高准确率、多补全形式、可学习迭代的特性成为软件工程领域的热门方向之一.研究者们在智能代码补全方面进行了一系列研究,根据这些方法如何表征和利用源代码信息的不同方式,可以将它们分为基于编程语言表征和基于统计语言表征两个研究方向,其中,基于编程语言表征又分为标识符序列、抽象语法树、控制/数据流图这3个类别,基于统计语言表征又分为N-gram模型、神经网络模型这2个类别.从代码表征的角度入手,对近年来代码补全方法研究进展进行梳理和总结,主要内容包括:(1)根据代码表征方式阐述并归类了现有的智能代码补全方法;(2)总结了代码补全的一般过程和模型评估中的模型验证方法与性能评估指标;(3)归纳了智能代码补全的主要挑战;(4)展望了智能代码补全的未来发展方向.
    2020,31(5):1255-1275, DOI: 10.13328/j.cnki.jos.005951
    [摘要] (3558) [HTML] (187) [PDF 2060803] (6700)
    摘要:
    随着深度神经网络技术的快速发展、大数据的涌现和计算能力的显著提升,深度神经网络被越来越多地应用到各个安全攸关领域,例如自动驾驶、人脸识别、飞机碰撞检测等.传统的软件系统通常由开发人员手工编写代码实现其内部的决策逻辑,并依据相应的测试覆盖准则设计测试用例来测试系统代码.与传统的软件系统不同,深度学习定义了一种新的数据驱动的编程范式,开发人员仅编写代码来规定深度学习系统的网络结构,其内部逻辑则由训练过程获得的神经元连接权值所决定.因此,针对传统软件的测试方法及度量指标无法直接被移植到深度神经网络系统上.近年来,越来越多的研究致力于解决深度神经网络的测试问题,例如提出新的测试评估标准、测试用例生成方法等.调研了92篇相关领域的学术论文,从深度神经网络测试度量指标、测试输入生成、测试预言这3个角度对目前已有的研究成果进行了系统梳理.同时,分析了深度神经网络测试在图像处理、语音处理以及自然语言处理上的已有成果,并介绍了深度神经网络测试中应用到的数据集及工具.最后,对深度神经网络测试的未来工作进行了展望,以期为该领域的研究人员提供参考.
    2020,31(5):1243-1254, DOI: 10.13328/j.cnki.jos.005950
    [摘要] (2121) [HTML] (129) [PDF 1298140] (1942)
    摘要:
    静态程序分析发展至今,已在多个方面取得了长足的进步,应用于软件开发的众多方面.但对现代大规模复杂软件系统(如千万行代码规模的Linux操作系统、分布式大数据处理系统Hadoop等)进行高精度的静态分析,因其极大规模数据量的计算,仍有一定难度.精度、效率和可扩展性相互制约,是静态分析技术在工业界应用的主要障碍.对此,近年来,随着多核、众核架构的兴起,研究人员提出了静态分析的各种并行化解决方案.首先梳理了静态分析的发展历程,然后针对当前静态分析面临的挑战,在分析了传统算法优化研究的不足后,对利用硬件资源进行并行优化的方法进行了充分讨论,包括单机的CPU并行、分布式和GPU实现这3个方面;在此基础上,对一些使用较为广泛的支持并行的静态分析工具进行了评估;最后,对未来如何从算法和算力角度对静态分析进行并行优化作了讨论和展望.
    2020,31(4):1143-1161, DOI: 10.13328/j.cnki.jos.005987
    [摘要] (1533) [HTML] (86) [PDF 2020144] (1399)
    摘要:
    软件问答社区是软件开发者通过问答方式进行技术交流的网络平台.近年来,软件问答社区积累了大量用户讨论的技术问答内容.一些研究者对Stack Overflow等英文问答社区进行主题分析研究,但是缺少对于中文软件问答社区的分析.通过对中文软件回答社区开展主题分析研究,不仅可以指导开发者更好地了解技术动向,而且可以帮助管理者改进社区、吸引更多用户参与."开源中国"是中国最大的技术社区之一.对"开源中国"开展了开发者问题主题分析研究.收集"开源中国"的92 383个开发者问题,采用隐狄利克雷分配模型的主题分析方法,分析开发者问题的主题分布、热度趋势、回答情况和关键技术热度等.发现:(1)开发者讨论的技术主题分为前端开发、后端开发、数据库、操作系统、通用技术和其他6个类别.其中,前端开发讨论占比最大.(2)后端开发下的主题中用户的关注重点从传统的项目部署、服务器配置转移到较新的分布式系统等主题.(3)数据展示主题的零回答问题比例最高,数据类型主题下的零回答问题比例最低.(4)在技术学习主题下,用户对于Java的讨论明显多于对Python的讨论.
    2020,31(4):1124-1142, DOI: 10.13328/j.cnki.jos.005982
    [摘要] (3974) [HTML] (117) [PDF 1918049] (3010)
    摘要:
    自2008年比特币出现以来,研究学者相继提出了多种分布式账本技术,其中,区块链是当前分布式账本最主要的实现形式之一.但当前区块链中存在一个核心问题:可扩展性瓶颈.具体而言,区块链的吞吐量严重不足,且其交易确认也较为缓慢,这些因素极大地限制了它的实际应用.在此背景下,基于DAG(有向无环图)的分布式账本因其具有高并发特性,有望突破传统区块链中的性能瓶颈,从而受到了学术界和产业界越来越多的关注和研究.在基于DAG的分布式账本中,最为核心和关键的技术是其共识机制,为此,对该关键技术进行了系统深入的研究.首次从共识形态出发将现有基于DAG的分布式账本分为以下3类:基于主干链的DAG账本;基于平行链的DAG账本;基于朴素DAG的账本.在此基础上,对不同类型的共识机制本质原理及特性进行了深入阐述,并从不同层面对它们进行了详细的对比分析.最后,指出基于DAG的共识机制研究中存在的问题与挑战,并给出进一步的研究方向.
    2020,31(4):912-931, DOI: 10.13328/j.cnki.jos.005916
    [摘要] (2160) [HTML] (139) [PDF 709088] (2247)
    摘要:
    流数据分类旨在从连续不断到达的流式数据中增量学习一个从输入变量到类标变量的映射函数,以便对随时到达的测试数据进行准确分类.在线学习范式作为一种增量式的机器学习技术,是流数据分类的有效工具.主要从在线学习的角度对流数据分类算法的研究现状进行综述.具体地,首先介绍在线学习的基本框架和性能评估方法,然后着重介绍在线学习算法在一般流数据上的工作现状,在高维流数据上解决"维度诅咒"问题的工作现状,以及在演化流数据上处理"概念漂移"问题的工作现状,最后讨论高维和演化流数据分类未来仍然存在的挑战和亟待研究的方向.
    2020,31(3):893-908, DOI: 10.13328/j.cnki.jos.005911
    [摘要] (2640) [HTML] (130) [PDF 1792047] (3099)
    摘要:
    数据集成在数据管理与分析领域起着重要的作用.尽管从学术界首次提出并开始研究数据集成问题已经过去30多年,但在各个领域仍然存在着大量与数据集成问题密切相关的问题亟待解决.对数据集成领域从2001年开始到现在相关工作的发展脉络进行了梳理与总结.通过追踪数据集成方法的发展轨迹,不仅可以了解前人在解决该问题时所作出的努力以及发掘出的研究方向,还可以进一步了解各个数据发展领域所研究问题的成因以及发展脉络.最终,通过分析近几年数据集成方面的工作,可以进一步展望未来在数据集成领域的潜在研究方向,为从事相关领域研究的学者提供参考.
    2020,31(3):600-619, DOI: 10.13328/j.cnki.jos.005909
    [摘要] (4725) [HTML] (102) [PDF 2055659] (5418)
    摘要:
    大数据时代,数据规模庞大、数据管理应用场景复杂,传统数据库和数据管理技术面临很大的挑战.人工智能技术因其强大的学习、推理、规划能力,为数据库系统提供了新的发展机遇.人工智能赋能的数据库系统通过对数据分布、查询负载、性能表现等特征进行建模和学习,自动地进行查询负载预测、数据库配置参数调优、数据分区、索引维护、查询优化、查询调度等,以不断提高数据库针对特定硬件、数据和负载的性能.同时,一些机器学习模型可以替代数据库系统中的部分组件,有效减少开销,如学习型索引结构等.分析了人工智能赋能的数据管理新技术的研究进展,总结了现有方法的问题和解决思路,并对未来研究方向进行了展望.
    2020,31(3):806-830, DOI: 10.13328/j.cnki.jos.005908
    [摘要] (2439) [HTML] (141) [PDF 3134456] (3624)
    摘要:
    通用的数据库系统为不同的应用需求与数据类型提供统一的处理方式,在取得了巨大成功的同时,也暴露了一定的局限性:由于没有结合具体应用的数据分布与工作负载,系统往往难以保证性能的最优.为了解决这一问题,"学习式数据库系统"成为了目前数据库领域的研究热点,它利用机器学习技术有效捕获负载与数据的特性,从而对数据库系统进行优化.围绕这一方向,近些年工业界与学术界涌现出了大量的研究工作.首先提出了细粒度的分类体系,从数据库架构出发,将现有工作进行了梳理;其次,系统地介绍了学习式数据库各组件的研究动机、基本思路与关键技术;最后,对学习式数据库系统未来的研究方向进行了展望.
    2020,31(3):866-892, DOI: 10.13328/j.cnki.jos.005904
    [摘要] (4302) [HTML] (183) [PDF 2866122] (8540)
    摘要:
    大数据时代丰富的信息来源促进了机器学习技术的蓬勃发展,然而机器学习模型的训练集在数据采集、模型训练等各个环节中存在的隐私泄露风险,为人工智能环境下的数据管理提出了重大挑战.传统数据管理中的隐私保护方法无法满足机器学习中多个环节、多种场景下的隐私保护要求.分析并展望了机器学习技术中隐私攻击与防御的研究进展和趋势.首先介绍了机器学习中隐私泄露的场景和隐私攻击的敌手模型,并根据攻击者策略分类梳理了机器学习中隐私攻击的最新研究;介绍了当前机器学习隐私保护的主流基础技术,进一步分析了各技术在保护机器学习训练集隐私时面临的关键问题,重点分类总结了5种防御策略以及具体防御机制;最后展望了机器学习技术中隐私防御机制的未来方向和挑战.
    2020,31(2):544-563, DOI: 10.13328/j.cnki.jos.005979
    [摘要] (2050) [HTML] (96) [PDF 1955219] (2191)
    摘要:
    现代处理器的优化技术,包括乱序执行和推测机制等,对性能至关重要.以Meltdown和Spectre为代表的侧信道攻击表明:由于异常延迟处理和推测错误而执行的指令结果虽然在架构级别上未显示,但仍可能在处理器微架构状态中留下痕迹.通过隐蔽信道可将微架构状态的变化传输到架构层,进而恢复出秘密数据,这种攻击方式称为瞬态执行攻击.该攻击有别于传统的缓存侧信道攻击,影响面更广,缓解难度更大.深入分析了瞬态执行攻击的机理和实现方式,对目前的研究现状与防御方法进行了总结.首先,介绍了处理器微架构采用的优化技术,并分析了其导致瞬态执行攻击的功能特征;然后,基于触发瞬态执行的原语对瞬态执行攻击进行系统化分析,揭示攻击面上的明显差异;最后,有侧重点地针对攻击模型中的关键步骤和关键组件总结了已有的防御方法,并展望了未来的研究方向.
    2020,31(2):302-320, DOI: 10.13328/j.cnki.jos.005977
    [摘要] (3713) [HTML] (158) [PDF 1968081] (7174)
    摘要:
    数据标注是大部分人工智能算法得以有效运行的关键环节.数据标注越准确、标注的数据量越大,算法的性能就越好.数据标注行业的发展带动了中国许多城市和城镇的就业,促使中国逐渐成为世界数据标注的中心.阐述了数据标注的发展概况,包括起源、应用场景、分类和任务;列举了目前常用的标注数据集、开源的数据标注工具和商业数据标注平台;提出了标注中的角色、标准和流程等数据标注规范;给出了一个情感分析场景中的数据标注实例;描述各类主流的标注质量评估算法及其特点,并对比它们优缺点;最后,从任务、工具、数据标注质量和安全性这4个方面对数据标注的研究方向和发展趋势进行了展望.
    2020,31(1):47-66, DOI: 10.13328/j.cnki.jos.005893
    [摘要] (4570) [HTML] (235) [PDF 1972451] (5344)
    摘要:
    智能化软件开发正在经历从简单的代码检索到语义赋能的代码自动生成的转变,传统的语义表达方式无法有效地支撑人、机器和代码之间的语义交互,探索机器可理解的语义表达机制迫在眉睫.首先指出了代码知识图谱是实现智能化软件开发的基础,进而分析了大数据时代智能化软件开发的新特点以及基于代码知识图谱进行智能化软件开发的新挑战;随后回顾了智能化软件开发和代码知识图谱的研究现状,指出了现有智能化软件开发的研究仍然处于较低水平,而现有知识图谱的研究主要面向开放领域知识图谱,无法直接应用于代码领域知识图谱.因此,从代码知识图谱的建模与表示、构建与精化、存储与演化管理、查询语义理解以及智能化应用这5个方面详细探讨了研究新趋势,以更好地满足基于代码知识图谱进行智能化软件开发的需要.
    2020,31(1):1-19, DOI: 10.13328/j.cnki.jos.005891
    [摘要] (5976) [HTML] (243) [PDF 1943146] (5385)
    摘要:
    区块链的本质是分布式账本.它作为比特币的底层技术日益被熟知,具有去中心化、开放性、自治性、信息不可篡改、匿名性的特点.区块链即服务(blockchain as a service)则是把区块链当作基础设施,并在其上搭建各种满足普通用户需求的应用,向用户提供服务.区块链即服务已成为云计算领域的研究重点.研究了区块链即服务最新的技术发展状况,结合行业研究和企业实践探索,对区块链即服务的架构以及各模块功能进行了概要设计说明,为区块链即服务的发展提供了通用架构模型.另外,分析了结合区块链即服务的云计算相关技术特点,并给出了可能的攻击模型.最后,结合行业区块链即服务的应用,对区块链即服务的技术前景进行了展望.
    2020,31(1):20-46, DOI: 10.13328/j.cnki.jos.005887
    [摘要] (3230) [HTML] (147) [PDF 2475903] (2248)
    摘要:
    缺陷理解是针对缺陷本身及衍生产物建立完整认知过程的研究.由于调试的连贯性及完美缺陷理解假设不合理性,深入分析缺陷传播过程及缺陷间关系、研究关键信息检测及理解信息表达方式,提取及表达面向缺陷研究不同场景不同需求下的可理解性信息,最终达到优化缺陷分析结果及辅助调试各过程缺陷知识复用及积累的目的成为必然.由定位与修复之间存在的知识割裂问题出发,思考缺陷理解研究的本质,明确缺陷处理过程中缺乏知识挖掘及互用问题.通过工程实例分析及文献成果梳理,提炼总结缺陷理解领域的研究方向及技术方法,探讨缺陷理解研究中的特点及难点,思考缺陷理解研究中存在的问题及未来的研究方向,对缺陷理解的研究趋势进行了展望.
    2020,31(1):162-182, DOI: 10.13328/j.cnki.jos.005886
    [摘要] (3767) [HTML] (105) [PDF 1975567] (3233)
    摘要:
    实时交互式分析针对多目标和多角度的分析任务,通过多轮次的用户-数据库交互过程,逐步明确分析任务与分析目标,全方位地了解相关领域信息,最终得到科学的、全面的分析结果.相比传统数据库“提交查询-返回结果”的单轮次交互查询方式,实时交互式分析更强调交互的实时性与查询结果的时效性.对实时交互式分析的研究已成为近几年研究的热点.针对当前实时交互式分析面临的若干关键问题,对现有的实时交互式分析研究的理论基础、数据模型与系统构架进行了综述.
    2020,31(1):67-81, DOI: 10.13328/j.cnki.jos.005884
    [摘要] (3995) [HTML] (252) [PDF 1605330] (4002)
    摘要:
    如今,深度学习已被广泛应用于图像分类和图像识别的问题中,取得了令人满意的实际效果,成为许多人工智能应用的关键所在.在对于模型准确率的不断探究中,研究人员在近期提出了“对抗样本”这一概念.通过在原有样本中添加微小扰动的方法,成功地大幅度降低原有分类深度模型的准确率,实现了对于深度学习的对抗目的,同时也给深度学习的攻方提供了新的思路,对如何开展防御提出了新的要求.在介绍对抗样本生成技术的起源和原理的基础上,对近年来有关对抗样本的研究和文献进行了总结,按照各自的算法原理将经典的生成算法分成两大类——全像素添加扰动和部分像素添加扰动.之后,以目标定向和目标非定向、黑盒测试和白盒测试、肉眼可见和肉眼不可见的二级分类标准进行二次分类.同时,使用MNIST数据集对各类代表性的方法进行了实验验证,以探究各种方法的优缺点.最后总结了生成对抗样本所面临的挑战及其可以发展的方向,并就该技术的发展前景进行了探讨.
    2020,31(1):183-207, DOI: 10.13328/j.cnki.jos.005879
    [摘要] (3444) [HTML] (164) [PDF 2386986] (2993)
    摘要:
    软件定义网络(software defined networking,简称SDN)是一种新型的网络架构.SDN将控制层从数据层分离并开放网络接口,以实现网络集中控制并提高网络的可扩展性和编程性.但是SDN也面临诸多的网络安全威胁.异常流量检测技术可以保护网络安全,防御恶意流量攻击.对SDN异常流量检测进行了全面的研究,归纳了数据平面和控制平面可能遭受到的网络攻击;介绍并分析了位于应用平面、控制平面和中间平台的异常流量检测框架;探讨了异常流量识别机制、负载均衡机制、异常流量追溯机制和异常缓解机制;最后指明SDN异常流量检测在未来工作中的研究方向.
    2020,31(1):228-245, DOI: 10.13328/j.cnki.jos.005878
    [摘要] (2810) [HTML] (206) [PDF 1738738] (2704)
    摘要:
    隐蔽信道是指恶意通信双方通过修改共享资源的数值、特性或状态等属性,来编码和传递信息的信道.共享资源的选取,由隐蔽信道的类型与具体通信场景所决定.早期,存储隐蔽信道和时间隐蔽信道主要存在于传统操作系统、网络和数据库等信息系统中.近年来,研究重点逐渐拓展到了3类新型隐蔽信道,分别为混合隐蔽信道、行为隐蔽信道和气隙隐蔽信道.对近年来国内外隐蔽信道研究工作进行了系统的梳理、分析和总结.首先,阐述隐蔽信道的相关定义、发展历史、关键要素和分析工作.然后,根据隐蔽信道共享资源的类型以及信道特征,提出新的隐蔽信道分类体系.首次从发送方、接收方、共享资源、编码机制、同步机制、评价指标和限制方法这7个方面,对近年来新型隐蔽信道攻击技术进行系统的分析和归纳,旨在为后续隐蔽信道分析和限制等研究工作提供有益的参考.进而,讨论了面向隐蔽信道类型的威胁限制技术,为设计面向一类隐蔽信道的限制策略提供研究思路.最后,总结了隐蔽信道中存在的问题和挑战.
    2020,31(1):137-161, DOI: 10.13328/j.cnki.jos.005872
    [摘要] (4078) [HTML] (120) [PDF 2384535] (3346)
    摘要:
    HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂查询分析、交互式分析、详单查询、Key-Value读写和迭代计算等丰富的应用场景.HDFS的性能问题将影响其上所有大数据系统和应用,因此,对HDFS存储性能的优化至关重要.介绍了HDFS的原理和特性,对已有HDFS的存储及优化技术,从文件逻辑结构、硬件设备和应用负载这3个维度进行了归纳和总结.综述了近年来HDFS存储和优化相关研究.未来,随着HDFS上层应用的日益丰富和底层硬件平台的发展,基于异构平台的数据存储、面向应用负载的自适应存储优化以及结合机器学习的存储优化技术将成为未来研究的主要方向.
    2020,31(1):113-136, DOI: 10.13328/j.cnki.jos.005871
    [摘要] (3242) [HTML] (183) [PDF 2322143] (3682)
    摘要:
    分类是机器学习的重要任务之一.传统的分类学习算法追求最低的分类错误率,假设不同类型的错误分类具有相等的损失.然而,在诸如人脸识别门禁系统、软件缺陷预测、多标记学习等应用领域中,不同类型的错误分类所导致的损失差异较大.这要求学习算法对可能导致高错分损失的样本加以重点关注,使得学习模型的整体错分损失最小.为解决该问题,代价敏感学习方法引起了研究者的极大关注.以代价敏感学习方法的理论基础作为切入点,系统阐述了代价敏感学习的主要模型方法以及代表性的应用领域.最后,讨论并展望了未来可能的研究趋势.
    2020,31(1):82-112, DOI: 10.13328/j.cnki.jos.005870
    [摘要] (4239) [HTML] (122) [PDF 2896772] (4418)
    摘要:
    随着现代社会计算机化程度的提高,与计算机相关的各种系统故障足以造成巨大的经济损失.机械化定理证明能够建立更为严格的正确性,从而奠定系统的高可信性.针对机械化定理证明的逻辑基础和关键技术,详细剖析了一阶逻辑和基于消解的证明技术、自然演绎和类型化的λ演算、3种编程逻辑、基于高阶逻辑的硬件验证技术、程序构造和求精技术之间的联系和发展变迁,其中,3种编程逻辑包括一阶编程逻辑及变体、Floyd-Hoare逻辑和可计算函数逻辑.然后分析、比较了各类主流证明助手的设计特点,阐述了几个具有代表性的证明助手的开发和实现.接下来对它们在数学、编译器验证、操作系统微内核验证、电路设计验证等领域的应用成果进行了细致的分析.最后,对机械化定理证明进行了总结,并提出面临的挑战和未来研究方向.
    2020,31(1):208-227, DOI: 10.13328/j.cnki.jos.005867
    [摘要] (5257) [HTML] (154) [PDF 1998144] (4949)
    摘要:
    互联网域间路由系统的安全问题一直备受关注.实现全网范围的互联网资源管理认证和可信跨域协作至关重要.区块链技术以其去中心化、防篡改、可追溯等天然属性,可作为域间网络资源认证与信任建立的基础.首先分析域间路由系统安全脆弱性及其影响,以及传统域间路由安全机制面临的部署困难、管理复杂、信任中心化等困境;然后,在简要介绍区块链技术基本理论的基础上指出区块链技术运用于域间路由系统安全的技术思路,并详述区块链技术应用于域间路由认证、域间智能管理和域间DDoS防御等方面的最新进展;最后,分析区块链应用于域间路由安全领域的优势,从性能与规模、兼容性与增量部署以及区块链自身安全问题这3个方面分析其问题与挑战,并对下一步研究进行展望.
    2019,30(10):3206-3226, DOI: 10.13328/j.cnki.jos.005796
    [摘要] (2994) [HTML] (97) [PDF 2348570] (2508)
    摘要:
    DevOps已提出近十年,其作为敏捷方法在完整的软件生命周期上的延伸,旨在从文化、自动化、标准化、架构以及工具支持等方面,打破开发与运维之间的壁垒,重塑软件过程,以实现在保证高质量的前提下,缩短从代码提交到产品上线之间的周期.在竞争日益激烈的市场环境下,用户对于产品服务的稳定性以及更新频率和效率的要求不断提高,DevOps在学术界和工业界的关注程度因此也不断提高.Puppet Labs在2013年开始了全球DevOps现状的问卷调查,迄今已发布了5份报告.国内DevOps的发展相对滞后,对于国内DevOps现状的研究在工业界和学术界均处于空白.2016年和2018年分别进行了两次关于DevOps国内现状的问卷调查以填补这一空白,两次调查的受访人数分别为74和66人.基于两次调查结果,从DevOps涵盖的IT性能表现、组织文化及相关实践、开发与运维实践、工具支持、领导力、工作比例、员工敬业度及满意度这8个方面,综合分析了DevOps在国内的发展现状与趋势,并与Puppet Labs报告的全球现状进行了对比.总体而言,国内DevOps虽呈现了稳步发展的态势,但与国际水平相比尚存在明显差距,目前能达到国际高水平IT性能的受访团队仅6%.通过对比,总结了17条发现,经过综合分析,获得了3个主要结论:(1)员工素质和人才紧缺是国内DevOps滞后、过程成熟度不高的症结;(2)DevOps化越成熟,员工敬业度和满意度越高;(3)Scrum敏捷开发和基于主干开发是最普遍采纳的实践.基于分析结果,在未来实践与研究上给出了多项建议.
    2019,30(10):3090-3114, DOI: 10.13328/j.cnki.jos.005790
    [摘要] (3090) [HTML] (170) [PDF 2466641] (3046)
    摘要:
    随着软件规模的扩大和复杂度的不断提高,软件的质量问题成为关注的焦点,软件缺陷是软件质量的对立面,威胁着软件质量,如何在软件开发的早期挖掘出缺陷模块成为一个亟需解决的问题.软件缺陷预测通过挖掘软件历史仓库,设计出与缺陷相关的内在度量元,然后借助机器学习等方法来提前发现与锁定缺陷模块,从而合理地分配有限的资源.因此,软件缺陷预测是软件质量保证的重要途径之一,近年来已成为软件工程中一个非常重要的研究课题.汇总近8年(2010年~2017年)国内外的缺陷预测技术的研究成果,并以缺陷预测的形式为主线进行分析,首先介绍了软件缺陷预测模型的框架;然后从软件缺陷数据集、构建模型的方法及评价指标这3个方面对已有的研究工作进行分类归纳和比较;最后探讨了软件缺陷预测的未来可能的研究方向、机遇和挑战.
    2019,30(9):2830-2856, DOI: 10.13328/j.cnki.jos.005854
    [摘要] (4883) [HTML] (148) [PDF 2552826] (3834)
    摘要:
    随着信息技术的普及,人类产生的数据量正在以指数级的速度增长,如此海量的数据就要求利用新的方法来管理.数据治理是将一个机构(企业或政府部门)的数据作为战略资产来管理,需要从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化.目前,各行各业对大数据的研究比较火热,但对于大数据治理的研究还处于起步阶段,一个组织的正确决策离不开良好的数据治理.首先介绍数据治理和大数据治理的概念、发展以及应用的必要性;其次,对已有的数据治理技术——数据规范、数据清洗、数据交换和数据集成进行具体的分析,并介绍了数据治理成熟度和数据治理框架设计;在此基础上,提出了大数据HAO治理模型.该模型以支持人类智能(HI)、人工智能(AI)和组织智能(OI)的三者协同为目标,再以公安的数据治理为例介绍HAO治理的应用;最后是对数据治理的总结和展望.
    2019,30(9):2918-2924, DOI: 10.13328/j.cnki.jos.005849
    [摘要] (2312) [HTML] (106) [PDF 726998] (1478)
    摘要:
    关键词能够反映出一份项目申请书的主要研究内容.统计了国家自然科学基金计算机图像与视频处理领域2014年~2018年申请与资助项目关键词,并分别从关键词标引量、关键词词频等方面进行分析,探讨其与资助率的关系.最后,运用定量的方法,透过热频关键词的内容变化,分析近5年来的计算机图像与视频处理领域的研究热点变化.
    2019,30(9):2571-2592, DOI: 10.13328/j.cnki.jos.005775
    [摘要] (5164) [HTML] (99) [PDF 2137706] (7398)
    摘要:
    在传统跨机构交易的企业应用中,各个机构都是独立记录己方的交易数据,机构间数据的差异会引起争议,通常需要人工对账或中介机构来解决,因而增加了结算时间和交易费用.区块链技术实现了交易数据在写入前共识验证、写入后不可篡改的分布式记账,可信地保证了多机构间的数据一致性,避免了人工对账和中介机构.区块链是一种去中心化、不可篡改、可追溯、可信的、多方共享的分布式数据库,企业级区块链是节点加入需经许可的适用于企业级应用的区块链技术.结合Hyperledger Fabric,Corda和Quorum等企业级区块链平台,提出了企业级区块链的系统架构;从交易流程、区块链网络、共识机制、区块链数据、智能合约、隐私保护几方面阐述了企业级区块链的原理与技术;针对企业级区块链的现状,总结了当前的研究挑战与未来的发展趋势.
    2019,30(8):2491-2516, DOI: 10.13328/j.cnki.jos.005861
    [摘要] (3166) [HTML] (136) [PDF 2830063] (7942)
    摘要:
    随着移动设备数量的爆炸性增长以及许多新兴应用的出现,移动网络的流量呈指数级增长.传统的集中式网络架构由于回程链路负载过重、时延较长,无法满足移动用户的需求.因此,提出了将网络能力从核心网开放至边缘网的新体系结构,即移动边缘计算(MEC).移动边缘计算能够在移动蜂窝网络的边缘提供轻量级的云计算和存储能力.对移动边缘计算相关的最新研究成果进行了详尽的回顾:首先,概述了移动边缘计算的发展历程、关键问题和支撑技术;然后,针对MEC架构、计算迁移、边缘缓存和服务编排这4个关键研究问题进行了全面的综述,并讨论了增强现实、虚拟现实、动态内容交付、车联网和物联网等移动边缘计算中的典型应用案例;最后,从移动边缘计算功能增强、服务质量保障和安全可用性这3个方面展望了移动边缘计算的开放式研究挑战和未来的发展趋势.
    2019,30(8):2470-2490, DOI: 10.13328/j.cnki.jos.005859
    [摘要] (2517) [HTML] (180) [PDF 2130328] (2803)
    摘要:
    网络隐蔽信道是在网络环境下违反通信限制规则进行隐蔽信息传输的信息通道,为网络信息安全带来了新的挑战,也为数据传输的安全性和隐私性带来了新的研究方向.首先介绍了网络隐蔽信道的定义、分类、能力维度等基本概念;进而从码元设计、信息编码和信道优化这3个方面归纳分析了存储型和时间型两类网络隐蔽信道的构建技术,从隐蔽性、鲁棒性和传输效率这3个方面总结了网络隐蔽信道评估方法,从消除、限制、检测这3个方面梳理了网络隐蔽信道的对抗技术;最后,对未来的研究方向进行了展望.
    2019,30(8):2545-2568, DOI: 10.13328/j.cnki.jos.005845
    [摘要] (2497) [HTML] (151) [PDF 2953225] (2384)
    摘要:
    基于谱分析的形状描述符在非刚性三维形状匹配中取得了较好的匹配效果,引起了研究者的广泛关注.谱分析是基于流形上拉普拉斯贝尔特拉米算子谱分解的一种内蕴形状分析方法.谱形状描述符和谱距离分布函数是最主要的两类谱分析形状描述符,它们具有不同的数学性质和物理意义.基于两类不同的形状描述符,给出了详细的方法分析及其在形状匹配中的应用.首先,给出了应用基于谱分析的形状描述符的非刚性三维形状匹配框架,介绍了几种常用的谱形状描述符及谱距离分布函数的基本思想和计算方法;然后,分析比较了这些形状描述符的优缺点及应用场景,为研究者选择基于谱分析的形状描述符提供参考;最后,通过实验对比了不同基于谱分析的形状描述符的算法鲁棒性、时间耗费及非刚性匹配性能,以此推动谱分析形状描述符的应用进程.
    2019,30(8):2229-2267, DOI: 10.13328/j.cnki.jos.005767
    [摘要] (4122) [HTML] (176) [PDF 3952220] (8245)
    摘要:
    恶意代码溯源是指通过分析恶意代码生成、传播的规律以及恶意代码之间衍生的关联性,基于目标恶意代码的特性实现对恶意代码源头的追踪.通过溯源可快速定位攻击来源或者攻击者,对攻击者产生一定的震慑打击作用,具有遏制黑客攻击、完善网络安全保障体系的重要作用和价值.近年来,网络安全形势愈加严峻,归类总结了学术界和产业界在恶意代码溯源领域的研究工作,首先揭示了恶意代码的编码特性以及演化特性,并分析这些特性与溯源的关系;然后,分别从学术界和产业界对恶意代码的溯源技术和研究进行梳理,同时对每个溯源阶段的作用以及影响程度进行了讨论,并对目前恶意代码的溯源对抗手段进行分析;最后讨论了恶意代码溯源技术面对的挑战和未来的发展趋势.
    2019,30(7):2139-2174, DOI: 10.13328/j.cnki.jos.005841
    [摘要] (5225) [HTML] (128) [PDF 3603719] (6850)
    摘要:
    知识图谱是人工智能的重要基石.各领域大规模知识图谱的构建和发布对知识图谱数据管理提出了新的挑战.以数据模型的结构和操作要素为主线,对目前的知识图谱数据管理理论、方法、技术与系统进行研究综述.首先,介绍知识图谱数据模型,包括RDF图模型和属性图模型,介绍5种知识图谱查询语言,包括SPARQL、Cypher、Gremlin、PGQL和G-CORE;然后,介绍知识图谱存储管理方案,包括基于关系的知识图谱存储管理和原生知识图谱存储管理;其次,探讨知识图谱上的图模式匹配、导航式和分析型3种查询操作.同时,介绍主流的知识图谱数据库管理系统,包括RDF三元组库和原生图数据库,描述目前面向知识图谱的分布式系统与框架,给出知识图谱评测基准.最后,展望知识图谱数据管理的未来研究方向.
    2019,30(7):2073-2090, DOI: 10.13328/j.cnki.jos.005840
    [摘要] (2715) [HTML] (104) [PDF 2001443] (1924)
    摘要:
    概率图模型是目前机器学习研究的热点,基于概率图模型构造的生成模型已广泛应用于图像和语音处理等领域.受限玻尔兹曼机(restricted Boltzmann machines,简称RBMs)是一种概率无向图,在建模数据分布方面有重要的研究价值,RBMs既可以结合卷积算子构造深度判别模型,为深度网络提供统计力学的理论支持,也可以结合有向图构建生成模型,提供具有多峰分布的先验信息.主要综述了以RBMs为基础的概率图模型的相关研究.首先介绍了基于RBMs的机器学习模型的基本概念和训练算法,并讨论了基于极大似然估计的各训练算法的联系,比较了各算法的log似然损失;其次,综述了RBMs模型最新的研究进展,包括在目标函数中引入对抗损失和W距离,并构造基于RBMs先验的变分自编码模型(variational autoencoders,简称VAEs)、基于对抗损失的RBMs模型,并讨论了各实值RBMs模型之间的联系和区别;最后,综述了以RBMs为基础的模型在深度学习中的应用,并讨论了神经网络和RBMs模型在研究中存在的问题及未来的研究方向.
    2019,30(7):2188-2207, DOI: 10.13328/j.cnki.jos.005837
    [摘要] (2567) [HTML] (94) [PDF 2476785] (2427)
    摘要:
    近年来,人脸属性估计因其广泛的应用而得到了大量的关注和研究,并且很多估计方法被提了出来.主要对现有相关工作进行归纳总结,为研究者提供相关参考.首先,根据是否考虑人脸性别、年龄、人种等不同属性间的内在关联,将现有的人脸面部属性研究方法划分成朴素的研究方法和自然的研究方法这两大类进行总结介绍.然后,从单一人脸数据库标记不完备、现有方法未能完备利用多属性联合估计、现有方法未能很好地利用各面部属性间关系这3个方面阐述当前方法的不足.最后,给出关于人脸面部属性估计进一步的研究方向.
    2019,30(7):2052-2072, DOI: 10.13328/j.cnki.jos.005834
    [摘要] (3073) [HTML] (181) [PDF 2100979] (2970)
    摘要:
    人们理解自然语言通常是在篇章级进行的,随着词汇级及句子级研究的日益成熟,自然语言处理研究的焦点已转向篇章级.篇章分析的主要任务就是从整体上分析出篇章结构及其构成单元之间的语义关系,并利用上下文理解篇章.根据不同的篇章分析目的,篇章单元及其关系可以表示为不同的篇章基本结构,不同篇章基本结构及其关系的研究可提供不同层面的篇章理解.目前对汉语篇章内在规律的研究较少,缺乏对篇章进行有效分析和深入理解的理论方法体系,这严重制约了篇章级的相关研究及应用.重点关注篇章的两个最基本特征,即衔接性和连贯性,从篇章结构分析的理论研究、资源建设和计算模型这3个方面,分别探讨篇章修辞结构(体现篇章连贯性)和话题结构(体现篇章衔接性),对篇章理解的国内外研究现状进行了归纳和整理,并给出了目前存在的主要问题和研究趋势.
    2019,30(6):1853-1874, DOI: 10.13328/j.cnki.jos.005832
    [摘要] (2535) [HTML] (137) [PDF 2047243] (3716)
    摘要:
    测量技术是状态监测、性能管理、安全防御等网络研究的基础,在网络研究领域具有重要地位.相较于传统网络,软件定义网络在标准性、开放性、透明性等方面的优势给网络测量研究带来了新的机遇.测量数据平面和测量控制平面的分离,启发了通用和灵活的测量架构的设计与实现;标准化的编程接口,使得测量任务可以快速地开发和部署,中心化的网络控制可以基于反馈的测量结果实时地优化数据平面的硬件配置和转发策略,数据平面基于流表规则的处理机制支持对流量更加精细化地测量.但是,软件定义网络测量中额外部署的测量机制造成的资源开销与网络中有限的计算资源、存储资源、带宽资源产生了矛盾,中心化的控制平面也存在一定的性能瓶颈,这是软件定义网络测量研究中的主要问题和挑战.分别从测量架构、测量对象两方面对当前软件定义网络测量研究成果进行了归纳和分析,总结了软件定义网络测量的主要研究问题.最后,基于现有研究成果讨论了未来的研究趋势.
    2019,30(6):1793-1818, DOI: 10.13328/j.cnki.jos.005817
    [摘要] (4417) [HTML] (231) [PDF 2882657] (7420)
    摘要:
    实体关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节,能够从文本中抽取实体对间的语义关系.近年来,深度学习在联合学习、远程监督等方面上的应用,使关系抽取任务取得了较为丰富的研究成果.目前,基于深度学习的实体关系抽取技术,在特征提取的深度和模型的精确度上已经逐渐超过了传统基于特征和核函数的方法.围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系抽取研究进展,并对未来可能的研究方向进行了探讨和展望.
    2019,30(6):1649-1660, DOI: 10.13328/j.cnki.jos.005741
    [摘要] (4818) [HTML] (142) [PDF 1207893] (5759)
    摘要:
    随着区块链技术的发展,各种具有不同特点、适用于不同应用场景的区块链如比特币、以太坊等公有链以及私有链、联盟链大量共存.由于区块链的相互独立性,现存各区块链之间的数据通信、价值转移仍面临挑战,价值孤岛现象逐渐显现.区块链的跨链技术是区块链实现互联互通、提升可扩展性的重要技术手段.对跨链技术领域的成果进行了系统总结:首先,分析了跨链技术的需求及面临的技术难点;其次,总结了正在发展的跨链技术,并介绍了24种主流跨链技术的原理与实现思路;然后,综合分析了跨链技术存在的安全性风险,并列举了12项主要问题;最后,总结探讨了跨链技术的未来发展趋势.
    2019,30(6):1632-1648, DOI: 10.13328/j.cnki.jos.005740
    [摘要] (4802) [HTML] (160) [PDF 1725463] (5533)
    摘要:
    随着物联网的不断发展,物联网的隐私保护问题引起了人们的重视,而访问控制技术是保护隐私的重要方法之一.物联网访问控制模型多基于中央可信实体的概念构建.去中心化的区块链技术解决了中心化模型带来的安全隐患.从物联网自身环境特点出发,提出物联网终端节点设备轻量级、物联网海量终端节点和物联网动态性这3个物联网下访问控制必须要解决的问题.然后,以这3个问题为核心,分析、总结了现有物联网中主流访问控制模型以及使用区块链后的访问控制模型分别是怎么解决这些问题的.最后总结出两类区块链访问控制模型以及将区块链用于物联网访问控制中的优势,并对基于区块链的物联网访问控制在未来需要解决的问题进行了展望.
    2019,30(6):1721-1741, DOI: 10.13328/j.cnki.jos.005491
    [摘要] (3112) [HTML] (99) [PDF 2416206] (2624)
    摘要:
    缓冲区溢出漏洞是危害最为广泛和严重的安全漏洞之一,彻底消除缓冲区溢出漏洞相当困难.学术界、工业界提出了众多缓冲区溢出漏洞检测技术与工具.面对众多的工具,使用者如何结合自身需求有效地选择工具,进而应用到漏洞的检测与修复、预防与保护、度量与评估等方面,是具体而实际的问题.解决这一问题,需要在各异的用户需求与多样的缓冲区溢出检测技术与工具之间建立一张条理清晰、便于用户理解和使用的映射图谱.站在使用者的立场,在概述缓冲区溢出漏洞类型与特征的基础上,从软件生命周期阶段的检测与修复、缓冲区溢出攻击阶段的预防与保护、基于认识与理解途径的度量与评估这3个应用视角,对缓冲区溢出漏洞检测技术与工具进行梳理,一定程度上在用户需求、检测技术与工具之间建立了一张映射图谱.
    2019,30(5):1522-1531, DOI: 10.13328/j.cnki.jos.005727
    [摘要] (2128) [HTML] (89) [PDF 1252598] (1620)
    摘要:
    问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据质量问题,通过文献调研和访谈,并基于自有经验对数据进行分析,总结出了9种数据质量问题,覆盖了数据产生、数据收集和数据使用这3个不同的阶段.进一步地,提出了相应的方法以帮助发现和解决数据问题.发现问题是指加强对数据上下文的理解和通过统计分析及数据可视化发现潜在的数据质量问题,解决问题是指利用冗余数据或者挖掘用户行为模式进行修正.
    2019,30(5):1206-1223, DOI: 10.13328/j.cnki.jos.005717
    [摘要] (3253) [HTML] (133) [PDF 2004202] (4313)
    摘要:
    自动化软件开发一直是软件工程领域的研究热点.目前,互联网技术促进了开源软件和开源社区的发展,这些大规模的代码和数据成为自动化软件开发的机遇.与此同时,深度学习也在软件工程领域开始得到应用.如何将深度学习技术用于大规模代码的学习,并实现机器自动编写程序,是人工智能与软件工程领域的共同期望.机器自动编写程序,辅助甚至在一定程度上代替程序员开发程序,极大地减轻了程序员的开发负担,提高了软件开发的效率和质量.目前,基于深度学习方法自动编写程序主要从两个方面实现:程序生成和代码补全.对这两个方面的应用以及主要涉及的深度学习模型进行了介绍.
    2019,30(5):1288-1307, DOI: 10.13328/j.cnki.jos.005713
    [摘要] (2629) [HTML] (124) [PDF 2114823] (2453)
    摘要:
    软件缺陷预测一直是软件工程研究中最活跃的领域之一,研究人员己经提出了大量的缺陷预测技术,根据预测粒度不同,主要包括模块级、文件级和变更级(change-level)缺陷预测.其中,变更级缺陷预测旨在于开发者提交代码时,对其引入的代码是否存在缺陷进行预测,因此又被称作即时(just-in-time)缺陷预测.近年来,即时缺陷预测技术由于其即时性、细粒度等优势,成为缺陷预测领域的研究热点,取得了一系列研究成果;同时也在数据标注、特征提取、模型评估等环节面临诸多挑战,迫切需要更先进、统一的理论指导和技术支撑.鉴于此,从即时缺陷预测技术的数据标注、特征提取和模型评估等方面对近年来即时缺陷预测研究进展进行梳理和总结.主要内容包括:(1)归类并梳理了即时缺陷预测模型构建中数据标注常用方法及其优缺点;(2)对即时缺陷预测的特征类型和计算方法进行了详细分类和总结;(3)总结并归类现有模型构建技术;(4)总结了模型评估中使用的实验验证方法与性能评估指标;(5)归纳出了即时缺陷预测技术的关键问题;(6)最后展望了即时缺陷预测的未来发展.
    2019,30(4):1164-1190, DOI: 10.13328/j.cnki.jos.005811
    [摘要] (2812) [HTML] (162) [PDF 2673998] (3052)
    摘要:
    为了满足应用程序的多样化需求,异构多核处理器出现并逐渐进入市场,其中的处理核心(core)具有不同的微架构或者指令集架构(ISA),为应用提供多样化特性支持,比如指令级并行(ILP)、内存级并行(MLP),这些核心协同工作满足整个计算系统的优化目标,比如高性能、低功耗或者良好的能效.然而,目前主流的调度技术主要是针对传统同构处理器架构设计,没有考虑异构硬件能力的差异性.在异构多核处理器环境下,调度技术如何感知硬件的异构特性,为不同类型的应用程序提供更加合适和匹配的硬件资源,这是值得探索的问题.对近年来在该研究领域的成果进行了综述研究,特别是在性能非对称多核处理器架构下,异构调度技术面临的优化目标、分析模型、调度决策和算法评估等主要问题进行了分析和描述,并依次对相关技术进行了系统的总结,最后从软硬件融合的角度对今后的研究工作进行了展望.
    2019,30(4):962-980, DOI: 10.13328/j.cnki.jos.005711
    [摘要] (2825) [HTML] (181) [PDF 1969028] (2896)
    摘要:
    代码克隆(code clone),是指存在于代码库中两个及以上相同或者相似的源代码片段.代码克隆相关问题是软件工程领域研究的重要课题.代码克隆是软件开发中的常见现象,它能够提高效率,产生一定的正面效益.但是研究表明,代码克隆也会对软件系统的开发、维护产生负面的影响,包括降低软件稳定性,造成代码库冗余和软件缺陷传播等.代码克隆检测技术旨在寻找检测代码克隆的自动化方法,从而用较低成本减少代码克隆的负面效应.研究者们在代码克隆检测方面获得了一系列的检测技术成果,根据这些技术利用源代码信息的程度不同,可以将它们分为基于文本、词汇、语法、语义4个层次.现有的检测技术针对文本相似的克隆取得了有效的检测结果,但同时也面临着更高抽象层次克隆的挑战,亟待更先进的理论、技术来解决.着重从源代码表征方式角度入手,对近年来代码克隆检测研究进展进行了梳理和总结.主要内容包括:(1)根据源代码表征方式阐述并归类了现有的克隆检测方法;(2)总结了模型评估中使用的实验验证方法与性能评估指标;(3)从科学性、实用性和技术难点这3个方面归纳总结了代码克隆研究的关键问题,围绕数据标注、表征方法、模型构建和工程实践4个方面,阐述了问题的可能解决思路和研究的未来发展趋势.
    2019,30(3):799-821, DOI: 10.13328/j.cnki.jos.005698
    [摘要] (2873) [HTML] (160) [PDF 2385385] (3329)
    摘要:
    传统矩阵分解方法因其算法的高可扩展性和较好的性能等特点,在预测、推荐等领域有着广泛的应用.然而大数据环境下,更多上下文因素的获取变得可能,传统矩阵分解方法缺乏对上下文信息的有效利用.在此背景下,因子分解机模型提出并流行.为了更好地把握因子分解机模型的发展脉络,促进因子分解机模型与应用相结合,针对因子分解机模型及其算法进行了综述.首先,对因子分解机模型的提出进行了溯源,介绍了从传统矩阵分解到因子分解机模型的演化过程;其次,从模型准确率和效率两方面对因子分解机模型存在的基本问题和近年来的研究进展进行了总结,然后综述了适用于因子分解机模型求解的4种代表性优化算法;最后分析了因子分解机模型目前仍存在的问题,提出了可能的解决思路,并对未来的研究方向进行了展望.
    2019,30(3):845-864, DOI: 10.13328/j.cnki.jos.005689
    [摘要] (6083) [HTML] (93) [PDF 2211035] (8041)
    摘要:
    近年来,强化学习在电子游戏、棋类、决策控制等领域取得了巨大进展,也带动着金融交易系统的迅速发展.金融交易问题已经成为强化学习领域的研究热点,特别是股票、外汇和期货等方面具有广泛的应用需求和学术研究意义.以金融领域常用的强化学习模型的发展为脉络,对交易系统、自适应算法、交易策略等方面的诸多研究成果进行了综述.最后讨论了强化学习在金融领域应用中存在的困难和挑战,并对今后强化学习交易系统发展趋势进行展望.
    2019,30(2):302-322, DOI: 10.13328/j.cnki.jos.005678
    [摘要] (2777) [HTML] (108) [PDF 2297785] (2392)
    摘要:
    近年来,随着虚拟现实、物联网、云计算等新兴技术的发展,用户对网络带宽的需求迅猛增加,使用单一接入技术已经难以满足用户对网络带宽的需求.为了解决用户日益增长的带宽需求和有限的频率资源之间的矛盾,互联网端到端多路径传输技术应运而生.互联网端到端多路径传输协议,如MPTCP (multipath TCP),目前主要工作于传输层,能够利用终端已经具备的多块网卡(如WiFi网卡和4G网卡)同时进行数据的端到端并发传输,从而提高总的传输带宽和对网络动态性的适应能力.由于每条子流可以通过TCP协议及其优化算法实现端到端的可靠有序传输,因此端到端多路径传输的研究重点在于多条子流之间的智能协同,主要体现在子流选择、数据分配和调度、联合拥塞控制等方面.然而,底层链路的动态变化使得传输层所估计的链路参数无法及时地反映当前链路的状态,异构物理网络接口具有不同的资源分配特点,不同子流在网络层存在部分传输路径重合问题,上层应用的数据包在截止时间、重要性、失真率等方面存在差异,这些都将给端到端多路径传输中子流之间的智能协同带来影响.因此,仅仅依靠传统的传输层信息无法有效发挥多路径传输的优势,需要在传输层对其他层次的相关参数进行有效利用.为此,近年来有关研究着手利用物理层、链路层、网络层以及应用层的相关信息,通过跨层联合优化来有效地提升多路径传输的优势.比较了近年来利用跨层信息进行多路径传输优化的研究,分析了各层的功能特点及其与多路径传输的关系,并在最后对未来的研究趋势进行了展望.
    2019,30(2):266-281, DOI: 10.13328/j.cnki.jos.005677
    [摘要] (3085) [HTML] (114) [PDF 2179661] (2287)
    摘要:
    错误定位就是寻找程序错误的位置.现有的错误定位方法大多利用测试用例的覆盖信息,以标识一组导致程序失效的可疑语句,却忽视了这些语句相互作用导致失效的上下文.因此,提出一种增强上下文的错误定位方法Context-FL,以构建上下文的方式来优化错误定位性能.Context-FL利用动态切片技术构建数据与控制相关性的错误传播上下文,显示了导致失效的语句之间传播依赖关系;然后,基于可疑值度量来区分上下文片段中不同语句的可疑度;最后,Context-FL以标记可疑值的上下文作为定位结果.实验结果表明,Context-FL优于8种典型错误定位方法.
    2019,30(2):440-468, DOI: 10.13328/j.cnki.jos.005659
    [摘要] (4929) [HTML] (231) [PDF 3433486] (11354)
    摘要:
    近年来,深度学习技术已经广泛应用到图像语义分割领域.主要对基于深度学习的图像语义分割的经典方法与研究现状进行分类、梳理和总结.根据分割特点和处理粒度的不同,将基于深度学习的图像语义分割方法分为基于区域分类的图像语义分割方法和基于像素分类的图像语义分割方法.把基于像素分类的图像语义分割方法进一步细分为全监督学习图像语义分割方法和弱监督学习图像语义分割方法.对每类方法的代表性算法进行了分析介绍,并详细总结了每类方法的基本思想和优缺点,系统地阐述了深度学习对图像语义分割领域的贡献.对图像语义分割相关实验进行了分析对比,并介绍了图像语义分割实验中常用公共数据集和性能评价指标.最后,预测并分析总结了该领域未来可能的研究方向及相应的发展趋势.
    2019,30(2):244-265, DOI: 10.13328/j.cnki.jos.005657
    [摘要] (3033) [HTML] (157) [PDF 2207267] (4712)
    摘要:
    程序自动修复技术能够有效地降低软件维护成本,是近年来学术研究的热点问题.待修复程序规约的刻画,对自动修复过程具有至关重要的作用.从规约的角度对程序自动修复问题和技术进行了分析梳理.从待修复程序是否具有完整的程序规约,将现有修复问题分为不完全规约、完全规约和半完全规约这3大类待修复问题.以3类抽象问题为线索,梳理了不同前提假设下修复技术面临的核心问题、问题之间的联系和技术体系中的逻辑关系.分析了不完全规约程序修复问题中高精度补丁生成、规约补全和补丁择优等问题,梳理了完全规约程序修复问题中内存泄漏、资源泄露、并发错误中的数据竞争、原子性违背、顺序违背和死锁,配置错误以及特定性能错误等具体问题及研究进展,整理了半完全规约程序修复问题中多种形式的修复具体问题及研究进展.最后分析了程序自动修复面临的机遇和挑战.
    2019,30(2):416-439, DOI: 10.13328/j.cnki.jos.005636
    [摘要] (3423) [HTML] (100) [PDF 2778355] (6677)
    摘要:
    人类能够迅速地选取视野中的关键部分,选择性地将视觉处理资源分配给这些视觉显著的区域.在计算机视觉领域,理解和模拟人类视觉系统的这种注意力机制,得到了学界的大力关注,并显示出了广阔的应用前景.近年来,随着计算能力的增强以及大规模显著性检测数据集的建立,深度学习技术逐渐成为视觉注意力机制计算和建模的主要手段.综述了视觉注意力检测的最新研究进展,包括人眼关注点检测和显著物体检测,并讨论了当前流行的视觉显著性检测数据集和常用的评估指标.对基于深度学习的工作进行了综述,也对之前代表性的非深度学习模型进行了讨论,同时,对这些模型在不同的数据集上的性能进行了详细评估.最后探讨了该领域的研究趋势和未来的发展方向.
    2019,30(2):323-345, DOI: 10.13328/j.cnki.jos.005635
    [摘要] (2607) [HTML] (109) [PDF 3206443] (2726)
    摘要:
    基于覆盖协议和存储-携带-转发范式的延迟/中断容忍网络(delay/disruption tolerant network,简称DTN)被认为是应对空间环境挑战(如长延迟、间歇性连接等)的有效解决方案.接触图路由(contact graph routing,简称CGR)是一种利用空间DTN网络拓扑的先验知识来计算路径的动态路由算法.首先介绍了CGR的基本原理和算法过程,并给出了相关术语的定义及相应计算公式;然后,从路由环路避免、计算效率、路由准确性、拥塞控制、机会性扩展和异常处理方面总结了现有的CGR改进工作;接下来概述了已经进行的评估DTN协议栈和CGR适用性的代表性实测实验,并通过GEO/MEO/LEO卫星网络仿真实验,对比评估了CGR算法与多层卫星路由算法(multi-layered satellite routing algorithm,简称MLSR)的性能差异;最后给出了CGR的未来发展方向,包括扩展块CGR (CGR-extension block,简称CGR-EB)和缓存CGR (cache-CGR,简称C-CGR)整合、机会CGR、CGR向大型网络的扩展、服务质量保障CGR和接触计划描述方法改进等.
    2019,30(1):33-61, DOI: 10.13328/j.cnki.jos.005652
    [摘要] (6840) [HTML] (230) [PDF 564556] (7356)
    摘要:
    形式化方法是基于严格数学基础,对计算机硬件和软件系统进行描述、开发和验证的技术.其数学基础建立在形式语言、语义和推理证明三位一体的形式逻辑系统之上.形式化方法已经以不同程度和不同方式愈来愈多地应用在计算系统生命周期的各个阶段.介绍了形式化方法的发展历程和基本方法体系;以形式规约和形式验证为主线,综述了形式化方法的理论、方法、工具和应用的现状,展示了形式化方法与软件学科其他领域的交叉和融合;分析了形式化方法的启示,并展望了其面临的发展机遇和未来趋势.形式化方法的发展和研究现状表明:其应用已经取得了长足的进步,在提高计算系统的可靠性和安全性方面发挥了重要作用.在当今软件日益成为社会基础设施的时代,形式化方法将与人工智能、网络空间安全、量子计算、生物计算等领域和方向交叉融合,得到更加广阔的应用.研究和建立这种交叉融合的理论和方法不仅重要,而且具有挑战性.
    2019,30(1):80-109, DOI: 10.13328/j.cnki.jos.005651
    [摘要] (7423) [HTML] (163) [PDF 560736] (6664)
    摘要:
    在信息化时代,人们对软件的质量要求越来越高.程序分析是保障软件质量的重要手段之一,日益受到学术界和产业界的重视.介绍了若干基本程序分析技术(抽象解释、数据流分析、基于摘要的分析、符号执行、动态分析、基于机器学习的程序分析等),特别是最近10余年的研究进展.进而介绍了针对不同类型软件(移动应用、并发软件、分布式系统、二进制代码等)的分析方法.最后展望了程序分析未来的研究方向和所面临的挑战.
    2019,30(1):3-21, DOI: 10.13328/j.cnki.jos.005650
    [摘要] (6816) [HTML] (117) [PDF 357702] (5643)
    摘要:
    软件是信息化社会的基础设施,而构造并运用软件的能力成为一种核心竞争力.软件开发方法凝结了系统化的软件构造过程和技术.简要回顾了50年来软件开发方法发展历程中具有重要影响的里程碑,包括基于结构化程序设计和模块化开发的基本方法、面向对象方法、软件复用与构件化方法、面向方面的方法、模型驱动的方法,以及服务化的方法.而后针对Internet的发展普及以及人机物融合应用对软件开发方法提出的挑战,介绍了网构软件的研究和探索,并展望未来人机物融合的软件方法和技术.
    2019,30(1):142-163, DOI: 10.13328/j.cnki.jos.005649
    [摘要] (5066) [HTML] (179) [PDF 476918] (5043)
    摘要:
    数据库是数据管理的技术,是计算机学科的重要分支.经过近半个世纪的发展,数据库技术形成了坚实的理论基础、成熟的商业产品和广泛的应用领域.数据模型描述了数据库中数据的存储方式和操作方式.从数据组织形式,可以将数据模型分为结构化模型、半结构化模型、OLAP分析模型和大数据模型.20世纪60年代中后期到90年代初,结构化模型最早被提出,其主要包括层次模型、网状模型、关系模型和面向对象模型等.20世纪90年代末期,随着互联网应用和科学计算等复杂应用的快速发展,开始出现半结构化模型,包括XML模型、JSON模型和图模型等.21世纪,随着电子商务、商业智能等应用的不断发展,数据分析模型成为研究热点,主要包括关系型ROLAP和多维型MOLAP.2010年以来,随着大数据工业应用的快速发展,以NoSQL和NewSQL数据库系统为代表的大数据模型成为新的研究热点.对上述数据模型进行了综述,并选取每个模型的典型数据库系统进行了性能的分析.
    2019,30(1):22-32, DOI: 10.13328/j.cnki.jos.005648
    [摘要] (4997) [HTML] (140) [PDF 317682] (2563)
    摘要:
    系统软件是计算学科的基本概念之一,从系统软件的本质特征、时代特点和发展趋势这3个方面给出了关于系统软件的新洞察.洞察1认为,通用图灵机和存储程序思想是系统软件的理论源头和技术源头,其本质特征是"操纵计算系统执行",编码加载和执行管控是两种主要的操纵方式.洞察2认为,系统软件在互联网时代的时代特点是持续在线提供基础服务,为"软件即服务"的新型应用模式奠定了基础.洞察3认为,系统软件的发展趋势是持续在线演化,在计算系统创新、信息物理融合和智能技术的推动下,将成为未来软件生态的核心.
    2019,30(1):164-193, DOI: 10.13328/j.cnki.jos.005646
    [摘要] (4974) [HTML] (147) [PDF 508646] (6999)
    摘要:
    随着各类新型计算技术和新兴应用领域的浮现,传统数据库技术面临新的挑战,正在从适用常规应用的单一处理方法逐步转为面向各类特殊应用的多种数据处理方式.分析并展望了新型数据管理系统的研究进展和趋势,涵盖分布式数据库、图数据库、流数据库、时空数据库和众包数据库等多个领域.具体而言:分布式数据管理技术是支持可扩展的海量数据处理的关键技术;以社交网络为代表的大规模图结构数据的处理需求带来了图数据库技术的发展;流数据管理技术用来应对数据动态变化的管理需求;时空数据库主要用于支持移动对象管理;对多源、异构而且劣质数据源的集成需求催生出新型的众包数据库技术.最后讨论了新型数据库管理系统的未来发展趋势.
    2019,30(1):62-79, DOI: 10.13328/j.cnki.jos.005645
    [摘要] (4966) [HTML] (129) [PDF 689174] (4155)
    摘要:
    工程化软件开发需要对软件开发整个过程进行有效的组织和管理,由此产生了一系列软件开发组织和管理方法,其主要目的是形成一种载体,用以积累和传递关于软件开发的经验教训.然而,由于软件开发的一些天然特性(比如复杂性和不可见性)的存在,使得描述软件开发过程的软件开发与组织方法也天然地带着一定的抽象性.由此带来了很多概念上的误导和实践中的争论,影响了上述目的的达成.例如,对于究竟该如何选择和定义合适的软件开发过程以更好地满足某个特定项目的要求,目前仍然缺少可靠的手段.甚至有些面向工业界的调研报告表明:在实际软件项目开发中,过程改进(例如引入新的工具或者方法)的主要驱动力是佚闻.试图厘清软件组织与管理话题的若干核心概念,系统梳理软件组织和管理方法的特征,并且以软件发展的历史为主线,介绍软件组织与管理方法的历史沿革,整理出这种历史沿革背后的缘由.在此基础上,讨论和总结若干发现,以期为研究者和实践者提供参考.
    2019,30(1):127-141, DOI: 10.13328/j.cnki.jos.005644
    [摘要] (7317) [HTML] (95) [PDF 321149] (6003)
    摘要:
    大数据管理技术正在经历以软件为中心到以数据为中心的计算平台的变迁,传统的关系型数据库管理系统无法满足现在以数据为中心的大数据管理的需求,设计新型大数据管理系统迫在眉睫.首先回顾了数据管理技术的发展历史;之后,从大数据管理的存储、数据模型、计算模式、查询引擎等方面分析了大数据管理系统的现状,指出目前大数据管理系统具有模块化和松耦合的特点,并进一步介绍了大数据管理系统应具备的数据特征、系统特征和应用特征,指出大数据管理系统技术还在快速进化之中,预测未来的大数据管理系统应具备多数据模型并存、多计算模式融合、可伸缩调整、新硬件驱动、自适应调优等特点.
    2019,30(1):110-126, DOI: 10.13328/j.cnki.jos.005643
    [摘要] (4848) [HTML] (187) [PDF 528164] (4061)
    摘要:
    程序理解是软件工程中的关键活动,在软件开发、维护、重用等任务中发挥着重要的作用.程序理解自软件工程出现以来,就一直是该领域的研究热点.随着软件应用的日益复杂和不断普及,程序理解研究的需求发生了新的变化,程序的自理解或自认知逐渐成为新的关注点,有必要对程序理解进行重新审视.从工程、学习和认知以及方法和技术这3个角度定位程序理解任务;随后,通过文献分析展示其研究布局,进而分别从认知过程、理解技术以及软件工程任务中的应用这3个方面,综合论述程序理解研究的发展脉络和研究进展.
    2018,29(11):3400-3411, DOI: 10.13328/j.cnki.jos.005622
    [摘要] (2508) [HTML] (100) [PDF 1325281] (1726)
    摘要:
    随着软件精化验证方法以及Isabella/HOL、VCC等验证工具不断取得进展,研究者们开始采用精化方法和验证工具设计、建模安全协议和验证安全协议源程序的正确性.在介绍Event-B方法和验证工具Isabella/HOL、VCC的基础上,综述了基于Event-B方法的安全协议形式化设计、建模与源程序验证的典型研究工作,主要包括从需求规范到消息传递形式协议的安全协议精化设计、基于TPM(trusted platform module)的安全协议应用的精化建模以及从消息传递形式协议到代码的源程序精化验证.
    2018,29(10):3205-3222, DOI: 10.13328/j.cnki.jos.005620
    [摘要] (3355) [HTML] (124) [PDF 2000201] (4896)
    摘要:
    流量混淆技术是目前审查规避系统常用技术之一.为了提升网络流量识别精度和监管能力,针对混淆流量的识别和追踪技术也备受关注.通过深入分析随机化、拟态和隧道这3类主流的流量混淆技术,对比了其技术框架、隐蔽性、易用性和应用场景;分析了深度包检测、机器学习等两类识别技术,对比了其识别精度;分析对比了被动关联、主动关联两类流量追踪技术.最后给出了流量混淆、识别和追踪技术的发展趋势.
    2018,29(10):3021-3050, DOI: 10.13328/j.cnki.jos.005613
    [摘要] (2467) [HTML] (132) [PDF 3182768] (1853)
    摘要:
    基于互联网的软件开发要求产品快速迭代,同时保持产品的质量,其关键的环节就是持续集成.持续集成通过自动化测试来保证集成到主干的代码质量.持续集成时的测试用例选择是一个非常有挑战性的问题.如果运行所有的测试用例,需要消耗大量的计算资源,并造成测试反馈周期过长.如果选择的测试用例集不合适,又不足以覆盖必要的测试代码以保证待集成代码的质量.持续集成测试用例集优化的目的是平衡测试资源和测试质量,在尽可能不影响测试质量的情况下,减少持续集成的资源需求.对近年来国内外学者在该领域的研究工作进行了系统的分析、提炼和总结.为此,首先从研究主题、影响因子、研究方法、研究对象以及性能评价等方面提出5个研究问题;然后从电子文献数据库搜索最近10年的研究工作,经过仔细审查和筛选后选择39篇文献作为研究对象;最后,从选择文献中收集数据,通过定量分析和可视化展示来回答提出的研究问题.总的来说,回顾了持续集成测试用例集优化的研究进展,为该领域的研究者提供了一些有用的发现,并总结了面临的问题和挑战.
    2018,29(10):3111-3133, DOI: 10.13328/j.cnki.jos.005608
    [摘要] (4940) [HTML] (108) [PDF 2554146] (5941)
    摘要:
    近年来,随着移动智能设备的普及,移动社交网络方兴未艾,用户习惯和朋友分享自己的精彩经历,因此产生了大规模具有时空属性的用户轨迹数据.从狭义的角度来看,轨迹数据是指连续采样的GPS数据.从广义的角度来看,在时空域存在连续性的序列,都可以称作轨迹.例如:在社交网络上的用户签到序列就可以认为是粗粒度的轨迹数据.广义轨迹数据具有时空异构性、连续与离散并存、时空项目的层次性不明显和分类不明确等特点,但是相比于GPS轨迹数据,广义轨迹数据来源广泛,蕴含丰富的信息,这给传统的移动推荐系统带来了巨大的机遇.与此同时,广义轨迹数据规模大、结构丰富,这也给传统的移动推荐系统带来了巨大的挑战.如何利用广义用户轨迹数据来提升移动推荐系统的性能,已成为学术界和产业界共同关注的重要课题.以轨迹数据特征作为切入点,对近年来基于广义用户轨迹数据的移动推荐系统的主要模型方法和推荐评价指标进行了系统综述,阐述了与传统移动推荐系统的联系和区别.最后,对基于广义用户轨迹数据的移动推荐系统有待深入研究的难点和发展趋势进行了分析和展望.
    2018,29(10):3068-3090, DOI: 10.13328/j.cnki.jos.005607
    [摘要] (6429) [HTML] (243) [PDF 2386116] (9269)
    摘要:
    设计类问题在科学研究和工业领域无处不在.作为一种十分有效的全局优化算法,近年来,贝叶斯优化方法在设计类问题上被广泛应用.通过设计恰当的概率代理模型和采集函数,贝叶斯优化框架只需经过少数次目标函数评估即可获得理想解,非常适用于求解目标函数表达式未知、非凸、多峰和评估代价高昂的复杂优化问题.从方法论和应用领域两方面深入分析、讨论和展望了贝叶斯优化的研究现状、面临的问题和应用领域,期望为相关领域的研究者提供有益的借鉴和参考.
    2018,29(9):2733-2752, DOI: 10.13328/j.cnki.jos.005605
    [摘要] (3890) [HTML] (137) [PDF 2204963] (2985)
    摘要:
    研究了分布式无线传感器网络在异构互连和资源管理等方面存在的问题,深入分析了软件定义网络与无线传感器网络结合的必要性,在总结大量软件定义无线传感器网络架构后,给出了通用架构,并对应用面、控制面和数据面进行了详细阐述.进一步,从异构互连、资源管理、可靠控制、网络安全这4个方面梳理出当前存在的挑战及相应关键技术,在此基础上,通过案例比较说明了软件定义无线传感器网络的优势和前景,并对未来研究工作进行了展望.
    2018,29(9):2799-2820, DOI: 10.13328/j.cnki.jos.005597
    [摘要] (3943) [HTML] (129) [PDF 2210474] (3601)
    摘要:
    移动目标防御作为一种动态、主动的防御技术,能够通过不断转移攻击面,减少系统的静态性、同构性和确定性,以此挫败攻击者的攻击.随着网络攻击手段的不断发展和变化,深入研究移动目标防御对网络空间安全具有重要意义,而攻击面的动态转移技术作为移动目标防御领域的重点问题,一直受到研究人员的广泛关注.利用攻击面动态转移技术所具有的不确定性、动态性和随机性等优势,实现信息系统的动态防御,可以有效克服传统防御手段的确定性、静态性和同构性的不足.首先梳理了攻击面的基本概念,并具体阐释了攻击面以及攻击面转移的形式化定义;其次,分析了攻击面4个层次的动态转移技术——数据攻击面、软件攻击面、网络攻击面和平台攻击面,并对不同的动态转移技术进行分析和比较,分别指出它们的优点和缺陷;最后,还从多层次攻击面动态转移技术的融合、攻击面动态转移的综合评估方法、基于感知的攻击面动态转移方法、基于三方博弈模型的攻击面转移决策等方面讨论了未来移动目标防御中攻击面动态转移可能的研究方向.
    2018,29(9):2778-2798, DOI: 10.13328/j.cnki.jos.005594
    [摘要] (3843) [HTML] (243) [PDF 2740592] (6604)
    摘要:
    安全性是云计算中一项极为重要的需求,然而如何保护云计算中关键应用程序和数据的安全、防止云平台管理员泄露用户隐私,仍然是目前没有解决的难题.2013年,Intel公司提出了新的处理器安全技术SGX,能够在计算平台上提供一个可信的隔离空间,保障用户关键代码和数据的机密性和完整性.作为系统安全领域的重大研究进展,SGX对系统安全,尤其是云计算安全保护方面具有非常重要的意义.该文介绍了SGX的原理和特性,分析了SGX的关键技术以及针对SGX的侧信道攻击及防御方法.同时,总结和归纳了该技术的研究成果,分析了SGX技术与其他可信计算技术的异同,并指出了SGX技术的未来研究挑战和应用需求.
    2018,29(9):2753-2777, DOI: 10.13328/j.cnki.jos.005591
    [摘要] (3493) [HTML] (157) [PDF 2700902] (2705)
    摘要:
    随着云计算与大数据技术的发展,隐私保护越来越受到人们的关注.加密是一种常见的保护数据隐私的方法,但是单纯地利用加密手段并不能抵抗所有类型的攻击.攻击者可以通过观察用户对数据的访问模式来推断隐私信息,其中包括数据的重要程度、数据的关联性,甚至是加密数据的内容等.不经意随机访问机是一种重要的保护访问模式的手段,它通过混淆每一次访问过程,使其与随机访问不可区分,从而保护真实访问中的访问操作、访问位置等信息.不经意随机访问机在安全云存储系统以及安全计算领域有着非常重要的作用.利用不经意随机访问机可以降低攻击者通过访问模式推测隐私信息的可能性,减小系统受到的攻击面,从而提供更安全更完整的服务.对不经意随机访问机的研究与应用进行综述,主要介绍了不经意随机访问机的相关概念以及设计方法,重点分析并总结了目前学术界研究的性能优化的常见策略及其优劣性,主要包括针对客户端与服务器的平均带宽与最坏情况带宽优化、存储开销优化以及交互轮数优化等方面.同时讨论了将不经意随机访问机应用于安全存储系统的一般性问题,如数据完整性保护以及支持多用户并发访问等,也讨论了将其应用于安全计算领域的问题,如安全计算协议设计以及不经意数据结构的设计等;最后,对不经意随机访问机未来的研究方向进行了展望.
    2018,29(8):2397-2426, DOI: 10.13328/j.cnki.jos.005564
    [摘要] (4954) [HTML] (109) [PDF 2985415] (7019)
    摘要:
    随着机器学习和大数据技术的应用发展,基于语义分析的情感计算与分析技术在研究人类的感知、注意力、记忆、决策、社会交流等诸多方面起着重大作用,它不仅影响到了人工智能技术的发展,还影响到了人/机交互的方式,并受到学术界以及企业界的广泛关注.在针对情感定义以及相关90多种情感模型分析的基础上,归纳并提出了目前情感分析领域中存在的6项关键性问题与挑战,其中主要包括:情感的来源与本质特征的表示问题;多模态的情感计算问题;外部因素对情感演化过程的影响度量问题;情感的个性化度量问题;情感群体化特征与传播动力学机制问题以及细微情感的表达、算法改进与优化等问题.同时,针对其中的关键问题与技术挑战进行了理论探讨、技术分析、实际应用以及当前工作进展与趋势分析,从而为深入研究和解决基于语义分析条件下的情感计算提供了新的研究线索与方向.
    2018,29(8):2371-2396, DOI: 10.13328/j.cnki.jos.005563
    [摘要] (3509) [HTML] (86) [PDF 2834087] (6010)
    摘要:
    基于多面体模型的编译技术发展近30年,已经在多个开源编译器和商业编译器中得到了应用和实现.与传统的编译优化模型相比,多面体模型具备应用范围广、表示能力强、优化空间大等优点,代表了程序自动并行化领域众多方向最先进的水平,成为国际上多个编译研发团队的研究热点;同时,多面体模型抽象程度高、实现难度大、面临问题多的特征,阻碍了基于该模型的编译技术在发展相对滞后地区的普及,形成国内专门从事该问题研究的团队屈指可数的现象.为了打开多面体模型的“黑盒子”,首先描述了多面体模型的原理,揭示了基于多面体模型的编译流程,并指出了该领域的主要研究内容;接下来,从程序并行性、数据局部性和其他领域上的扩展应用这3个方面对该领域上的研究进展进行了介绍;最后,对该研究领域当前面临的挑战和潜在的研究方向进行了总结.研究目的是通过回顾和总结基于多面体模型的编译技术研究进展,为国内编译研发团队提供重要参考,以期推动我国在该领域上的发展.
    2018,29(8):2527-2544, DOI: 10.13328/j.cnki.jos.005560
    [摘要] (3781) [HTML] (148) [PDF 1920124] (6541)
    摘要:
    视频显著性检测是计算机视觉领域的一个热点研究方向,其目的在于通过联合空间和时间信息实现视频序列中与运动相关的显著性目标的连续提取.由于视频序列中目标运动模式多样、场景复杂以及存在相机运动等,使得视频显著性检测极具挑战性.对现有的视频显著性检测方法进行梳理,介绍相关实验数据集,并通过实验比较分析现有方法的性能.首先,介绍了基于底层线索的视频显著性检测方法,主要包括5类:基于变换分析的方法、基于稀疏表示的方法、基于信息论的方法、基于视觉先验的方法和其他方法.然后,对基于学习的视频显著性检测方法进行了总结,主要包括传统学习方法和深度学习方法,并着重对后一类方法进行了介绍.随后,介绍了常用的视频显著性检测数据集,给出了4种算法性能评价指标,并在不同数据集上对最新的几种算法进行了定性和定量的比较分析.最后,对视频显著性检测的关键问题进行了总结,并对未来的发展趋势进行展望.
    2018,29(8):2448-2469, DOI: 10.13328/j.cnki.jos.005558
    [摘要] (3517) [HTML] (101) [PDF 2274992] (2099)
    摘要:
    可交换性假设是采用贝叶斯模型对网络数据建模的重要前提,基于Aldous-Hoover表示理论的可交换图不能生成稀疏网络.实证结果表明,真实世界中的很多复杂网络都具有节点度幂律分布的稀疏特征,基于Kallenberg表示理论的可交换图能够同时满足可交换性和稀疏性.以Caron-Fox模型和Graphex模型为例,对稀疏可交换图建模的相关概念、理论和方法的研究发展进行了综述.首先讨论了随机图、贝叶斯非参数混合模型、可交换表示理论、Poisson点过程、离散非参数先验等理论的研究历程;然后介绍了Caron-Fox模型的表示;进而总结了进行稀疏可交换图的随机模拟所涉及的截断采样和边缘化采样方法;接下来综述了稀疏可交换图模型的后验推理技术;最后对稀疏可交换图建模的最新进展和研究前景做了介绍.
    2018,29(7):2092-2115, DOI: 10.13328/j.cnki.jos.005589
    [摘要] (7763) [HTML] (91) [PDF 2642187] (11004)
    摘要:
    区块链是一种源于数字加密货币比特币的分布式总账技术,其发展引起了产业界与学术界的广泛关注.区块链具有去中心化、去信任、匿名、数据不可篡改等优势,突破了传统基于中心式技术的局限,具有广阔的发展前景.介绍了区块链技术在信息安全领域的研究现状和进展.首先,从区块链的基础框架、关键技术、技术特点、应用模式、应用领域这5个方面介绍了区块链的基本理论与模型;然后,从区块链在当前信息安全领域研究现状的角度出发,综述了区块链应用于认证技术、访问控制技术、数据保护技术的研究进展,并对比了各类研究的特点;最后,分析了区块链技术的应用挑战,对区块链在信息安全领域的发展进行了总结与展望,希望对未来进一步的研究工作有一定的参考价值.
    2018,29(7):2152-2176, DOI: 10.13328/j.cnki.jos.005580
    [摘要] (3927) [HTML] (89) [PDF 2516508] (4282)
    摘要:
    随着计算机系统与物理世界的结合越来越紧密,实时系统需要承担越来越复杂的运算任务.多核处理器的兴起为同时满足实时性约束和高性能这两方面的需求提供了可能.基于多核处理器的实时嵌入式系统的研究已成为近几年研究的热点.对现有的面向实时多核嵌入式系统的研究工作进行了综述,介绍了实时多核嵌入式系统的关键设计问题,从多核共享资源干扰及管理、多核实时调度、多核实时程序并行化、多核虚拟化技术、多核能耗管理和优化等几个方面对现有研究工作进行了分析和总结,并展望了实时多核系统领域进一步的研究方向.
    2018,29(7):2018-2045, DOI: 10.13328/j.cnki.jos.005576
    [摘要] (3749) [HTML] (169) [PDF 2846573] (5225)
    摘要:
    随着移动互联网的发展与手持智能终端的普及,海量带有用户时空属性的数据被生成.理解这些数据表达的语义信息对推测用户需求,分析用户偏好,进而提供精准时空推荐和预测服务具有重要作用.因此,近些年来,时空数据语义理解正成为时空数据挖掘领域的研究热点.从技术和应用两个层面,对近些年来国内外研究者在该领域的研究成果进行了系统的归类和总结.技术层面上,依据语义理解的不同任务,提出了时空数据语义理解的研究框架;并依次从地理位置语义理解、用户行为语义理解、热点事件语义理解3个主要任务,归纳了时空数据语义理解所包含的相关研究成果和关键技术.应用层面上,分别总结了时空数据语义理解在时空推荐和时空预测中的应用.最后,从数据质量、算法模型和计算模式3个方面,归纳了时空数据语义理解面临的主要挑战以及未来的研究方向.
    2018,29(7):2071-2091, DOI: 10.13328/j.cnki.jos.005561
    [摘要] (3560) [HTML] (97) [PDF 2204985] (3743)
    摘要:
    深度神经网络作为机器学习领域的热门研究方向,在训练中容易出现梯度不稳定现象,是制约其发展的重要因素,控制和避免深度神经网络的梯度不稳定现象是深度神经网络的重要研究内容.分析了梯度不稳定现象的成因和影响,并综述了目前解决梯度不稳定现象的关键技术和主要方法.最后展望了梯度不稳定现象的未来研究方向.
    2018,29(7):2116-2132, DOI: 10.13328/j.cnki.jos.005555
    [摘要] (4167) [HTML] (101) [PDF 1888148] (4591)
    摘要:
    云计算作为全新的计算模式,将数据中心的资源包括计算、存储等基础设施资源通过虚拟化技术以服务的形式交付给用户,使得用户可以通过互联网按需访问云内计算资源来运行应用.为面向用户提供更好的服务,分布式云跨区域联合多个云站点,创建巨大的资源池,同时利用地理分布优势改善服务质量.近年来,分布式云的研究逐渐成为学术界和工业界的热点.围绕分布式云系统中研究的基本问题,介绍了国际、国内的研究现状,包括分布式云系统的架构设计、资源调度与性能优化策略和云安全方案等,并展望分布式云的发展趋势.
    2018,29(7):2133-2151, DOI: 10.13328/j.cnki.jos.005546
    [摘要] (2811) [HTML] (122) [PDF 2517690] (2365)
    摘要:
    针对计算机断层成像(computed tomography,简称CT)中投影数据与图像重建关系,综述了CT在投影策略方面对重建质量的影响.对不同采样策略获取的不完全投影数据,应用迭代类算法对投影数据进行重建,研究了均匀采样和非均匀采样情况下不同数据结构对重建图像质量的影响.对仿真数据和实际数据重建结果进行分析,同时对不同策略下的投影数据结合其数据分布特点探讨了重建质量优劣的原因.可以为CT重建领域的研究工作者提供全面的采样方法梳理和总结,为当前不完全投影数据获取方式对应的算法改进提供思路,最后对当前研究重点和未来发展加以展望.
    2018,29(7):2046-2070, DOI: 10.13328/j.cnki.jos.005538
    [摘要] (4285) [HTML] (164) [PDF 2657835] (5031)
    摘要:
    面向文本的关键词自动提取一直以来是自然语言处理领域的一个关键基础问题和研究热点.特别是,随着当前对文本数据应用需求的不断增加,使得关键词提取技术进一步得到研究者的广泛关注.尽管近年来关键词提取技术得到长足的发展,但提取结果目前还远未取得令人满意的效果.为了促进关键词提取问题的解决,对近年来国内、外学者在该研究领域取得的成果进行了系统总结,具体包括候选关键词生成、特征工程和关键词提取3个主要步骤,并对未来可能的研究方向进行了探讨和展望.不同于围绕提取方法进行总结的综述文献,主要围绕着各种方法使用的特征信息归纳总结现有成果,这种从特征驱动的视角考察现有研究成果的方式有助于综合利用现有特征或提出新特征,进而提出更有效的关键词提取方法.
    2018,29(6):1770-1791, DOI: 10.13328/j.cnki.jos.005557
    [摘要] (4900) [HTML] (106) [PDF 2360624] (6240)
    摘要:
    评述了MapReduce与Spark两种大数据计算算法和架构,从背景、原理以及应用场景进行分析和比较,并对两种算法各自优点以及相应的限制做出了总结.当处理非迭代问题时,MapReduce凭借其自身的任务调度策略和shuffle机制,在中间数据传输数量以及文件数目方面的性能要优于Spark;而在处理迭代问题和一些低延迟问题时,Spark可以根据数据之间的依赖关系对任务进行更合理的划分,相较于MapReduce,有效地减少了中间数据传输数量与同步次数,提高了系统的运行效率.
    2018,29(6):1813-1825, DOI: 10.13328/j.cnki.jos.005547
    [摘要] (4910) [HTML] (185) [PDF 1622319] (10223)
    摘要:
    第五代(fifth gneration,简称5G)移动通信网络(简称5G网络或5G),是为构建网络型社会并实现万物互联的宏伟目标而提出的下一代移动网络.随着LTE等第四代移动通信网络进入规模化商用阶段,5G网络的研究已成为世界各国的关注焦点.5G网络的实现,需要依赖于系统架构和核心技术的变革与创新.目前,5G网络还处于技术和标准的初级研究阶段.5G网络的新架构、新业务、新技术对安全提出了新的挑战.简述了5G的性能指标、关键技术、应用场景及标准制定的进展,分析了5G网络的安全需求及其所面临的技术挑战.基于目前已有的研究工作和标准研制情况,提炼了5G安全框架,归纳并阐述了若干安全关键问题及其解决方案,展望了5G网络安全的未来研究方向.
    2018,29(6):1716-1738, DOI: 10.13328/j.cnki.jos.005541
    [摘要] (3444) [HTML] (104) [PDF 2522452] (3329)
    摘要:
    API (application programming interface,应用程序编程接口)在现代软件开发过程中被广泛使用.开发人员通过调用API快速构建项目,节省了大量的时间.但由于API数量众多、文档不够完善、维护更新不及时等原因,开发人员在学习使用API的过程中面临着严峻的挑战.一旦API使用不正确,程序可能会出现缺陷甚至严重的安全问题.通过对API相关文献的深入调研,对近些年来国内外学者在该研究领域取得的成果进行了系统总结.首先,介绍了API的基本概念并分析出影响API使用的3个关键问题:API文档质量不高、调用规约不完整以及API调用序列难以确定;接着,从API文档、调用规约和API推荐这3个主要方面对研究成果进行全面的分析;最后,对未来研究可能面临的挑战进行了展望.
    2018,29(5):1422-1450, DOI: 10.13328/j.cnki.jos.005520
    [摘要] (4674) [HTML] (163) [PDF 7565221] (7265)
    摘要:
    为了描述、理解、评估、预测、控制、管理或者改善与软件相关的内容,研究者常常使用经验研究的方法.经验研究在软件工程领域已经得到广泛的应用并备受关注.为了了解近年来软件工程中经验研究的特点,并希望经验研究方法为更多研究者所了解,通过系统映射的方法,对软件工程中经验研究的典型期刊《Empirical Software Engineering》(ESE)近5年的论文做了调研,搜集了2013年1月~2017年6月发表在该期刊的250篇论文.通过定性和定量的分析,给出了软件工程领域采用经验研究的主要目的、常用的经验研究方法以及这些方法在软件工程各个领域中的使用情况和呈现的一些新特征.之后,分析了经验研究的主要数据来源、采集手段、常用的数理统计方法以及开源项目在经验研究中的使用情况等,给出了研究者对有效性和可重现性问题的关心程度.最后进行了有效性分析,并进一步探讨了经验研究的发展方向和大数据时代下经验研究面临的机遇和一些开放性问题.
    2018,29(5):1471-1514, DOI: 10.13328/j.cnki.jos.005519
    [摘要] (4362) [HTML] (185) [PDF 4591255] (22138)
    摘要:
    计算机辅助检测/诊断(computer-aided detection/diagnosis,简称CAD)能够提高诊断的准确性,减少假阳性的产生,为医生提供有效的诊断决策支持.旨在分析计算机辅助诊断工具的最新发展.以CAD研究较多的四大致命性癌症的发病医学部位为主线,按照不同的成像技术和病类,对目前CAD在不同医学图像领域的应用进行了较为详尽的综述,从图像数据集、算法和评估方法等方面做多维度梳理.最后分析了医学图像CAD系统研究领域目前存在的问题,并对此领域的研究趋势和发展方向进行展望.
    2018,29(4):1085-1093, DOI: 10.13328/j.cnki.jos.005536
    [摘要] (3696) [HTML] (130) [PDF 1072434] (3575)
    摘要:
    量子硬件设计与制造技术的飞速发展使得人们开始预言大于100个量子比特的特定用途的量子计算机有望在5~10年内实现.可以想见,到那时候,量子软件的开发将变成真正发挥这些计算机能力的关键因素.然而,由于量子信息的不可克隆性和纠缠的非局域作用等量子特征,如何设计正确、高效的量子程序和量子通信协议将是一个富有挑战性的课题.形式化验证方法,特别是模型检测技术,已在经典软件设计和系统建模方面被证明行之有效,因此量子软件的形式化验证也开始受到越来越多的关注.从量子顺序程序验证和量子通信协议验证两方面,对近年来国内外学者,尤其对University of Technology Sydney和清华大学的研究组在该研究领域取得的一些成果进行了系统的总结.最后,对未来可能的研究方向和面临的挑战进行了简单展望.
    2018,29(2):320-339, DOI: 10.13328/j.cnki.jos.005430
    [摘要] (3734) [HTML] (149) [PDF 2000462] (2816)
    摘要:
    情景感知(context aware)的应用是当前的一个研究热点,但是,由于情景的复杂性和不确定性,如何获取这些应用的需求面临着巨大挑战,需求工程领域出现了大量的研究来解决这一挑战.使用系统文献综述(systematic literature review)的方法首先分析了不同情景维度对需求获取与建模的支持,统计并深入分析情景感知的需求获取与建模中常用的方法,评估了不同经验方法的技术转移成熟度.最后,基于上述结论,给出了情景感知的需求获取与建模下一步的研究方向.
    2018,29(2):251-266, DOI: 10.13328/j.cnki.jos.005428
    [摘要] (4896) [HTML] (94) [PDF 1984664] (10143)
    摘要:
    深度网络近年来在计算机视觉任务上不断刷新传统模型的性能,已逐渐成为研究热点.深度模型尽管性能强大,然而由于参数数量庞大、存储和计算代价高,依然难以部署在受限的硬件平台上(如移动设备).模型的参数在一定程度上能够表达其复杂性,相关研究表明,并不是所有的参数都在模型中发挥作用,部分参数作用有限、表达冗余,甚至会降低模型的性能.首先,对国内外学者在深度模型压缩上取得的成果进行了分类整理,依此归纳了基于网络剪枝、网络精馏和网络分解的方法;随后,总结了相关方法在多种公开深度模型上的压缩效果;最后,对未来的研究可能的方向和挑战进行了展望.
    2018,29(2):225-250, DOI: 10.13328/j.cnki.jos.005424
    [摘要] (4664) [HTML] (152) [PDF 2793550] (11206)
    摘要:
    路网匹配是基于位置服务中的关键预处理步骤,它将GPS轨迹点匹配到实际路网上.以此为基础对数据进行分析和挖掘,能够辅助解决城市计算中相关问题,例如建立智能交通系统、协助用户规划出行.对国内外学者在该研究领域取得的成果进行了分类总结,发现这些匹配算法可以较好地解决高采样率的路网匹配问题.但是,随着城市交通的快速发展,获取和处理车辆位置信息的成本不断提高,低频采样点越来越多,现有算法匹配精确度大幅度下降.于是,近年来出现了基于隐马尔可夫模型(hidden Markov model,简称HMM)的路网匹配算法.隐马尔可夫模型可以较为平滑地将噪声数据和路径约束进行整合,从有许多可能状态的路径中选择一条最大似然路径.重点总结了基于隐马尔可夫模型的路网匹配算法,主要是从特点与实验结果的角度对其进行对比总结,有些实验结果的正确率在一定条件下最高可达90%,这说明了基于隐马尔可夫模型的路网匹配算法在低采样率下的有效性.最后,对未来的研究可能采取的方法进行了展望.
    2018,29(2):506-523, DOI: 10.13328/j.cnki.jos.005393
    [摘要] (4348) [HTML] (99) [PDF 8826506] (2748)
    摘要:
    近年来,集合模拟被频繁地运用于气候、数学、物理等领域.集合模拟数据通常具有多值、多变量、时变的属性,再加上其庞大的数据量,对这类数据的分析充满着挑战.集合模拟数据可视化是通过视觉和人机交互的手段,向领域专家揭示集合模拟数据中的成员差异和整体概况,从而帮助专家探索、总结和验证科学发现.从比较个体成员和概括整体成员这两个不同的分析任务,以及基于位置和基于特征这两种分析策略的角度,系统地分析了具有代表性的集合模拟可视化工作,收集并整理了各类方法的可视化形式、交互技术、应用案例.通过总结近几年的集合模拟可视化方法来讨论现有研究的趋势,并对未来研究做进一步的展望.
    2018,29(2):340-362, DOI: 10.13328/j.cnki.jos.005391
    [摘要] (5720) [HTML] (172) [PDF 2563187] (6782)
    摘要:
    随着社交网络的发展,融合社交信息的推荐成为推荐领域中的一个研究热点.基于矩阵分解的协同过滤推荐方法(简称矩阵分解推荐方法)因其算法可扩展性好及灵活性高等诸多特点,成为研究人员在其基础之上进行社交推荐模型构建的重要原因.围绕基于矩阵分解的社交推荐模型,依据模型的构建方式对社交推荐模型进行综述.在实际数据上,对已有代表性社交推荐方法进行对比,分析各种典型社交推荐模型在不同视角下的性能(如整体用户、冷启动用户、长尾物品).最后,分析了基于矩阵分解的社交推荐模型及其求解算法存在的问题,并对未来研究方向与发展趋势进行展望.
    2018,29(2):417-441, DOI: 10.13328/j.cnki.jos.005386
    [摘要] (4488) [HTML] (163) [PDF 2974054] (9115)
    摘要:
    网络评论的观点挖掘任务是文本分析的关键问题之一.随着网络评论的快速增长,用户在浏览评论时更加关注细粒度的信息,因此,对评论进行方面级观点挖掘能够帮助消费者更好地做出决策.过去的10多年间,研究人员在大量网络评论语料库上进行观点挖掘等相关研究,并取得了丰硕的研究成果和广泛的应用价值,更不乏优秀学者对观点挖掘方法现状进行综述总结.然而,有针对性地对观点挖掘中的方面提取与观点提取进行综述总结的成果较少.综述了近年来网络评论方面级观点挖掘的研究现状:首先,介绍了方面级观点挖掘的相关问题描述;然后,重点分类介绍方面提取方法及观点内容提取的主要方法;随后,总结了方面级观点挖掘的常见评价指标以及在社会中的广泛应用价值;最后,根据对现有方法提出具有挑战性的方向并进行系统总结.对方面级观点挖掘进行综述有助于比较不同方法的差异,从而发现有价值的研究方向.
    2018,29(2):299-319, DOI: 10.13328/j.cnki.jos.005383
    [摘要] (4291) [HTML] (131) [PDF 2296111] (3787)
    摘要:
    随着面向服务技术和云计算技术的不断成熟,尤其是面向服务体系结构SOA的不断完善以及推广,其主要内容Web服务已经被广泛应用.为了充分利用Web服务并解决单个Web服务功能有限的问题,业界将多个原子Web服务按照一定的规则和业务逻辑进行组合,以提供更多功能更强大的服务,实现了Web服务的增值和复用.为了保证Web服务组合的质量,需要对Web服务组合进行全面、充分的测试.然而,Web服务组合的动态特性和分布式特点使得其测试技术和方法与传统的软件测试有很大的区别,存在很多挑战.针对Web服务组合测试,对近年来Web服务组合测试研究中的测试用例生成技术、回归测试技术、测试执行和度量方法进行了系统的总结和分析.此外,还对Web服务组合测试中有待研究的问题进行了分析和展望.
    2018,29(2):483-505, DOI: 10.13328/j.cnki.jos.005379
    [摘要] (4571) [HTML] (121) [PDF 2884682] (4496)
    摘要:
    三维模型特征描述符是一种简洁且信息量丰富的表示方式,特征提取是许多三维模型分析处理任务的关键步骤.近年来,针对非刚性三维模型特征提取技术的研究引起了人们的广泛关注.首先,汇总了常用的非刚性三维模型基准数据集和算法评价标准;然后,在广泛调研大量文献和最新成果的基础上,将非刚性三维模型特征分为人工设计的特征描述符和基于学习的特征描述符两大类,并分别加以介绍,对每类方法所包含的典型算法,尤其是近几年基于深度学习的特征提取算法的基本思想、优缺点进行了分析、对比和总结;最后进行总结,并对未来可能的发展趋势进行了展望.
    2018,29(1):150-159, DOI: 10.13328/j.cnki.jos.005434
    [摘要] (8342) [HTML] (96) [PDF 1135084] (9718)
    摘要:
    作为支撑比特币实现无中心高可信的账本管理的技术,区块链在金融领域得到了广泛关注.区块链实现了不完全可信环境中的可信数据管理,具有去中心化、防篡改、不可抵赖、强一致和完整性等特性,但同时也存在高延迟和低吞吐率的性能问题.在互联网技术发展、新型应用层出不穷的大背景下,借鉴区块链在数字加密货币应用中的成功经验,探索可信数据管理的理论、技术,并设计、实现系统,是学术界所面临的重要问题.从可信数据管理角度,介绍了区块链相关的技术和研究进展,包括分布式共识、智能合约、数据溯源等,并分析了应用对可信数据管理所提出的需求和研究挑战.
    2018,29(1):131-149, DOI: 10.13328/j.cnki.jos.005433
    [摘要] (5557) [HTML] (102) [PDF 2109201] (4629)
    摘要:
    随着各类应用在数据量和业务量上的扩展,单机数据库系统越发难以应对现实需求.分布式数据库能够根据业务的需求动态地扩容,因此逐步开始受到应用的青睐.近年来,分布式数据库产品层出不穷,并在互联网应用中被大量投入使用.然而,分布式数据库的系统复杂度前所未有.为了让系统可用,设计者需要在多种属性中作合理选择和折中.从而造成现有的数据库产品形态各异、优缺点对比分明.至今为止,尚未有人对分布式数据库的设计空间和折中方案进行过深入分析和整理.在对多个分布式数据库产品进行深入理解之后认识到:分布式数据库系统的设计方案可以通过3个属性进行基本刻画——操作一致性、事务一致性和系统可用性.虽然这3个属性并不新颖,但它们在数据库语境下的含义在文献中尚未得到充分澄清.对这3个属性进行澄清,并通过它们对典型数据库产品的格局进行概括、对现有的分布式数据库技术进行综述.此外,还对这3个属性之间的相互关系进行深入分析,以期帮助未来的开发者在分布式数据库的设计过程中做出合理选择.
    2018,29(1):69-88, DOI: 10.13328/j.cnki.jos.005377
    [摘要] (7725) [HTML] (88) [PDF 2095567] (8975)
    摘要:
    众包测试是一种新兴的软件测试方式,得到了学术界和工业界的广泛关注.系统地总结了近年来众包软件测试研究的学术文献以及工业界实践进展:首先,从学术文献涉及的研究主题演变、涵盖的软件测试问题和众包测试流程、采用的实验对象及测试人员规模等多个角度对相关文献中提出的技术和方法进行了汇总;然后,从测试领域、测试对象、工人召集方式、绩效考核方式等方面分析对比了当前应用最广泛的20个众包测试商业平台;最后,探讨了众包软件测试的未来发展趋势、机遇和挑战.
    2018,29(1):109-130, DOI: 10.13328/j.cnki.jos.005376
    [摘要] (5599) [HTML] (107) [PDF 2320289] (9300)
    摘要:
    机器学习问题通常会转换成一个目标函数去求解,优化算法是求解目标函数中参数的重要工具.在大数据环境下,需要设计并行与分布式的优化算法,通过多核计算和分布式计算技术来加速训练过程.近年来,该领域涌现了大量研究工作,部分算法也在各机器学习平台得到广泛应用.针对梯度下降算法、二阶优化算法、邻近梯度算法、坐标下降算法、交替方向乘子算法这5类最常见的优化方法展开研究,每一类算法分别从单机并行和分布式并行来分析相关研究成果,并从模型特性、输入数据特性、算法评价、并行计算模型等角度对每种算法进行详细对比.随后,对有代表性的可扩展机器学习平台中优化算法的实现和应用情况进行对比分析.同时,对所介绍的所有优化算法进行多层次分类,方便用户根据目标函数类型选择合适的优化算法,也可以通过该多层次分类图交叉探索如何将优化算法应用到新的目标函数类型.最后分析了现有优化算法存在的问题,提出可能的解决思路,并对未来研究方向进行展望.
    2018,29(1):1-22, DOI: 10.13328/j.cnki.jos.005375
    [摘要] (5778) [HTML] (89) [PDF 2319225] (7425)
    摘要:
    精准执行可达性分析探究计算机程序状态之间的可达性关系,通过分析软件的文档、源代码或二进制程序并进行必要的测试验证,以求出在既定限制下从初始状态到特定代码位置的目标状态的准确触发输入和执行路径.精准执行可达性分析在定向测试、静态分析结果核验、错误复现和漏洞POC构造等领域均有广泛的应用.对近年来国内外学者在该研究领域取得的相关研究成果进行了系统的分析、提炼和总结.首先,指出了精准执行可达性分析对应的约束求解问题,以双向符号分析和程序归纳为主线介绍了其主要研究方法,讨论了相关技术难点;其次,对目前已经存在的精准执行可达性应用进行了分类分析;进而,指出精准执行可达性分析应用中程序分析、归纳和约束求解等方面存在的挑战;最后,对可能的解决办法以及未来发展方向进行了展望.
    2018,29(1):196-224, DOI: 10.13328/j.cnki.jos.005373
    [摘要] (5414) [HTML] (145) [PDF 3472422] (12220)
    摘要:
    随着5G移动通信技术、软件定义网络、命名数据网、移动边缘计算或雾计算等新兴技术或方法的出现及深入研究,物联网应用得到进一步升华.在这种应用场景多样化、服务质量高要求、参与对象普及化的环境下,隶属物联网子范畴的传统无线传感器网络数据转发模型已经不能完全适应这种时代需求,更加适合物联网应用的数据转发模型成为物联网连续性服务保障的基础性问题及研究热点.首先对物联网架构及其应用环境下的数据转发的关键问题进行了分析;其次,对目前具有代表性的物联网数据转发相关研究成果进行了分类总结;然后,选取不同物联网场景下典型的数据转发模型及其使用的数学方法进行评述、分析和对比;最后,指出目前研究中存在的问题及相应的解决方案,并对未来的发展方向进行了展望.研究表明:5G等新兴技术的出现,为物联网环境下数据转发模型的研究带来了新的机遇和挑战,今后的工作重点是对物联网环境下数据转发的节能模型和方法进行攻关,为实际应用提供坚实的理论基础.
    2018,29(1):23-41, DOI: 10.13328/j.cnki.jos.005323
    [摘要] (6286) [HTML] (94) [PDF 1932788] (5004)
    摘要:
    自适应为管理现代软件系统的复杂性提供了有效的解决方案,被设计为自适应系统的软件能够持续地演化以应对环境中的不确定性.在现有的研究工作中,基于模型的自适应方法是一类广泛使用的方法,它将模型驱动工程技术的应用从设计时扩展到运行时,以支持自适应能力的实现.通过利用软件模型对运行时丰富和不确定的信息进行管理,这类方法避免了将自适应逻辑与程序语言交织带来的复杂性,从而简化了自适应系统的开发.对近些年来国内外学者在该研究领域取得的成果进行了系统总结.首先给出了6个研究问题,包括相关工作常用的需求模型、结构模型、行为模型、环境模型、模型与模型或模型与系统间的同步方式、自适应规划算法等;然后,依次总结了相关工作在这6个研究问题上的已有研究成果;最后,对未来研究可能面临的挑战进行了展望.
    2018,29(1):42-68, DOI: 10.13328/j.cnki.jos.005320
    [摘要] (8095) [HTML] (95) [PDF 2666870] (12689)
    摘要:
    互联网已经渗入人类社会的各个方面,极大地推动了社会进步.与此同时,各种形式的网络犯罪、网络窃密等问题频繁发生,给社会和国家安全带来了极大的危害.网络安全已经成为公众和政府高度关注的重大问题.由于互联网的大量功能和网络上的各种应用都是由软件实现的,软件在网络安全的研究与实践中扮演着至关重要的角色.事实上,几乎所有的网络攻击都是利用系统软件或应用软件中存在的安全缺陷实施的.研究新形势下的软件安全问题日益迫切.从恶意软件、软件漏洞和软件安全机制这3个方面综述了国内外研究现状,进而分析软件生态系统面临的全新安全挑战与发展趋势.
    2018,29(1):89-108, DOI: 10.13328/j.cnki.jos.005319
    [摘要] (4723) [HTML] (108) [PDF 2081803] (3625)
    摘要:
    孪生支持向量机因其简单的模型、快速的训练速度和优秀的性能而受到广泛关注.该算法最初是为解决二分类问题而提出的,不能直接用于解决现实生活中普遍存在的多分类问题.近年来,学者们致力于将二分类孪生支持向量机扩展为多分类方法,并提出了多种多分类孪生支持向量机.多分类孪生支持向量机的研究已经取得了一定的进展.主要工作是回顾多分类孪生支持向量机的发展,对多分类孪生支持向量机进行合理归类,分析各个类型的多分类孪生支持向量机的理论和几何意义.以多分类孪生支持向量机的子分类器组织结构为依据,将多分类孪生支持向量机分为:基于"一对多"策略的多分类孪生支持向量机、基于"一对一"策略的多分类孪生支持向量机、基于"一对一对余"策略的多分类孪生支持向量机、基于二叉树结构的多分类孪生支持向量机和基于"多对一"策略的多分类孪生支持向量机.基于有向无环图的多分类孪生支持向量机训练过程与基于"一对一"策略的多分类孪生支持向量机类似,但其决策方式有其特殊的优缺点,因此将其也独立为一类.分析和总结了这6种类型的多分类孪生支持向量机的算法思想、理论基础.此外,还通过实验对比了分类性能.为各种多分类孪生支持向量机之间建立了联系比较,使得初学者能够快速理解不同多分类孪生支持向量机之间的本质区别,也对实际应用中选取合适的多分类孪生支持向量机起到一定的指导作用.
    2018,29(1):176-195, DOI: 10.13328/j.cnki.jos.005318
    [摘要] (4821) [HTML] (136) [PDF 2303757] (3788)
    摘要:
    当前,互联网是基于目的地址转发,对源地址不作验证.而互联网很多安全问题的根源在于源地址的不可信.另一方面,随着互联网规模和复杂度的增大以及对政治、经济利益影响的加深,域间路由系统对互联网的稳定运行起着愈发关键的作用.美国国土安全部将域间路由安全问题列入了美国信息安全的国家战略.近年来,以IP源地址伪造为主要方式的分布式拒绝服务攻击不断地对互联网的安全性和可用性造成极大的破坏,这其中,以跨越多个管理域和国家的攻击最为频繁.因此,建立以自治域为单位的源地址验证防御体系,对互联网的安全意义重大.尽管在相关的标准和研究领域已经提出了多种域间源地址验证技术,但是目前仍未有适用于大规模部署的技术方案.对域间源地址验证的已有研究和标准进展进行了细致的梳理.首先,分析了源地址安全性缺失的原因及后果,结合国际标准化领域的研究现状,指出了域间源地址验证的重要意义;其次,从域间源地址验证技术的特征类别入手,对已有各类研究成果的技术原理和优缺点进行了深入的总结,对研究的演进脉络进行了详细的分析,并在此基础上提出了目前域间源地址验证技术面临的困境及原因;最后,提出了域间源地址验证技术未来可能的研究发展方向及设计原则建议,为后续相关研究工作的开展提供了参考.
    2018,29(1):160-175, DOI: 10.13328/j.cnki.jos.005316
    [摘要] (5118) [HTML] (98) [PDF 1873704] (4151)
    摘要:
    软件定义网络(software-defined networking,简称SDN)遵循控制转发分离的设计原则,其控制平面采用集中的控制逻辑,在提供灵活、高效的网络控制的同时,也面临着严重的可扩展性问题.对SDN控制平面可扩展性相关工作进行了综述.首先,分析了控制平面可扩展性的影响因素并给出改善思路.在此基础上,从数据平面缓存优化、高性能控制器、分布式控制平面和控制资源优化分配4种技术路线出发,论述了主要的解决方案和研究进展.最后给出总结,并展望了未来的研究工作.
    2017,28(9):2402-2430, DOI: 10.13328/j.cnki.jos.005306
    [摘要] (3764) [HTML] (167) [PDF 5106922] (3313)
    摘要:
    软件可靠性增长模型SRGM (software reliability and growth model)是目前建模可靠性及其过程提高的重要数学工具,对可靠性的评测、保证以及测试资源管控和最优发布研究具有重要作用.对SRGM的核心研究内容与建模流程进行分析,给出了SRGM基本功用.同时,梳理了SRGM的发展演变历程,进而对当前研究现状进行深入剖析,给出当前研究特征.从软件中总的故障个数、故障检测率FDR (fault detection rate)和测试工作量TE (testing-effort)这3个方面对影响SRGM的因素进行了分析.基于作者前期研究中提出的统一性框架模型,对当前典型的解析模型进行了分类比较和分析;对基于有限与无限服务队列模型的SRGM进行分析与讨论;对以率驱动事件过程RDEP (rate-driven event processes)为重点的仿真方法进行剖析.进一步地,为了验证与分析不同模型的差异,对26个典型的模型在公开发表的16个数据集上进行了实验.结果表明,SRGM的性能差异取决于失效数据集的客观性以及研究人员对测试过程进行不同假设下所建立的数学模型的主观性.最后,指出了SRGM面临的挑战、发展趋势和亟待解决的问题.
    2017,28(9):2502-2523, DOI: 10.13328/j.cnki.jos.005305
    [摘要] (2936) [HTML] (130) [PDF 2488930] (2963)
    摘要:
    本构模型是形变体仿真中最重要的因素之一,现有的基本本构模型的应力应变关系具有一定的局限性,形变行为比较单一.近年来,很多研究工作探讨如何设计更加复杂并满足设计师需求的材质模型.将材质模型分为3类:传统的具有单一材质属性的均质材质、具有复合结构的非均质材质以及根据基本材质模型通过编辑材质参数和结构以及编辑形变行为的材质模型.此外,梳理了近年来材质本构模型方面的研究成果,分类总结了相关技术及其优缺点,最后,讨论并指出形变体仿真中,本构模型应用与设计领域主要的技术挑战和需要进一步探索的方向.
    2017,28(9):2431-2449, DOI: 10.13328/j.cnki.jos.005301
    [摘要] (4936) [HTML] (77) [PDF 1787021] (10240)
    摘要:
    自动关键词抽取是从文本或文本集合中自动抽取主题性或重要性的词或短语,是文本检索、文本摘要等许多文本挖掘任务的基础性和必要性的工作.探讨了关键词和自动关键词抽取的内涵,从语言学、认知科学、复杂性科学、心理学和社会科学等多个方面研究了自动关键词抽取的理论基础.从宏观、中观和微观角度,回顾和分析了自动关键词抽取的发展、技术和方法.针对目前广泛应用的自动关键词抽取方法,包括统计法、基于主题的方法、基于网络图的方法等,总结了其关键技术和研究进展.对自动关键词抽取的评价方式进行了分析,对自动关键词抽取面临的挑战和研究趋势进行了预测.
    2017,28(8):2010-2025, DOI: 10.13328/j.cnki.jos.005272
    [摘要] (4153) [HTML] (89) [PDF 1508843] (3044)
    摘要:
    自20世纪60年代以来,虽然有Floyd-Hoare逻辑的出现,但使用形式化工具对命令式程序的正确性和可靠性进行自动验证,一直被认为是极具挑战性、神圣不可及的工作.20世纪末,由于更多科研的投入,特别是微软、IBM等大型公司研发部门的大量人力、物力的投入,程序验证方面在21世纪初取得了不少进展,例如用于验证空客代码无运行时错误的ASTRÉE工具、用于Windows设备驱动里关于过程调用的协议验证的SLAM工具.但这些工具并没有考虑动态创建的堆(heap):ASTRÉE工具假设待验证代码没有动态创建的堆,也没有递归;SLAM假设待验证系统已经有了内存安全性.事实上,很多重要的程序,例如Linux内核、Apache、操作系统设备驱动程序等,都涉及到对动态创建堆的操作.如何对这类操作堆的程序(heap-manipulating programs)进行自动验证仍然是一个难题.2001年~2002年,分离逻辑(separation logic)提出后,其分离(separation)思想和相应的框(frame)规则使得局部推理(local reasoning)可以很好地应用到程序验证中.自2004年以来,基于分离逻辑对操作动态创建堆的程序进行自动验证方面的研究有了很大的进展,取得了很多令人瞩目的成果,例如SpaceInvader/Abductor,Slayer,HIP/SLEEK,CSL等工作.着重对这方面的部分重要工作进行阐述.
    2017,28(8):2026-2045, DOI: 10.13328/j.cnki.jos.005270
    [摘要] (3872) [HTML] (109) [PDF 2177838] (3947)
    摘要:
    在当前的计算机系统架构和软件生态环境下,ROP(return-oriented programming)等基于二进制代码重用的攻击技术被广泛用于内存漏洞利用.近年来,网络空间安全形势愈加严峻,学术界、工业界分别从攻击和防护的角度对二进制代码重用技术开展了大量研究.首先介绍了二进制代码重用技术的基础.然后分析了二进制代码重用攻击技术的演变和典型攻击向量.同时,对基于控制流完整性和随机化的防护方法进行了讨论,对工业界最新的二进制代码重用防护机制CET(control-flow enforcement technology)和CFG(control flow guard)进行了剖析.最后讨论了二进制代码重用技术今后的发展方向,包括潜在的攻击面和防御机制增强的思路.
    2017,28(6):1547-1564, DOI: 10.13328/j.cnki.jos.005260
    [摘要] (4541) [HTML] (168) [PDF 2033089] (8025)
    摘要:
    近年来,随着压缩感知技术在信号处理领域的巨大成功,由其衍生而来的矩阵补全技术也日益成为机器学习领域的研究热点,诸多研究者针对矩阵补全问题展开了大量卓有成效的研究.为了更好地把握矩阵补全技术的发展规律,促进矩阵补全理论与工程应用相结合,针对矩阵补全模型及其算法进行了综述.首先,对矩阵补全技术进行溯源,介绍了从压缩感知到矩阵补全的自然演化历程,指出压缩感知理论的发展为矩阵补全理论的形成奠定了基础;其次,从非凸非光滑秩函数松弛的角度将现有矩阵补全模型进行分类,旨在为面向具体应用的矩阵补全问题建模提供思路;然后综述了适用于矩阵补全模型求解的代表性优化算法,其目的在于从本质上理解各种矩阵补全模型优化技巧,从而有利于面向应用问题的矩阵补全新模型求解;最后分析了矩阵补全模型及其算法目前存在的问题,提出了可能的解决思路,并对未来的研究方向进行了展望.
    2017,28(6):1529-1546, DOI: 10.13328/j.cnki.jos.005259
    [摘要] (4822) [HTML] (95) [PDF 2055575] (5708)
    摘要:
    约束优化进化算法主要研究如何利用进化计算方法求解约束优化问题,是进化计算领城的一个重要研究课题.约束优化问题求解存在约束区域离散、等式约束、非线性约束等挑战,其问题的本质是,如何处理可行解与不可行解的关系才能使得算法更高效.首先介绍了约束优化问题的定义;然后,系统地分析了目前存在的约束优化方法;同时,基于约束处理机制,将这些方法分为罚函数法、可行性法则、随机排序法、ε-约束处理法、多目标优化法、混合法等6类,并从约束处理方法的角度对约束优化进化算法的最新研究进展进行综述;最后,指出约束优化进化算法需进一步研究的方向与关键问题.
    2017,28(6):1584-1605, DOI: 10.13328/j.cnki.jos.005256
    [摘要] (5212) [HTML] (87) [PDF 2875602] (7058)
    摘要:
    与传统的以网页页面集合的方式呈现搜索结果不同,实体搜索的结果是实体或实体集合,其优点是无需用户在纷杂的网页里面进行二次查找,更能提升用户的搜索体验.实体搜索的任务可以分为相关实体搜索和相似实体搜索.对近年来这两类任务的实体搜索技术进行综述.首先给出了实体搜索的形式化定义,并介绍了常用的评测指标;然后,对两种不同形式的实体搜索任务在两类数据源(非结构化数据集和结构化数据集)上的主要研究方法进行了详细的阐述和对比;最后,对未来的研究内容和发展方向进行了探讨和展望.
    2017,28(6):1606-1628, DOI: 10.13328/j.cnki.jos.005254
    [摘要] (4796) [HTML] (82) [PDF 2577763] (3441)
    摘要:
    随着基于定位服务(loaction-based service,简称LBS)在移动设备上的广泛应用,移动对象在路网中的查询成为时空数据检索领域的一个研究热点.从索引结构、查询方法和隐私保护这3个层面对基于路网的移动对象查询技术进行了分类讨论.索引结构分为分层索引、分布式索引和广播索引,并对3种索引进行对比和分析;查询方法分为单对象连续查询、多对象并行查询、最短路径查询和路网关键字查询,并归纳了每种查询的解决策略;此外,阐述了路网移动对象查询中采用的隐私安全保护措施;最后,分析了未来路网移动对象查询研究所面临的挑战.
    2017,28(6):1565-1583, DOI: 10.13328/j.cnki.jos.005249
    [摘要] (4809) [HTML] (107) [PDF 2862750] (3358)
    摘要:
    现阶段大多数社会网络的研究都集中于单一的社会网络内部.社会网络融合为社会计算等各项研究提供更充分的用户行为数据和更完整的网络结构,从而更有利于人们通过社会网络理解和挖掘人类社会,具有重要的理论价值和实践意义.准确、全面、快速地关联用户挖掘,是大型社会网络融合的根本问题.社会网络中的关联用户挖掘旨在通过挖掘不同社会网络中同属于同一自然人的不同账号,从而实现社会网络的深度融合,近年来已引起人们的广泛关注.然而,社会网络的自身数据量大、用户属性相似、稀疏且存在虚假和不一致等特点,给关联用户挖掘带来了极大的挑战.分析了面向社会网络融合的关联用户挖掘所存在的困难,从用户属性、用户关系及其综合这3个方面梳理了当前关联用户挖掘的研究现状.最后,总结并展望了关联用户挖掘的研究方向.
    2017,28(1):17-34, DOI: 10.13328/j.cnki.jos.005151
    [摘要] (6908) [HTML] (96) [PDF 2115584] (10558)
    摘要:
    定位技术与普适计算的蓬勃发展催生了轨迹大数据,轨迹大数据表现为定位设备所产生的大规模高速数据流.及时、有效地对以数据流形式出现的轨迹大数据进行分析处理,可以发现隐含在轨迹数据中的异常现象,从而服务于城市规划、交通管理、安全管控等应用.受限于轨迹大数据固有的不确定性、无限性、时变进化性、稀疏性和偏态分布性等特征,传统的异常检测技术不能直接应用于轨迹大数据的异常检测.由于静态轨迹数据集的异常检测方法通常假定数据分布先验已知,忽视了轨迹数据的时间特征,也不能评测轨迹大数据中动态演化的异常行为.面对轨迹大数据低劣的数据质量和快速的数据更新,需要利用有限的系统资源处理因时变带来的概念漂移,实时地检测多样化的轨迹异常,分析轨迹异常间的因果联系,继而识别更大时空区域内进化的、关联的轨迹异常,这是轨迹大数据异常检测的核心研究内容.此外,融合与位置服务应用相关的多源异质数据,剖析异常轨迹的起因以及其隐含的异常事件,也是轨迹大数据异常检测当下亟待研究的问题.为解决上述问题,对轨迹异常检测技术的研究成果进行了分类总结.针对现有轨迹异常检测方法的局限性,提出了轨迹大数据异常检测的系统架构.最后,在面向轨迹流的在线异常检测、轨迹异常的演化分析、轨迹异常检测系统的基准评测、异常检测结果语义分析的数据融合以及轨迹异常检测的可视化技术等方面探讨了今后的研究工作.
    2017,28(1):59-83, DOI: 10.13328/j.cnki.jos.005141
    [摘要] (4983) [HTML] (151) [PDF 2867504] (8643)
    摘要:
    为适应底层存储架构的变化,上层数据库系统已经经历了多轮的演化与变革.在大数据环境下,以非易失、大容量、低延迟、按字节寻址等为特征的新型非易失存储器件(NVM)的出现,势必对数据库系统带来重大影响,相关的存储与事务处理技术是其中值得关注的重要环节.首先,概述了事务型数据库系统随存储环境发展的历史与趋势;然后,对影响上层数据管理系统设计的非易失性存储技术以及面向大数据应用领域与硬件环境优化的事务技术进行综述与分析;最后,对非易失存储环境下事务型数据库面临的挑战与研究趋势进行了展望.
    2017,28(1):35-58, DOI: 10.13328/j.cnki.jos.005140
    [摘要] (7344) [HTML] (97) [PDF 3009901] (7398)
    摘要:
    近年来,众包为传统数据管理提供了一种通过汇聚群体智慧求解问题的新模式,并成为当前数据库领域的研究热点之一.特别是随着移动互联网技术与共享经济模式的快速发展,众包技术已融入到各类具有时空数据的应用场景中,例如各类O2O(online-to-offline)应用、实时交通监控与动态物流管理等.简言之,这种应用众包技术处理时空数据的方式称为时空众包数据管理.对近期在时空众包数据管理方面的研究工作进行综述,首先阐述了时空众包的概念,解释了其与传统众包技术的关系,并介绍了各类典型的时空众包应用;随后描述了时空众包应用平台的工作流程及其任务特点;然后讨论了时空众包数据管理的3项核心研究问题和3类应用技术;最后,总结了时空众包数据管理技术的研究现状并展望了其未来潜在的研究方向,为相关研究人员提供了有价值的参考.
    2017,28(1):1-16, DOI: 10.13328/j.cnki.jos.005139
    [摘要] (11654) [HTML] (100) [PDF 1832820] (5716)
    摘要:
    背包问题(knapsack problem,简称KP)是一类著名的组合优化问题,也是一类NP难问题,它包括0-1背包问题、有界背包问题、多维背包问题、多背包问题、多选择背包问题、二次背包问题、动态背包问题和折扣背包问题等多种形式,在众多领域有着广泛的应用.演化算法(EAs)是一类有效的快速近似求解KP的算法.对近10余年来利用EAs求解KP的研究情况进行了较为详细的总结,一方面讨论了利用EAs求解各种KP问题时个体的编码方法与处理不可行解的有效方法,另一方面,为今后进一步利用最新提出的EAs求解KP问题提供了一条可借鉴的思路.
    2017,28(1):160-183, DOI: 10.13328/j.cnki.jos.005136
    [摘要] (7710) [HTML] (197) [PDF 3271071] (12698)
    摘要:
    图像分割是指将图像分成若干具有相似性质的区域的过程,是许多图像处理任务的预处理步骤.近年来,国内外学者主要研究基于图像内容的分割算法.在广泛调研大量文献和最新成果的基础上,将图像分割算法分为基于图论的方法、基于像素聚类的方法和语义分割方法这3种类型并分别加以介绍.对每类方法所包含的典型算法,尤其是最近几年利用深度网络技术的语义图像分割方法的基本思想、优缺点进行了分析、对比和总结.介绍了图像分割常用的基准数据集和算法评价标准,并用实验对各种图像分割算法进行对比.最后进行总结,并对未来可能的发展趋势加以展望.
    2017,28(1):135-159, DOI: 10.13328/j.cnki.jos.005131
    [摘要] (5691) [HTML] (158) [PDF 2829643] (4085)
    摘要:
    信息流控制能够保证数据与隐私端到端安全,一直是信息安全领域研究的重点和难点.为介绍信息流控制相关的研究现状和进展,首先,从基于格、安全类型系统、安全进程代数和自动机这4个方面介绍了信息流控制的基本理论与模型;其次,从计算机层次结构由下而上出发,综述了基于硬件、操作系统、虚拟机、高级语言、低级语言、数据库和网络的信息流控制实现方法,并对比了各类研究的特点;然后,结合当今时代前沿技术,分析了信息流控制在云计算、移动互联、大数据和物联网等新技术下的应用;最后,总结了当前信息流控制相关研究中存在的问题,并针对今后该领域的研究趋势进行了展望,对下一步研究工作有一定的参考价值.
    2017,28(1):105-134, DOI: 10.13328/j.cnki.jos.005127
    [摘要] (5449) [HTML] (114) [PDF 3822804] (5733)
    摘要:
    网络性能测量是网络测量领域的核心分支,是指遵照一定的方法和技术,利用软、硬件工具来测试、验证及表征网络性能指标的一系列活动总和,是量化网络性能指标、理解和认识网络行为最基本和最有效的手段,在网络建模、网络安全、网络管理和优化等诸多领域均有广泛应用,是计算机网络领域持续的研究热点之一.介绍了该领域的研究现状与进展,重点讨论了带宽、丢包和时延测量等方面的代表性算法,从算法的基本思想、关键技术、实现机理入手,剖析了突发性背景流的时间不确性和多跳网络路径下的空间不确定性对带宽测量的影响、丢包测量中应用流丢包与探测流丢包的区别与联系、时延测量中时钟偏差与时钟频差的相互作用关系等问题,并在此基础上对网络性能测量面临的挑战、发展趋势和进一步研究的方向进行了讨论.
    2017,28(1):84-104, DOI: 10.13328/j.cnki.jos.005115
    [摘要] (5882) [HTML] (100) [PDF 2607975] (7589)
    摘要:
    社会网络节点影响力研究是社会网络分析的关键问题之一.过去的10多年间,随着在线社会网络的快速发展,研究人员有机会在大量现实社会网络上对影响力进行分析和建模,并取得了丰硕的研究成果和广泛的应用价值.分析和总结了近年来社会网络影响力分析的主要成果.首先介绍了节点影响力的相关定义、作用范围以及表现形式;接着,重点分类介绍了节点影响力的度量方法,通过网络拓扑、用户行为和内容分析这3类方法总结了影响力的建模和度量方法;然后总结了影响力的传播和最大化模型相关成果;最后介绍了影响力的评价指标和应用.根据对现有方法的系统总结,对社会网络影响力的未来研究提出了一些值得关注的方向.
    2016,27(9):2230-2247, DOI: 10.13328/j.cnki.jos.005068
    [摘要] (5912) [HTML] (124) [PDF 3038486] (7946)
    摘要:
    自组织增量学习神经网络SOINN(self-organizing incremental neural network)是一种基于竞争学习的两层神经网络,用于在没有先验知识的情况下对动态输入数据进行在线聚类和拓扑表示,同时,对噪音数据具有较强的鲁棒性.SOINN的增量性,使得它能够发现数据流中出现的新模式并进行学习,同时不影响之前学习的结果.因此,SOINN能够作为一种通用的学习算法应用于各类非监督学习问题中.对SOINN的模型和算法进行相应的调整,可以使其适用于监督学习、联想记忆、基于模式的推理、流形学习等多种学习场景中.SOINN已经在许多领域得到了应用,包括机器人智能、计算机视觉、专家系统、异常检测等.
    2016,27(8):2147-2167, DOI: 10.13328/j.cnki.jos.005103
    [摘要] (6207) [HTML] (193) [PDF 507367] (8111)
    摘要:
    在大数据时代,如何高效地处理海量数据以满足性能需求,是一个需要解决的重要问题.内存计算充分利用大容量内存进行数据处理,减少甚至避免I/O操作,因而极大地提高了海量数据处理的性能,同时也面临一系列有待解决的问题.首先,在分析内存计算技术特点的基础上对其进行了分类,并分别介绍了各类技术及系统的原理、研究现状及热点问题;其次,对内存计算的典型应用进行了分析;最后,从总体层面和应用层面对内存计算面临的挑战予以分析,并且对其发展前景做了展望.
    2016,27(8):2048-2067, DOI: 10.13328/j.cnki.jos.005060
    [摘要] (4612) [HTML] (103) [PDF 887281] (3561)
    摘要:
    近年来,随着数据量的不断增大,数据密集型计算任务变得日益繁重.如何能够快速、高效地实现在大规模数据集上的计算,已成为数据密集型计算的主要研究方向.最近几年,研究人员利用新型的硬件处理器对数据密集型计算进行加速处理,并针对不同新型处理器的特点,设计了不同形式的加速处理算法.主要对新型硬件处理器基于数据密集型计算的研究进行了综述.首先概述了新型硬件处理器的特点;然后,分别对新型处理器FPGA和GPU等硬件进行性能分析,并分析了每种处理器对数据密集型计算的效果;最后提出了进一步的研究方向.
    2016,27(8):2025-2047, DOI: 10.13328/j.cnki.jos.005049
    [摘要] (6298) [HTML] (89) [PDF 1474576] (10009)
    摘要:
    近年来,作为一种新的感知环境、收集数据和提供信息服务的模式,群智感知逐渐成为当前的研究热点之一.激励机制是群智感知研究中的一个重要问题,即通过设计合理的激励方式来激励足够多的参与者参与感知任务,并提供高质可靠的感知数据.对近年来在群智感知激励机制方面的研究工作进行综述,首先概述群智感知和群智感知激励机制;然后从关键技术入手,介绍4类主要激励方式和6类核心研究问题;最后,对现有工作进行对比分析,总结研究挑战,并指出未来发展方向,为相关研究人员提供有价值的参考.
    2016,27(8):1934-1947, DOI: 10.13328/j.cnki.jos.004936
    [摘要] (7729) [HTML] (108) [PDF 1019262] (6763)
    摘要:
    规范和充分的日志是良好代码质量的必要因素,也是软件故障诊断的重要手段.然而,代码的质量管理受限于大规模软件代码的高复杂程度,目前,利用日志信息进行软件故障重现和诊断的难度大、效率低.从日志特征分析、基于日志的故障诊断、日志的增强这3个方面综述了日志研究的现状.通过对几种常用的大规模开源软件的日志进行调研,发现了一些日志相关的特征和规律以及现有工具难以解决的问题.最后,对未来的研究工作进行了展望,并分析了可能面对的挑战.
    2016,27(4):993-1008, DOI: 10.13328/j.cnki.jos.005028
    [摘要] (5602) [HTML] (105) [PDF 1898124] (3820)
    摘要:
    软件定义网络(software defined networking,简称SDN)的产生使得网络中的数据平面与控制平面相分离,网络中的控制逻辑集中于控制器上,运行于控制器上的网络应用使得网络变得更加简单可控和灵活.软件定义网络中的北向接口是指控制器与网络应用之间进行通信的接口.在软件定义网络应用研究与开发的过程中,北向接口占据着一个重要的地位.综述了SDN中北向接口的编程语言,首先介绍北向接口编程语言的研究背景,然后根据编程语言的抽象程度、编程模型、实现机制以及是否引入新功能这4个方面将编程语言分类,详细介绍每个类别下各种北向接口语言的结构和核心特性,最后结合语言的应用场景对编程语言进行横向比较,进而展望了北向接口编程语言未来的研究方向.
    2016,27(4):955-968, DOI: 10.13328/j.cnki.jos.005024
    [摘要] (5965) [HTML] (82) [PDF 1825726] (5147)
    摘要:
    安全攸关软件的可信性关乎生命安全和财产保全,因此,分析评价软件可信性是否符合用户的预期(即软件可信评估)至关重要.软件可信评估从主观和客观两个方面度量软件的质量,对软件生产和应用有着重要的意义.综述了可信评估管理中涉及到的标准、模型和工具,而非关注软件度量本身.首先分析对比了软件可信性、可信评估的定义,并在研究了与可信性密切相关的软件质量的联系与区别之后,从相关国际标准、评估涉及的模型(包括质量属性模型、证据模型、分级规范等)以及软件工具支持等方面综述了软件可信评估研究工作.并且区分了这些方面中领域相关、领域无关的不同之处.目前软件可信评估已取得了一定的理论成果,并开发了若干工具辅助进行可信评估,但仍需在通用性、可伸缩性等方面有所加强.
    2016,27(4):1026-1041, DOI: 10.13328/j.cnki.jos.005022
    [摘要] (5861) [HTML] (92) [PDF 1893907] (4450)
    摘要:
    云计算引领了计算机科学的一场重大变革,但与此同时,也不可避免地带来了日益凸显的能源消耗问题,因此,云计算能耗管理成为近几年的研究热点.云计算系统的能耗测量和管理直接关系到云计算的可持续发展,能耗数据不仅关系到能耗模型的建立,而且也是检验云计算资源调度算法的基础.为此,在广泛研究现有能耗测量方法的基础上,归纳总结了当前云计算环境的4种能耗测量方法:基于软件或硬件的直接测量方法、基于能耗模型的估算方法、基于虚拟化技术的能耗测量方法、基于仿真的能耗评估方法,并分析和比较了它们的优势、缺陷和适用环境.在此基础上,指出了云计算能耗管理的未来重要研究趋势:智能主机电源模块、面向不同类型应用的能耗模型、混合任务负载的能耗模型、可动态管理的高效云仿真工具、动态异构分布式集群的能耗管理、面向大数据分析处理和任务调度的节能方法以及新能源供电环境下的节能规划,为云计算节能领域的研究指明了方向.
    2016,27(4):1009-1025, DOI: 10.13328/j.cnki.jos.005021
    [摘要] (5779) [HTML] (78) [PDF 2103100] (4417)
    摘要:
    随着计算机硬件技术的发展,如今我们已经迈入了多核CPU时代.然而,作为软件核心的数据结构仍然是按照单核CPU和顺序型准则来设计的.在基于共享内存的多核时代,大量并发运行的线程会交替地修改数据,产生不可预期的结果,因而我们面临着严峻挑战.针对基于共享内存多核时代数据结构的相关研究进行综述.首先,对比了并发与并行的区别,归纳了基于演进条件(progress condition)的多核数据结构分类,对近年来学术界对各种类型并发数据结构的研究进行综述.在此基础上,剖析了并发数据结构设计和实现的关键技术,并从并发数据结构的开发流程、正确性验证等方面进行了归纳阐述.最后,基于这些讨论,对多核架构下并发数据结构未来的研究趋势和应用前景进行了展望.
    2016,27(4):969-992, DOI: 10.13328/j.cnki.jos.005020
    [摘要] (9182) [HTML] (96) [PDF 3492012] (7834)
    摘要:
    软件定义网络(software defined networking,简称SDN)初步实现了网络控制面与数据面分离的思想,然而在提供高度开放性和可编程性的同时,网络自身也面临着诸多安全问题,从而限制了SDN在很多场景下的大规模部署和应用.首先对SDN的架构和安全模型进行分析;其次,从"SDN特有/非特有的典型安全问题"和"SDN各层/接口面临的安全威胁"两方面,对SDN中存在的典型安全威胁和安全问题进行分析和归纳;随后从6个方面对现有SDN安全问题的主要解决思路及其最新研究进展分别进行探讨,包括SDN安全控制器的开发、控制器可组合安全模块库的开发和部署、控制器DoS/DDoS攻击防御方法、流规则的合法性和一致性检测、北向接口的安全性和应用程序安全性;最后对SDN安全方面的标准化工作进行了简要分析,并对SDN安全方面未来的研究趋势进行了展望.
    2016,27(3):691-713, DOI: 10.13328/j.cnki.jos.004948
    [摘要] (8258) [HTML] (85) [PDF 2547383] (13531)
    摘要:
    排序学习技术尝试用机器学习的方法解决排序问题,已被深入研究并广泛应用于不同的领域,如信息检索、文本挖掘、个性化推荐、生物医学等.将排序学习融入推荐算法中,研究如何整合大量用户和物品的特征,构建更加贴合用户偏好需求的用户模型,以提高推荐算法的性能和用户满意度,成为基于排序学习推荐算法的主要任务.对近些年基于排序学习的推荐算法研究进展进行综述,并对其问题定义、关键技术、效用评价、应用进展等进行概括、比较和分析.最后,对基于排序学习的推荐算法的未来发展趋势进行探讨和展望.
    2016,27(3):736-759, DOI: 10.13328/j.cnki.jos.004947
    [摘要] (5792) [HTML] (89) [PDF 2732369] (3072)
    摘要:
    互联网的飞速发展,也使网络能耗急剧增长.但目前网络设备能效低下,未实现能耗比例计算的理念.而网络却为峰值负载而设计,在众多时间处于低负载,存在巨大的节能契机.首先介绍网络设备的能耗模型,继而从两方面阐述网络能耗优化的理论与技术:一方面,在假设网络总流量无法改变的前提下,为网络设备增加能源和性能状态,并优化本地控制策略,从而使单个网络设备实现能耗比例计算,或者在不提高现有网络设备能效的前提下,通过网络范围的协同和流量工程,使网络整体实现能耗比例计算的理念;另一方面,为网络提供缓存能力可以降低或缓解网络流量,从而减少网络的传输能耗或缓解其增长速度,智能的缓存部署、内容存储和请求路由能够进一步优化网络的能耗.在上述基础上,比较了各种技术的优劣,并分析了未来的研究方向.
    2016,27(3):760-767, DOI: 10.13328/j.cnki.jos.004922
    [摘要] (5802) [HTML] (87) [PDF 971523] (4222)
    摘要:
    对公钥密码体制的密码分析历史的形成,给出一些重要结果的描述和重要文献的历史发展线索,同时对2010年~2014年有限域和椭圆曲线的离散对数问题的突破性进展给予了简单介绍.自公钥密码学1976年诞生以来,公钥密码体制的密码分析已经发展成为非常庞大的多学科交叉研究领域,希望可以给同行和学习密码学的研究生进入该领域起到帮助作用.
    2016,27(2):247-263, DOI: 10.13328/j.cnki.jos.004944
    [摘要] (6605) [HTML] (97) [PDF 720828] (9610)
    摘要:
    微博已经逐渐成为人们获取信息、分享信息的重要社会媒体,深刻影响并改变了信息的传播方式.针对微博信息传播预测问题展开综述.该研究对舆情监控、微博营销、个性化推荐具有重要意义.首先概述微博信息传播过程,通过介绍微博信息传播的定性研究工作,揭示微博信息传播的特点;接着,从以信息为中心、以用户为中心以及以信息和用户为中心这3个角度介绍微博信息传播预测相关研究工作,对应的主要研究任务分别是微博信息流行度预测、用户传播行为预测和微博信息传播路径预测;继而介绍可用于微博信息传播预测研究的公开数据资源;最后,展望微博信息传播预测研究的问题与挑战.
    2016,27(2):195-208, DOI: 10.13328/j.cnki.jos.004939
    [摘要] (5376) [HTML] (106) [PDF 944339] (3575)
    摘要:
    偶图是由Robin Milner在2001年提出的一种基于图形的形式化理论模型,试图为普适计算提供一个设计、模拟和分析的平台以及为现有的进程代数提供一个统一的可扩展的框架.介绍了偶图的基本概念,揭示了偶图的数学基础——预范畴、范畴、s-范畴、对称偏幺半范畴之间的关系,对偶图的代数系统进行总结,简化了偶图的离散范式的表述形式,并给予证明.综述了偶图的发展及其应用概况.对偶图范畴的定义、商变换等基本理论中存在的一些问题提出讨论,指出偶图范畴应该属于小范畴而不是大范畴,并给出商变换得出的大范畴转换为小范畴的方法.最后简述了偶图模型的扩展、应用的拓广.
    2016,27(2):394-417, DOI: 10.13328/j.cnki.jos.004935
    [摘要] (6934) [HTML] (94) [PDF 1375802] (7643)
    摘要:
    作为一种新型网络架构,软件定义网络(software defined network,简称SDN)将网络的数据层和控制层分离,通过集中化控制和提供开放控制接口,简化网络管理,支持网络服务的动态应用程序控制.流量工程通过对网络流量的分析、预测和管理,实现网络性能的优化.在SDN中开展流量工程,可以为网络测量和管理提供实时集中的网络视图,灵活、抽象的控制方式以及高效、可扩展的维护策略,具有突出的研究意义.对基于SDN的流量工程相关工作进行综述.分别从测量的方法、应用和部署角度出发,对SDN中流量测量的基本框架、基于测量的正确态检测以及测量资源的管理进行概述.分析传统网络流量调度方案的问题,介绍SDN中数据流量和控制流量调度的主要方法.从数据层和控制层两个方面概述SDN中故障恢复方法.最后,总结并展望未来工作.
    2016,27(2):329-347, DOI: 10.13328/j.cnki.jos.004934
    [摘要] (6878) [HTML] (84) [PDF 890671] (5941)
    摘要:
    由于越来越多的数据具有位置和文本双重属性,空间关键词查询(spatial keyword query,简称SKQ)