2022年第33卷第12期文章目次

2022, 33(12):4411-4428. DOI: 10.13328/j.cnki.jos.006346

摘要 (1947) HTML (3852) PDF 3.06 M (3448) 评论 (0) 收藏

摘要:对于许多实际应用来说，获取多个不同窗口尺度上的模式，有助于发现时间序列的不同规律性特征.同时，通过对时间序列时域和频域两方面的分析，有助于挖掘更多的知识.提出了一种新的基于可变尺度的时域频域辨别性特征挖掘方法以及应用于分类的算法.主要采用了不同尺度窗口、符号聚合近似技术以及符号傅里叶近似技术等，以有效地发掘时间序列不同尺度时域频域模式；与此同时，使用统计学方法挖掘部分最具辨别性的特征用于时间序列分类，有效地降低了算法时间复杂度.在多个数据集上的对比实验结果，说明了该算法具有较高的准确率；在真实数据集上的解析，表明了该算法具有更强的可解释性.同时，该算法可扩展应用到多维时间序列分类问题中.

数据密集作业在GPU集群上的调度算法研究

汤小春，朱紫钰，毛安琪，符莹，李战怀

2022, 33(12):4429-4451. DOI: 10.13328/j.cnki.jos.006362

摘要 (2020) HTML (3699) PDF 2.44 M (4710) 评论 (0) 收藏

摘要:数据密集型作业包含大量的任务，使用GPU设备来提高任务的性能是目前的主要手段.但是，在解决数据密集型作业之间的GPU资源公平共享以及降低任务所需数据在网络间的传输代价方面，现有的研究方法没有综合考虑资源公平与数据传输代价的矛盾.分析了GPU集群资源调度的特点，提出了一种基于最小代价最大任务数的GPU集群资源调度算法，解决了GPU资源的公平分配与数据传输代价较高的矛盾.将调度过程分为两个阶段：第1阶段为各个作业按照数据传输代价给出自己的最优方案；第2阶段为资源分配器合并各个作业的方案，按照公平性给出全局的最优方案.首先，给出了GPU集群资源调度框架的总体结构，各个作业给出自己的最优方案，资源分配进行全局优化；第二，给出了网络带宽估计策略以及计算任务的数据传输代价的方法；第三，给出了基于GPU数量的资源公平分配的基本算法；第四，提出了最小代价最大任务数的资源调度算法，描述了资源非抢夺、抢夺以及不考虑资源公平策略的实现策略；最后，设计了6种数据密集型计算作业，对所提出的算法进行了实验.通过实验验证，最小代价最大任务数的资源调度算法对于资源公平性能够达到90%左右，同时亦能保证作业并行运行时间最小.

SW26010处理器上的并行结构化稀疏三角方程组求解器

陈道琨，刘芳芳，杨超

2022, 33(12):4452-4463. DOI: 10.13328/j.cnki.jos.006381

摘要 (1001) HTML (2757) PDF 3.18 M (2677) 评论 (0) 收藏

摘要:稀疏三角线性方程组求解（SpTRSV）在科学与工程计算领域是比较重要的核心计算函数，其中基于结构化网格构造的线性方程组是SpTRSV求解器经常遇到的一类问题.在国产神威×太湖之光超级计算机所配备的SW26010处理器上，SpTRSV求解器通常需要结合该平台的架构特点，通过搭建一定的数据路由体系来满足各工作线程对未知量数据的需求.面向与结构化网格相关的稀疏三角方程组问题，提出一套适用于SW26010处理器的并行求解器.该求解器在任务划分阶段将各线程的数据依赖模式限制在相对可控的范围之内，并在无数据路由的条件下解决线程的通信问题，不仅消除了数据路由带来的额外通信开销，而且适用的问题范围也不再受数据路由规则的制约.经测试，针对多种不同类型的结构化网格问题，提出的求解器框架的平均访存带宽利用率达88.2%，部分问题的访存带宽可达平台峰值带宽的94.5%（24.5 GB/s），整体性能相比现有工作有较为明显的提高.

PROPER:一个概率程序终止性与正确性分析工具

赵旭慧，邓玉欣，符鸿飞

2022, 33(12):4464-4475. DOI: 10.13328/j.cnki.jos.006341

摘要 (841) HTML (2149) PDF 1.77 M (2549) 评论 (0) 收藏

摘要:概率程序将概率推理模型与图灵完备的编程语言相结合，统一了对计算和不确定性知识的形式化描述，能够有效地处理复杂的关系模型和不确定性问题.提供了一种用于分析仿射概率程序的工具PROPER.一方面，它有助于定性和定量地分析仿射概率程序的终止性，可以验证该概率程序是否以概率1终止，估计期望终止时间的上限，并计算步数N，使得N步后给定程序的终止概率呈指数下降；另一方面，它可以估计一个断言成立的概率区间，这有助于分析变量不确定性对概率程序结果的影响.通过实验表明，PROPER对分析各种仿射概率程序是有效的.

ETSG-SMT:一种SMT时间信道安全问题描述模型

岳晓萌，杨秋松，李明树

2022, 33(12):4476-4503. DOI: 10.13328/j.cnki.jos.006695

摘要 (968) HTML (2971) PDF 3.18 M (2366) 评论 (0) 收藏

摘要:同时多线程（simultaneous multi-threading，SMT）技术是现代高性能处理器的标配技术，是提升线程级并行度的重要微架构优化技术之一.SMT技术在带来性能提升的同时，也引入了新的时间信道安全问题，相对于跨核、跨处理器，SMT技术下的时间信道安全问题更难应对和防护，且陆续有新的安全问题出现.当前缺少一种系统描述SMT环境下时间信道安全问题的方法.从利用SMT技术产生时间信道的原理入手，聚焦SMT环境下共享资源产生的时间信道及其攻击机理，基于拓扑排序图（topological sort graph，TSG）模型，结合数据流分析扩展得到一种适用于SMT环境下的时间信道安全问题描述模型——ETSG （extended topological sort graph，扩展的拓扑排序图）-SMT.首先介绍SMT环境下时间信道安全问题利用和防护的技术特点以及使用TSG模型分析SMT环境下时间信道安全问题的限制与不足；然后在TSG模型基础上，针对SMT技术特征及其安全问题的形式化描述特点，结合数据流分析技术形成一套新的建模方法；最后，通过将ETSG-SMT模型应用到SMT环境下现有的攻击方法和防护案例推导中，证明使用ETSG-SMT模型对SMT环境下时间信道原理分析和防护技术推导有很好的应用价值.

面向边缘智能的两阶段对抗知识迁移方法

钱亚冠，马骏，何念念，王滨，顾钊铨，凌祥，Wassim Swaileh

2022, 33(12):4504-4516. DOI: 10.13328/j.cnki.jos.006352

摘要 (1004) HTML (2541) PDF 1.79 M (2640) 评论 (0) 收藏

摘要:对抗样本的出现，对深度学习的鲁棒性提出了挑战.随着边缘智能的兴起，如何在计算资源有限的边缘设备上部署鲁棒的精简深度学习模型，是一个有待解决的问题.由于精简模型无法通过常规的对抗训练获得良好的鲁棒性，提出两阶段对抗知识迁移的方法，先将对抗知识从数据向模型迁移，然后将复杂模型获得的对抗知识向精简模型迁移.对抗知识以对抗样本的数据形式蕴含，或以模型决策边界的形式蕴含.具体而言，利用云平台上的GPU集群对复杂模型进行对抗训练，实现对抗知识从数据向模型迁移；利用改进的蒸馏技术将对抗知识进一步从复杂模型向精简模型的迁移，最后提升边缘设备上精简模型的鲁棒性.在MNIST，CIFAR-10和CIFAR-100这3个数据集上进行验证，实验结果表明：提出的这种两阶段对抗知识迁移方法可以有效地提升精简模型的性能和鲁棒性，同时加快训练过程的收敛性.

加权解耦语义表达的多源领域自适应方法

蔡瑞初，郑丽娟，李梓健

2022, 33(12):4517-4533. DOI: 10.13328/j.cnki.jos.006366

摘要 (1038) HTML (3629) PDF 2.27 M (3104) 评论 (0) 收藏

摘要:近年来，深度学习受到越来越多研究者的重视并成功应用于许多领域.虽然深度学习在这些领域获得了巨大的成功，但是数据采集和标注成本高，严重限制了深度学习的推广应用.迁移学习不仅可以打破训练集数据和测试集数据独立同分布的假设，而且可以利用有标签的迁移源数据和没有标签的迁移目标数据训练得到具有良好泛化能力的模型，是扩展深度学习应用场景的重要研究方向.在众多的迁移学习方法中，多源领域自适应方法可以充分利用多个迁移源的信息，具有重要的实际价值.从数据的因果生成机制出发，假设观测数据由语义隐变量和领域隐变量这两组独立的隐变量同时生成.基于上述假设，提出了一种基于多种距离度量框架和加权解耦语义表达的多源领域自适应方法.该方法利用了双重对抗网络来提取解耦的语义信息和领域信息；另一方面，采用了3种不同的语义信息聚合策略获得领域不变的语义表达；最后使用领域不变的语义表达进行图片分类.在多个多源领域自适应数据上的对比及鲁棒性分析实验中，充分地验证了所提出方法的有效性.

基于样本个体差异性的深度神经网络训练方法

李响，刘明，刘明辉，姜庆，曹扬

2022, 33(12):4534-4544. DOI: 10.13328/j.cnki.jos.006371

摘要 (758) HTML (2953) PDF 1.82 M (2626) 评论 (0) 收藏

摘要:深度神经网络目前在许多任务中的表现已经达到甚至超越了人类的水平，但是其泛化能力和人类相比还是相去甚远.如何提高网络的泛化性，一直是重要的研究方向之一.围绕这个方向开展的大量卓有成效的研究，从扩展增强训练数据、通过正则化抑制模型复杂度、优化训练策略等角度，提出了很多行之有效的方法.这些方法对于训练数据集来说都是某种全局性质的策略，每一个样本数据都会被平等的对待.但是，每一个样本数据由于其携带的信息量、噪声等的不同，在训练过程中，对模型的拟合性能和泛化性能的影响也应该是有差异性的.针对是否一些样本在反复的迭代训练中更倾向于使得模型过度拟合，如何找到这些样本，是否可以通过对不同的样本采用差异化的抗过拟合策略使得模型获得更好的泛化性能等问题，提出了一种依据样本数据的差异性来训练深度神经网络的方法，首先使用预训练模型对每一个训练样本进行评估，判断每个样本对该模型的拟合效果；然后依据评估结果将训练集分为易使得模型过拟合的样本和普通的样本两个子集；最后，再使用两个子集的数据对模型进行交替训练，过程中对易使得模型过拟合的子集采用更强有力的抗过拟合策略.通过在不同的数据集上对多种深度模型进行的一系列实验，验证了该方法在典型的分类任务和细粒度分类任务中的效果.

基于标签对齐的多模态一致性表型关联方法

汪美玲，邵伟，张道强

2022, 33(12):4545-4558. DOI: 10.13328/j.cnki.jos.006376

摘要 (679) HTML (2421) PDF 1.95 M (2683) 评论 (0) 收藏

摘要:近年来，随着脑影像和基因技术的发展，脑影像遗传学得到了广泛的关注.在脑影像遗传研究中，检验遗传变异（即单核苷酸多态性（single nucleotide polymorphisms，SNPs））对大脑结构或功能的影响是一项艰巨的任务.此外，提取的多模态脑表型和来自同一区域的一致性脑影像标志物为理解疾病（例如，阿尔茨海默病（Alzheimer’s disease，AD））的机理提供了更多的见解.利用多模态脑表型作为桥接风险基因位点和疾病状态的中间特征，设计通过标签对齐的多模态学习方法来识别AD中风险基因位点与疾病状态之间的一致性表型.首先，用标准的多模态方法去探索和AD相关的基因位点（即APOEe4 rs429358）与多模态脑影像之间关系；其次，为了利用标记样本之间的标签信息，在标准多模态方法的目标函数中添加了一个新的标签对齐正则化项，使得所有具有相同类别标签的多模态样本在映射空间中更靠近；最后，在公开的ADNI （Alzheimer’s disease neuroimaging initiative）数据集上的3种脑影像（即大脑的结构组织信息、脱氧葡萄糖正电子发射断层扫描和正电子发射断层扫描淀粉样蛋白成像）进行实验.实验结果表明：该方法可以在多模态脑影像上发现鲁棒的、一致性脑区域来解释AD的病因，并在3个模态上将相关系数分别提高了8%，9%，5%.

深度多尺度不变特征网络预测胶质瘤1p/19q缺失状态

陈祈剑，王黎，郭顺超，邓泽宇，张健，王丽会

2022, 33(12):4559-4573. DOI: 10.13328/j.cnki.jos.006499

摘要 (1163) HTML (2310) PDF 11.86 M (3251) 评论 (0) 收藏

摘要:准确预测胶质瘤染色体1p/19q的缺失状态对于制定合适的治疗方案和评估胶质瘤的预后有着重要的意义.虽然已有研究能够基于磁共振图像和机器学习方法实现胶质瘤1p/19q状态的准确预测，但大多数方法需要事先准确勾画肿瘤边界，无法满足计算机辅助诊断的实际需求.因此，提出一种深度多尺度不变特征网络（deep multi-scale invariant features-based network，DMIF-Net）预测1p/19q的缺失状态.首先利用小波散射网络提取多尺度、多方向不变特征，同时基于深度分离转聚合网络提取高级语义特征，然后通过多尺度池化模块对特征进行降维并融合，最后在仅输入肿瘤区域定界框图像的情况下，实现胶质瘤1p/19q状态的准确预测.实验结果表明，在不需要准确勾画肿瘤边界的前提下，DMIF-Net预测胶质瘤1p/19q缺失状态的AUC （area under curve）可达0.92（95% CI=[0.91，0.94]），相比于最优的主流深度学习模型其AUC增加了4.1%，灵敏度和特异性分别增加了4.6%和3.4%，相比于最好的胶质瘤分类前沿模型，其AUC与精度分别增加了4.9%和5.5%.此外，消融实验证明了本文所提出的多尺度不变特征提取网络可以有效地提高模型的预测性能，说明结合深度高级语义特征和多尺度不变特征可以在不勾画肿瘤边界的情况下，显著增加对胶质瘤1p/19q缺失状态的预测能力，进而为低级别胶质瘤的个性化治疗方案制定提供一种辅助手段.

一种基于各向异性高斯核核惩罚的PCA特征提取算法

刘俊，李威，陈蜀宇，徐光侠

2022, 33(12):4574-4589. DOI: 10.13328/j.cnki.jos.006515

摘要 (1164) HTML (3953) PDF 12.00 M (3430) 评论 (0) 收藏

摘要:提出了一种基于各向异性高斯核核惩罚的主成分分析的特征提取算法.该算法不同于传统的核主成分分析算法.在非线性数据降维中，传统的核主成分分析算法忽略了原始数据的无量纲化.此外，传统的核函数在各维度上主要由一个相同的核宽参数控制，该方法无法准确反映各维度不同特征的重要性，从而导致降维过程中准确率低下.为了解决上述问题，首先针对现原始数据的无量纲化问题，提出了一种均值化算法，使得原始数据的总方差贡献率有明显的提高.其次，引入了各向异性高斯核函数，该核函数每个维度拥有不同的核宽参数，各核宽参数能够准确地反映所在维度数据特征的重要性.再次，基于各向异性高斯核函数建立了核主成分分析的特征惩罚目标函数，以便用较少的特征表示原始数据，并反映每个主成分信息的重要性.最后，为了寻求最佳特征，引入梯度下降算法来更新特征惩罚目标函数中的核宽度和控制特征提取算法的迭代过程.为了验证所提出算法的有效性，各算法在UCI公开数据集上和KDDCUP99数据集上进行了比较.实验结果表明，所提基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法在9种公开的UCI公开数据集上准确率平均提高了4.49%.在KDDCUP99数据集上，所提基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法准确率提高了8%.

个性化学习路径推荐综述

云岳，代欢，张育培，尚学群，李战怀

2022, 33(12):4590-4615. DOI: 10.13328/j.cnki.jos.006518

摘要 (4913) HTML (11384) PDF 24.08 M (16206) 评论 (0) 收藏

摘要:近年来，伴随着现代信息技术的迅猛发展，以人工智能为代表的新兴技术在教育领域得到了广泛应用，引发了学习理念和方式的深刻变革.在这种大背景下，在线学习超越了时空的限制，为学习者“随时随地”学习提供了更多的可能性，从而得到了蓬勃发展.然而，在线学习中师生时间、空间分离的特征，导致教师无法及时掌握学生的学习状态，一定程度上制约了在线学习中教学质量的提升.面对多元化的学习需求及海量学习资源，如何迅速完成学习目标、降低学习成本、合理分配学习资源等问题成为限制个人和时代发展的重大问题.然而，传统的“一刀切”的教育模式已经不能满足人们获取知识的需求了，需要一个更高效、更科学的个性化教育模式，以帮助学习者以最小的学习成本最大限度地完成学习目标.基于以上背景，如何自动高效识别学习者特征，高效地组织和分配学习资源，为每一位学习者规划个性化路径，成为面向个体的精准化教育资源匹配机制研究中亟待解决的问题.系统地综述并分析了当前个性化学习路径推荐的研究现状，并从多学科领域的角度分析了对于同一问题的不同研究思路，同时也归纳总结了当前研究中最为主流的核心推荐算法.最后，强调当前研究存在的主要不足之处.

对话推荐算法研究综述

赵梦媛，黄晓雯，桑基韬，于剑

2022, 33(12):4616-4643. DOI: 10.13328/j.cnki.jos.006521

摘要 (3264) HTML (5298) PDF 27.77 M (7919) 评论 (0) 收藏

摘要:推荐系统是一种通过理解用户的兴趣和偏好帮助用户过滤大量无效信息并获取感兴趣的信息或者物品的信息过滤系统.目前主流的推荐系统主要基于离线的、历史的用户数据，不断训练和优化线下模型，继而为在线的用户推荐物品，这类训练方式主要存在3个问题：基于稀疏且具有噪声的历史数据估计用户偏好的不可靠估计、对影响用户行为的在线上下文环境因素的忽略和默认用户清楚自身偏好的不可靠假设.由于对话系统关注于用户的实时反馈数据，获取用户当前交互的意图，因此“对话推荐”通过结合对话形式与推荐任务成为解决传统推荐问题的有效手段.对话推荐将对话系统实时交互的数据获取方式应用到推荐系统中，采用了与传统推荐系统不同的推荐思路，通过利用在线交互信息，引导和捕捉用户当前的偏好兴趣，并及时进行反馈和更新.在过去的几年里，越来越多的研究者开始关注对话推荐系统，这一方面归功于自然语言处理领域中语音助手以及聊天机器人技术的广泛使用，另一方面受益于强化学习、知识图谱等技术在推荐策略中的成熟应用.将对话推荐系统的整体框架进行梳理，将对话推荐算法研究所使用的数据集进行分类，同时对评价对话推荐效果的相关指标进行讨论，重点关注于对话推荐系统中的后台对话策略与推荐逻辑，对近年来的对话推荐算法进行综述，最后对对话推荐领域的未来发展方向进行展望.

知识图谱可解释推理研究综述

侯中妮，靳小龙，陈剑赟，官赛萍，王元卓，程学旗

2022, 33(12):4644-4667. DOI: 10.13328/j.cnki.jos.006522

摘要 (5078) HTML (7996) PDF 24.22 M (9482) 评论 (0) 收藏

摘要:面向知识图谱的知识推理旨在通过已有的知识图谱事实，去推断新的事实，进而实现知识库的补全.近年来，尽管基于分布式表示学习的方法在推理任务上取得了巨大的成功，但是他们的黑盒属性使得模型无法为预测出的事实做出解释.所以，如何设计用户可理解、可信赖的推理模型成为了人们关注的问题.从可解释性的基本概念出发，系统梳理了面向知识图谱的可解释知识推理的相关工作，具体介绍了事前可解释推理模型和事后可解释推理模型的研究进展；根据可解释范围的大小，将事前可解释推理模型进一步细分为全局可解释的推理和局部可解释的推理；在事后解释模型中，回顾了推理模型的代表方法，并详细介绍提供事后解释的两类解释方法.此外，还总结了可解释知识推理在医疗、金融领域的应用.随后，对可解释知识推理的现状进行概述，最后展望了可解释知识推理的未来发展方向，以期进一步推动可解释推理的发展和应用.

文本风格迁移研究综述

陈可佳，费子阳，陈景强，杨子农

2022, 33(12):4668-4687. DOI: 10.13328/j.cnki.jos.006544

摘要 (3096) HTML (6885) PDF 17.32 M (7308) 评论 (0) 收藏

摘要:文本风格迁移是近年来自然语言处理领域的热点问题之一，旨在保留文本内容的基础上通过编辑或生成的方式更改文本的特定风格或属性（如情感、时态和性别等）.旨在梳理已有的技术，以推进该方向的研究.首先，给出文本风格迁移问题的定义及其面临的挑战；然后，对已有方法进行分类综述，重点介绍基于无监督学习的文本风格迁移方法并将其进一步分为隐式和显式两类方法，对各类方法在实现机制、优势、局限性和性能等方面进行分析和比较；同时，还通过实验比较了几种代表性方法在风格迁移准确率、文本内容保留和困惑度等自动化评价指标上的性能；最后，对文本风格迁移研究进行总结和展望.

ALERT:基于Radix Tree的工作负载自适应学习型索引

陈井爽，陈珂，寿黎但，江大伟，陈刚

2022, 33(12):4688-4703. DOI: 10.13328/j.cnki.jos.006354

摘要 (1119) HTML (2645) PDF 1.85 M (3241) 评论 (0) 收藏

摘要:学习型索引通过学习数据分布可以准确地预测数据存取的位置，在保持高效稳定的查询下，显著降低索引的内存占用.现有的学习型索引主要针对只读查询进行优化，而对插入和更新支持不足.针对上述挑战，设计了一种基于Radix Tree的工作负载自适应学习型索引ALERT.ALERT使用Radix Tree来管理不定长的分段，段内采用具有最大误差界的线性插值模型进行预测.同时，ALERT使用一种高效的插入缓冲来降低数据插入更新的代价.针对点查询和范围查询提出两种自适应重组优化方法，通过对工作负载进行感知，动态地调整插入缓冲的组织结构.经实验验证，ALERT与业界流行的学习型索引相比，构建时间平均降低了81%，内存占用平均降低了75%，在保持了优秀读性能的同时，使插入延迟平均降低了50%；此外，ALERT使用自适应重组优化能有效感知查询工作负载特征，与不使用自适应重组优化相比，查询延迟平均降低了15%.

面向Dataflow的异构集群混合式资源调度框架研究

汤小春，赵全，符莹，朱紫钰，丁朝，胡小雪，李战怀

2022, 33(12):4704-4726. DOI: 10.13328/j.cnki.jos.006356

摘要 (1500) HTML (3568) PDF 2.56 M (4171) 评论 (0) 收藏

摘要:Dataflow模型的使用，使得大数据计算的批处理和流处理融合为一体.但是，现有的针对大数据计算的集群资源调度框架，要么面向流处理，要么面向批处理，不适合批处理与流处理作业共享集群资源的需求.另外，GPU用于大数据分析计算时，由于缺乏有效的CPU-GPU资源解耦方式，降低了资源使用效率.在分析现有的集群资源调度框架的基础上，设计并实现了一种可以感知批处理/流处理应用的混合式资源调度框架HRM.它以共享状态架构为基础，采用乐观封锁协议和悲观封锁协议相结合的方式，确保流处理作业和批处理作业的不同资源要求.在计算节点上，提供CPU-GPU资源的灵活绑定，采用队列堆叠技术，不但满足流处理作业的实时性需求，也减少了反馈延迟并实现了GPU资源的共享.通过模拟大规模作业的调度，结果显示，HRM的调度延迟只有集中式调度框架的75%左右；使用实际负载测试，批处理与流处理共享集群时，使用HRM调度框架，CPU资源利用率提高25%以上；而使用细粒度作业调度方法，不但GPU利用率提高2倍以上，作业的完成时间也能够减少50%

基于树状模型的复杂自然语言查询转SQL技术研究

赵猛，陈珂，寿黎但，伍赛，陈刚

2022, 33(12):4727-4745. DOI: 10.13328/j.cnki.jos.006686

摘要 (1399) HTML (4141) PDF 2.40 M (3528) 评论 (0) 收藏

摘要:自然语言查询转SQL （NL2SQL）是指将自然语言表达的查询文本自动转化成数据库系统可以理解并执行的结构化查询语言SQL表达式的技术.NL2SQL可以为普通用户提供数据库查询访问的自然交互界面，从而实现基于数据库的自然问答.复杂查询的NL2SQL是当前数据库学术界的研究热点，主流方法采用序列到序列（Seq2seq）的编解码方式对问题进行建模.然而，已有的工作大多基于英文场景，面向中文领域实际应用时，中文特殊的口语化表达导致复杂查询转化困难；此外，现有工作难以正确输出包含复杂计算表达式的查询子句.针对上述问题，提出一种树状模型取代序列表示，将复杂查询自顶向下分解为多叉树，树结点代表SQL的各组成元素，采用深度优先搜索来预测生成SQL语句.在DuSQL中文NL2SQL竞赛的两个官方测试集中，该方法分别取得了第1名和第2名的成绩，验证了其有效性.

自适应编码的高容量密文可逆信息隐藏算法

马文静，吴友情，殷赵霞

2022, 33(12):4746-4757. DOI: 10.13328/j.cnki.jos.006350

摘要 (1363) HTML (3304) PDF 1.77 M (3719) 评论 (0) 收藏

摘要:随着数字信息技术的普及，密文可逆信息隐藏（reversible data hiding in encrypted images，RDHEI）逐渐成为云存储中隐私保护的研究热点.RDHEI作为一种能在密文中嵌入额外信息，并正确提取嵌入信息和无损恢复原始图像的技术，受到研究者的广泛关注.为了能在加密图像中嵌入充足的额外信息，提出了一种自适应编码的高容量RDHEI算法.首先，计算原始图像不同预测误差的出现概率并自适应的生成哈夫曼编码；然后，利用流密码加密原始图像，根据像素预测误差对应的哈夫曼码字对加密后像素进行标记；最后，以位替换方式将信息嵌入到已标记像素的预留空间中.经实验验证：该算法在正确提取嵌入信息的同时，无损地恢复了原始图像.与同类算法相比，该算法充分利用了图像本身的纹理特性，有效地提高了图像嵌入率.在UCID，BOSSBase和BOWS-2这3个图像集上，该算法的平均嵌入率达到3.162 bpp，3.917 bpp以及3.775 bpp，与当前性能最佳算法相比，提升了0.263 bpp，0.292 bpp以及0.280 bpp.

基于身份的组用户数据完整性验证方案

袁艺林，张建标，徐万山，李铮

2022, 33(12):4758-4770. DOI: 10.13328/j.cnki.jos.006360

摘要 (682) HTML (2433) PDF 1.76 M (2277) 评论 (0) 收藏

摘要:云存储系统为用户提供大容量、高访问效率、价格合理的存储服务.然而，使用云存储服务的用户，一旦将文件上传至CSP （cloud server provider），便失去了数据的绝对控制权.众所周知，CSP并不可靠.因此，云上存储的数据是否完整，成为值得深入探讨的问题.在公共云存储环境中，将公司、机构或组织定义为一个组，组内由负责人进行管理.组内用户为便于使用云存储服务，可借助于组负责人进行统一操作.这种场景下，为解决位于同一组内的用户数据完整性验证问题，提出了一个组用户数据完整性验证方案.为协助组内用户进行一系列操作，方案提出了代理这一实体.方案基于IBE （identity-based encryption）进行标签的设计，摆脱了复杂的证书管理问题.在数据完整性验证阶段，通过采用随机抽样的方式，减少了系统的性能开销.借助于随机预言机模型，该方案被证明是安全的.且通过的一系列的性能分析与评估，验证了该方案是可行的.

抗主动攻击的保密比较协议

李顺东，王文丽，陈明艳，汪榆淋

2022, 33(12):4771-4783. DOI: 10.13328/j.cnki.jos.006361

摘要 (592) HTML (3213) PDF 1.66 M (2382) 评论 (0) 收藏

摘要:互联网、物联网和大数据的迅速发展，为数据共享带来了无限的机遇，也给私有数据的隐私保护带来了严峻的挑战.安全多方计算是数据共享中隐私保护的关键技术，是密码学的一个重要研究方向，也是国际密码学界研究的热点.保密比较两个数的大小是安全多方计算的一个基本问题，是构建其他隐私保护协议的一个基本模块.当比较的数较小时，还没有可靠的能够抵抗主动攻击的保密比较问题解决方案.很多应用场景中的参与者可能会发动主动攻击，因为尚没有抗主动攻击的保密比较协议，这些场景中的保密比较问题还无法解决.因而研究抗主动攻击的保密比较问题解决方案有重要理论与实际意义.提出了一种加密-选择安全多方计算模式和编码+保密洗牌证明的抵抗主动攻击方法.在此基础上，设计了半诚实模型下安全的保密比较协议，用模拟范例证明了协议的安全性；分析了恶意参与者可能实施的主动攻击，结合ElGamal密码系统的乘法同态性、离散对数与保密洗牌的零知识证明设计阻止恶意行为的措施，将半诚实模型下安全的保密比较协议改造成抗主动攻击的保密比较协议，并用理想-实际范例证明了协议的安全性.最后分析了协议的效率，并通过实验验证协议是可行的.

SHA-1差分路径搜索算法和连接策略研究

曾光，李婧瑜，杨阳

2022, 33(12):4784-4803. DOI: 10.13328/j.cnki.jos.006378

摘要 (744) HTML (2586) PDF 2.25 M (2205) 评论 (0) 收藏

摘要:Hash函数SHA-1的攻击技术研究一直受到密码分析者的广泛关注，其中，差分路径构造是影响攻击复杂度大小的重要环节.提出了带比特条件的全轮差分路径构造方法，统一了第1轮差分路径构造和后3轮的差分路径构造.该方法既与原有第1轮路径构造相容，又能省去后3轮路径约简、消息约简等繁琐技术环节，具有良好的兼容性.此外，综合考虑状态差分、布尔函数差分与比特条件之间的制约关系，提出了带比特条件的前向扩展、后向扩展和中间连接这3个子算法，并提出3个指标——比特条件的更新次数、扩展结果的相容性和候选集合的正确率对中间连接的成功率进行评价，结合提前终止策略，提出了最优的中间连接算法.理论分析结果表明，该方法有助于提高SHA-1差分路径构造的成功率.最后，采用该算法进行路径搜索，可以得到正确的可用于碰撞搜索的差分路径.

基于Cluster态的可验证多方量子密钥协商方案

芦殿军，李志慧，闫晨红，刘璐

2022, 33(12):4804-4815. DOI: 10.13328/j.cnki.jos.006379

摘要 (551) HTML (2179) PDF 1.59 M (2312) 评论 (0) 收藏

摘要:基于四量子比特Cluster态，提出一种可验证多方量子密钥协商方案.方案允许每次由两个参与者利用自己的子密钥分别在每个四量子比特Cluster态的两个粒子上执行X运算，并对转换后的Cluster态执行延迟测量，这保证了每个参与者对协商密钥的贡献相等.提出的方案使用相互无偏基粒子作为诱饵粒子，并且利用对称二元多项式的一对函数值对这些诱饵粒子执行酉运算，不仅可以进行窃听检验，而且还能进行参与者之间的身份验证.本方案适用于任意大于2的参与者人数.安全性分析表明，提出的方案能够抵抗外部攻击及参与者攻击.与现有的多方密钥协商方案相比，该方案不仅在诱饵粒子的使用上有优势，同时具有较高的量子比特效率.

FPTC:一种信息中心物联网缓存策略

吴海博，许瑶恭，李俊

2022, 33(12):4816-4837. DOI: 10.13328/j.cnki.jos.006382

摘要 (743) HTML (2703) PDF 2.75 M (2331) 评论 (0) 收藏

摘要:信息中心网络（information-centric networking，ICN）作为一种新型未来互联网体系结构应运而生，并广泛应用于物联网领域，其中，缓存技术作为ICN的显著特征，对信息中心物联网的内容传输性能具有重要影响.由于信息中心物联网具有数据频繁更新、用户对数据新鲜度有严格要求等特性，致使传统信息中心网络缓存技术面临挑战.提出一种基于内容流行度和网络拓扑的分布式缓存策略，同时考虑内容新鲜度，各缓存节点通过优先缓存流行度较高且较靠近用户的内容，以最大化缓存效率.为适应物联网内容的频繁更新，提出一种基于灰色预测的内容缓存收益预测方法，便于快速获取新内容的缓存收益值.同时，该策略具有较低的时间和空间开销.仿真实验结果表明：所提方案相比于传统缓存策略，能有效提高缓存效率和命中率，并降低访问延迟，改善用户体验.

面向视频冷启动问题的点击率预估

章磊敏，董建锋，包翠竹，纪守领，王勋

2022, 33(12):4838-4850. DOI: 10.13328/j.cnki.jos.006368

摘要 (1129) HTML (2672) PDF 1.72 M (3349) 评论 (0) 收藏

摘要:视频的点击率预估是视频推荐系统中的重要任务之一，推荐系统可以根据点击率的预估调整视频推荐顺序以提升视频推荐的效果.近年来，随着视频数量的爆炸式增长，视频推荐的冷启动问题也变得愈发严重.针对这个问题，提出了一个新的视频点击率预估模型，通过使用视频的内容特征以及上下文特征来加强视频点击率预估的效果；同时，通过对冷启动场景的模拟训练和基于近邻的替代方法提升模型应对新视频点击率预估的能力.提出的模型可以同时对旧视频和新视频进行点击率预估.在两个真实的电视剧（Track_1_series）和电影（Track_2_movies）点击率预估数据集上的实验表明：提出的模型可以显著改善对旧视频的点击率预估性能，并在两个数据集上均超过了现有的模型；对于新视频，相比于不考虑冷启动问题的模型只能获得0.57左右的AUC性能，该模型在两个数据集上分别获得0.645和0.615的性能，表现出针对冷启动问题更好的鲁棒性.

一种新型瓦记录磁盘的高可靠数据存储方法

吴坤尧，柴云鹏，张大方，王鑫

2022, 33(12):4851-4868. DOI: 10.13328/j.cnki.jos.006359

摘要 (1534) HTML (3297) PDF 2.44 M (3780) 评论 (0) 收藏

摘要:近年来，传统磁记录的存储密度增长已经达到极限，为了满足快速增长的数据容量需求，多种新型存储技术不断涌现，其中瓦记录（shingled magnetic recording，SMR）技术已实现商业化，在企业实际应用.由于瓦记录磁盘的叠瓦式结构，磁盘在随机写入时会引起写放大，造成磁盘性能下降.这一问题在部署传统的高可靠存储方案（如RAID5）时会变得更加严重，原因在于校验数据更新频率很高，磁盘内出现大量的随机写请求.研究发现瓦记录内部其实存在具有原位更新能力的“可覆盖写磁道（free track）”，基于“可覆盖写磁道”，提出了一种专门针对瓦记录盘的高可靠数据存储方法——FT-RAID，以替代经典的RAID5方法，实现一种廉价、大容量、高可靠的存储系统.FT-RAID包含两个部分：“可覆盖写磁道映射（FT-mapping）”和“可覆盖写磁道缓冲区（FT-buffer）”.FT-mapping实现了一种瓦记录友好的RAID映射方式，将频繁更新的校验块数据映射至“可覆盖写磁道”；FT-buffer实现了一种瓦记录友好的两层缓冲区结构，上层确保了热数据能够原位更新，下层提高了缓冲区的容量.基于真实企业I/O访问记录的实验结果表明，与传统RAID 5相比，FT-RAID能够减少80.4%的写放大率，显著提高存储系统整体性能.

微信小程序

微信服务号

微信订阅号

>综述文章

当期目录

年份

刊期