2024年第4期文章目次

绿色低碳机器学习研究与应用专题前言

封举富，俞扬，刘淇

2024, 35(4):1585-1586. DOI: 10.13328/j.cnki.jos.007020

摘要 (418) HTML (146) PDF 639.31 K (477) 评论 (0) 收藏

摘要:

基于多样真实任务生成的鲁棒小样本分类方法

刘鑫，景丽萍，于剑

2024, 35(4):1587-1600. DOI: 10.13328/j.cnki.jos.007014

摘要 (734) HTML (144) PDF 2.18 M (1375) 评论 (0) 收藏

摘要:随着大数据、计算机与互联网等技术的不断进步, 以机器学习和深度学习为代表的人工智能技术取得了巨大成功, 尤其是最近不断涌现的各种大模型, 极大地加速了人工智能技术在各个领域的应用. 但这些技术的成功离不开海量训练数据和充足的计算资源, 大大限制了这些方法在一些数据或计算资源匮乏领域的应用. 因此, 如何利用少量样本进行学习, 也就是小样本学习成为以人工智能技术引领新一轮产业变革中一个十分重要的研究问题. 小样本学习中最常用的方法是基于元学习的方法, 这类方法通过在一系列相似的训练任务上学习解决这类任务的元知识, 在新的测试任务上利用元知识可以进行快速学习. 虽然这类方法在小样本分类任务上取得了不错的效果, 但是这类方法的一个潜在假设是训练任务和测试任务来自同一分布. 这意味着训练任务需要足够多才能使模型学到的元知识泛化到不断变化的测试任务中. 但是在一些真正数据匮乏的应用场景, 训练任务的数量也是难以保证的. 为此, 提出一种基于多样真实任务生成的鲁棒小样本分类方法(DATG). 该方法通过对已有少量任务进行Mixup, 可以生成更多的训练任务帮助模型进行学习. 通过约束生成任务的多样性和真实性, 该方法可以有效提高小样本分类方法的泛化性. 具体来说, 先对训练集中的基类进行聚类得到不同的簇, 然后从不同的簇中选取任务进行Mixup以增加生成任务的多样性. 此外, 簇间任务Mixup策略可以减轻学习到与类别高度相关的伪判别特征. 同时, 为了避免生成的任务与真实分布太偏离, 误导模型学习, 通过最小化生成任务与真实任务之间的最大均值差异(MMD)来保证生成任务的真实性. 最后, 从理论上分析了为什么基于簇间任务Mixup的策略可以提高模型的泛化性能. 多个数据集上的实验结果进一步证明了所提出的基于多样性和真实性任务扩充方法的有效性.

基于多模态对比学习的代码表征增强预训练方法

杨宏宇，马建辉，侯旻，沈双宏，陈恩红

2024, 35(4):1601-1617. DOI: 10.13328/j.cnki.jos.007016

摘要 (1025) HTML (176) PDF 2.51 M (1597) 评论 (0) 收藏

摘要:代码表征旨在融合源代码的特征, 以获取其语义向量, 在基于深度学习的代码智能中扮演着重要角色. 传统基于手工的代码表征依赖领域专家的标注, 繁重耗时, 且无法灵活地复用于特定下游任务, 这与绿色低碳的发展理念极不相符. 因此, 近年来, 许多自监督学习的编程语言大规模预训练模型(如CodeBERT)应运而生, 为获取通用代码表征提供了有效途径. 这些模型通过预训练获得通用的代码表征, 然后在具体任务上进行微调, 取得了显著成果. 但是, 要准确表示代码的语义信息, 需要融合所有抽象层次的特征(文本级、语义级、功能级和结构级). 然而, 现有模型将编程语言仅视为类似于自然语言的普通文本序列, 忽略了它的功能级和结构级特征. 因此,旨在进一步提高代码表征的准确性, 提出了基于多模态对比学习的代码表征增强的预训练模型(representation enhanced contrastive multimodal pretraining, REcomp). REcomp设计了新的语义级-结构级特征融合算法, 将它用于序列化抽象语法树, 并通过多模态对比学习的方法将该复合特征与编程语言的文本级和功能级特征相融合, 以实现更精准的语义建模. 最后, 在3个真实的公开数据集上进行了实验, 验证了REcomp在提高代码表征准确性方面的有效性.

元强化学习研究综述

陈奕宇，霍静，丁天雨，高阳

2024, 35(4):1618-1650. DOI: 10.13328/j.cnki.jos.007011

摘要 (2584) HTML (179) PDF 4.71 M (2844) 评论 (0) 收藏

摘要:近年来, 深度强化学习(deep reinforcement learning, DRL)已经在诸多序贯决策任务中取得瞩目成功, 但当前, 深度强化学习的成功很大程度依赖于海量的学习数据与计算资源, 低劣的样本效率和策略通用性是制约其进一步发展的关键因素. 元强化学习(meta-reinforcement learning, Meta-RL)致力于以更小的样本量适应更广泛的任务, 其研究有望缓解上述限制从而推进强化学习领域发展. 以元强化学习工作的研究对象与适用场景为脉络, 对元强化学习领域的研究进展进行了全面梳理: 首先, 对深度强化学习、元学习背景做基本介绍; 然后, 对元强化学习作形式化定义及常见的场景设置总结, 并从元强化学习研究成果的适用范围角度展开介绍元强化学习的现有研究进展; 最后, 分析了元强化学习领域的研究挑战与发展前景.

局部一致性主动学习的源域无关开集域自适应

王帆，韩忠义，苏皖，尹义龙

2024, 35(4):1651-1666. DOI: 10.13328/j.cnki.jos.007010

摘要 (405) HTML (109) PDF 2.28 M (1232) 评论 (0) 收藏

摘要:无监督域自适应在解决训练集(源域)和测试集(目标域)分布不一致的问题上已经取得了一定的成功. 在面向低能耗场景和开放动态任务环境时, 在资源约束和开放类别出现的情况下, 现有的无监督域自适应方法面临着严峻的挑战. 源域无关开集域自适应(SF-ODA)旨在将源域模型中的知识迁移到开放类出现的无标签目标域, 从而在无源域数据资源的限制下辨别公共类和检测开放类. 现有的源域无关开集域自适应的方法聚焦于设计准确检测开放类别的源域模型或增改模型的结构. 但是, 这些方法不仅需要额外的存储空间和训练开销, 而且在严格的隐私保护场景下难以实现. 提出了一个更加实际的场景: 主动学习的源域无关开集域自适应(ASF-ODA), 目标是基于一个普通训练的源域模型和少量专家标注的有价值的目标域样本来实现鲁棒的迁移. 为了达成此目标, 提出了局部一致性主动学习(LCAL)算法. 首先, 利用目标域中局部特征标签一致的特点, LCAL设计了一种新的主动选择方法: 局部多样性选择, 来挑选更有价值的阈值模糊样本来促进开放类和公共类分离. 接着, LCAL基于信息熵初步筛选出潜在的公共类集合和开放类集合, 并利用第一步得到的主动标注样本对这两个集合进行匹配纠正, 得到两个对应的可信集合. 最后, LCAL引入开集损失和信息最大化损失来进一步促使公共类和开放类分离, 引入交叉熵损失来实现公共类的辨别. 在Office-31、Office-Home和VisDA-C这3个公开的基准数据集上的大量实验表明: 在少量有价值的目标域样本的帮助下, LCAL不仅显著优于现有的源域无关开集域自适应方法, 还大幅度超过了现有的主动学习方法的表现, 在某些迁移任务上可以提升20%.

面向开集识别的稳健测试时适应方法

周植，张丁楚，李宇峰，张敏灵

2024, 35(4):1667-1681. DOI: 10.13328/j.cnki.jos.007009

摘要 (654) HTML (127) PDF 2.61 M (1211) 评论 (0) 收藏

摘要:开集识别旨在研究测试阶段突现未见类别对于机器学习模型的挑战, 以期学习模型既能分类已见类别又可识别/拒绝未见类别, 是确保机器学习模型能够在开放世界中高效稳健部署的重要技术. 既有开集识别技术通常假设已见类别的协变量分布在训练与测试阶段维持不变. 然而在实际场景中, 类别的协变量分布常不断变化. 直接利用既有技术不再奏效, 其性能甚至劣于基线方案. 因此, 亟需研究新型开集识别方法, 使其能不断适应协变量分布偏移, 以期模型在测试阶段既能稳健分类已见类别又可识别未见类别. 将此新问题设置命名为开放世界适应问题(AOW), 并提出了一种开放测试时适应方法(OTA). 该方法基于无标注测试数据优化自适应熵损失与开集熵损失更新模型, 维持对已见类的既有判别能力, 同时增强了识别未见类的能力. 大量实验分析表明, 该方法在多组基准数据集、多组不同协变量偏移程度下均稳健地优于现有先进的开集识别方法.

神经网络结构搜索在脑数据分析领域的研究进展

李晴，汪启昕，李子遇，祝志远，张诗皓，牟浩南，杨文婷，邬霞

2024, 35(4):1682-1702. DOI: 10.13328/j.cnki.jos.007012

摘要 (671) HTML (140) PDF 2.64 M (1333) 评论 (0) 收藏

摘要:神经网络结构搜索(neural architecture search, NAS)是自动化机器学习的重要组成部分, 已被广泛应用于多个领域, 包括计算机视觉、语音识别等, 能够针对特定数据、场景、任务寻找最优的深层神经网络结构. 将NAS引入至脑数据分析领域, 能够在图像分割、特征提取、辅助诊断等多个应用领域大幅度提升性能, 展现低能耗自动化机器学习的优势. 基于NAS进行脑数据分析是当前的研究热点之一, 同时也具有一定挑战. 目前, 在此领域,国内外可供参考的综述性文献较少. 对近年来国内外相关文献进行了细致地调研分析, 从算法模型、研究任务、实验数据等不同方面对NAS在脑数据分析领域的研究现状进行了综述. 同时, 也对能够支撑NAS训练的脑数据集进行了系统性总结, 并对NAS在脑数据分析中存在的挑战和未来的研究方向进行了分析和展望.

基于自适应权重的多源部分域适应

田青，孙灿宇，储奕

2024, 35(4):1703-1716. DOI: 10.13328/j.cnki.jos.007015

摘要 (393) HTML (71) PDF 2.00 M (1229) 评论 (0) 收藏

摘要:作为机器学习的一个新兴领域, 多源部分域适应(MSPDA)问题由于其源域自身的复杂性、领域之间的差异性以及目标域自身的无监督性, 给相关研究带来了挑战, 以致目前鲜有相关工作被提出. 在该场景下, 多个源域中的无关类样本在域适应过程中会造成较大的累积误差和负迁移. 此外, 现有多源域适应方法大多未考虑不同源域对目标域任务的贡献度不同. 因此, 提出基于自适应权重的多源部分域适应方法(AWMSPDA).首先, 构建了多样性特征提取器以有效利用源域的先验知识; 同时, 设计了多层次分布对齐策略从不同层面消除了分布差异,促进了正迁移; 此外, 为量化不同源域贡献度以及过滤源域无关类样本, 利用相似性度量以及伪标签加权方式构建自适应权重; 最后, 通过大量实验验证了所提出AWMSPDA算法的泛化性以及优越性.

分组并行的轻量化实时微观三维形貌重建方法

闫涛，高浩轩，张江峰，钱宇华，张临垣

2024, 35(4):1717-1731. DOI: 10.13328/j.cnki.jos.007013

摘要 (330) HTML (80) PDF 3.77 M (908) 评论 (0) 收藏

摘要:微观三维形貌重建作为精密制造领域生产制造的关键环节,其重建过程依赖于高分辨率稠密图像的采集.而面对复杂应用场景的高时效性需求, 高分辨率稠密图像的输入会导致运算量与计算复杂度呈几何倍增加, 无法实现高效率低延时的实时微观三维形貌重建. 针对上述现状, 提出一种分组并行的轻量级实时微观三维形貌重建方法GPLWS-Net. GPLWS-Net以U型网络为基础构造轻量化主干网络, 以并行分组式查询加速三维形貌重建过程, 并针对神经网络结构进行重参数化设计避免重建微观结构的精度损失. 另外, 为弥补现有微观三维重建数据集的缺失, 公开了一组多聚焦微观三维重建数据集(Micro 3D), 其标签数据利用多模态数据融合的方式获取场景高精度的三维结构. 结果表明, 所提出的GPLWS-Net网络不仅可以保证重建精度, 而且在三组公开数据集中相比于其他5类深度学习方法平均耗时降低39.15%, 在Micro 3D数据集中平均耗时降低50.55%, 能够实现复杂微观场景的实时三维形貌重建.

基于动态批量评估的绿色无梯度优化方法

钱鸿，舒翔，孙天祥，邱锡鹏，周爱民

2024, 35(4):1732-1750. DOI: 10.13328/j.cnki.jos.007017

摘要 (444) HTML (63) PDF 5.05 M (1039) 评论 (0) 收藏

摘要:在基于语言模型即服务的提示词黑盒微调、机器学习模型超参数调节等优化任务中, 由于解空间到性能指标之间的映射关系复杂多变, 难以显式地构建目标函数, 故常采用无梯度优化方法来实现寻优. 解的准确、稳定评估是有效实施无梯度优化方法的关键, 完成一次解的质量评估常要求在整个数据集上完整运行一次模型, 且优化过程有时需要大量评估解的质量. 随着机器学习模型复杂度以及训练样本量的不断增加, 准确、稳定的解的质量评估时间成本与计算代价越来越高昂, 这与绿色低碳机器学习与优化理念背道而驰. 有鉴于此, 提出了一种基于动态批量评估的绿色无梯度优化方法框架(green derivative-free optimization with dynamic batch evaluation, GRACE), 基于训练子集的相似性, 在优化过程中自适应动态调节评估解时使用的样本量, 使得GRACE在保证优化性能的同时, 降低优化成本与代价, 达到绿色低碳高效的目标. 在语言模型即服务提示词黑盒微调、模型超参数优化等实际任务上进行了实验验证, 通过与一系列对比方法以及GRACE消融退化版算法进行比较分析, 表明了GRACE的有效性、高效性、绿色低碳性. 超参数分析结果表明了其具备超参数稳健性.

多视角融合的时空动态GCN城市交通流量预测

赵文竹，袁冠，张艳梅，乔少杰，王森章，张雷

2024, 35(4):1751-1773. DOI: 10.13328/j.cnki.jos.007018

摘要 (923) HTML (131) PDF 4.82 M (1926) 评论 (0) 收藏

摘要:城市交通流量预测是构建绿色低碳、安全高效的智能交通系统的重要组成部分. 时空图神经网络由于具有强大的时空数据表征能力, 被广泛应用于城市交通流量预测. 当前, 时空图神经网络在城市交通流量预测中仍存在以下两方面局限性: 1) 直接构建静态路网拓扑图对城市空间相关性进行表示, 忽略了节点的动态交通模式,难以表达节点流量之间的时序相似性, 无法捕获路网节点之间在时序上的动态关联; 2) 只考虑路网节点的局部空间相关性, 忽略节点的全局空间相关性, 无法建模交通路网中局部区域和全局空间之间的依赖关系. 为打破上述局限性, 提出了一种多视角融合的时空动态图卷积模型用于预测交通流量: 首先, 从静态空间拓扑和动态流量模式视角出发, 构建路网空间结构图和动态流量关联图, 并使用动态图卷积学习节点在两种视角下的特征, 全面捕获城市路网中多元的空间相关性; 其次, 从局部视角和全局视角出发, 计算路网的全局表示, 将全局特征与局部特征融合, 增强路网节点特征的表现力, 发掘城市交通流量的整体结构特征; 接下来, 设计了局部卷积多头自注意力机制来获取交通数据的动态时间相关性, 实现在多种时间窗口下的准确流量预测; 最后, 在4种真实交通数据上的实验结果, 证明了该模型的有效性和准确性.

基于强化联邦GNN的个性化公共安全突发事件检测

管泽礼，杜军平，薛哲，王沛文，潘圳辉，王晓阳

2024, 35(4):1774-1789. DOI: 10.13328/j.cnki.jos.007019

摘要 (650) HTML (92) PDF 2.35 M (1420) 评论 (0) 收藏

摘要:近年来, 将公共安全数据转换为图的形式, 通过图神经网络(GNN)构造节点表示应用于下游任务的方法, 充分利用了公共安全数据的实体与关联信息, 取得了较好的效果. 为了提高模型的有效性, 需要大量的高质量数据, 但是高质量的数据通常归属于政府、公司和组织, 很难通过数据集中的方式使模型学习到有效的事件检测模型.由于各数据拥有方的关注主题与收集时间不同, 数据之间存在Non-IID的问题. 传统的假设一个全局模型可以适合所有客户端的方法难以解决此类问题. 提出了基于强化联邦图神经网络的个性化公共安全突发事件检测方法PPSED, 各客户端采用多方协作的方式训练个性化的模型来解决本地的突发事件检测任务. 设计了联邦公共安全突发事件检测模型的本地训练与梯度量化模块,采用基于图采样的minibatch机制的GraphSage构造公共安全突发事件检测本地模型, 以减小数据Non-IID的影响, 采用梯度量化方法减小梯度通信的消耗. 设计了基于随机图嵌入的客户端状态感知模块, 在保护隐私的同时, 更好地保留客户端模型有价值的梯度信息. 设计了强化联邦图神经网络的个性化梯度聚合与量化策略, 采用DDPG拟合个性化联邦学习梯度聚合加权策略, 并根据权重决定是否对梯度进行量化, 对模型的性能与通信压力进行平衡. 通过在微博平台收集的公共安全数据集和3个公开的图数据集进行了大量的实验, 实验结果表明了所提方法的有效性.

主题方面共享的领域主题层次模型

万常选，张奕韬，刘德喜，刘喜平，廖国琼，万齐智

2024, 35(4):1790-1818. DOI: 10.13328/j.cnki.jos.006840

摘要 (231) HTML (77) PDF 10.23 M (784) 评论 (0) 收藏

摘要:层次主题模型是构建主题层次的重要工具. 现有的层次主题模型大多通过在主题模型中引入nCRP构造方法, 为文档主题提供树形结构的先验分布, 但无法生成具有明确领域涵义的主题层次结构, 即领域主题层次. 同时, 领域主题不仅存在层次关系, 而且不同父主题下的子主题之间还存在子领域方面共享的关联关系, 在现有主题关系研究中没有合适的模型来生成这种领域主题层次. 为了从领域文本中自动、有效地挖掘出领域主题的层次关系和关联关系, 在4个方面进行创新研究. 首先, 通过主题共享机制改进nCRP构造方法, 提出nCRP+层次构造方法, 为主题模型中的主题提供具有分层主题方面共享的树形先验分布; 其次, 结合nCRP+和HDP模型构建重分层的Dirichlet过程, 提出rHDP (reallocated hierarchical Dirichlet processes)层次主题模型; 第三, 结合领域分类信息、词语语义和主题词的领域代表性, 定义领域知识, 包括基于投票机制的领域隶属度、词语与领域主题的语义相关度和层次化的主题-词语贡献度; 最后, 通过领域知识改进rHDP主题模型中领域主题和主题词的分配过程, 提出结合领域知识的层次主题模型rHDP_DK (rHDP with domain knowledge), 并改进采样过程. 实验结果表明, 基于nCRP+的层次主题模型在评价指标方面均优于基于nCRP的层次主题模型(hLDA, nHDP)和神经主题模型(TSNTM); 通过rHDP_DK模型生成的主题层次结构具有领域主题层次清晰、关联子主题的主题词领域差异明确的特点. 此外, 该模型将为领域主题层次提供一个通用的自动挖掘框架.

基于顶点组重分配的动态增量图划分算法

李贺，刘延娜，杨舒琪，黄健斌，乔少杰

2024, 35(4):1819-1840. DOI: 10.13328/j.cnki.jos.006842

摘要 (262) HTML (87) PDF 8.81 M (777) 评论 (0) 收藏

摘要:图划分是分布式图计算中的一项基础工作, 其作用是将大规模图进行划分并分配到集群中的不同机器上. 图划分的质量对分布式图计算的性能有很大的影响, 其目标是降低负载平衡和最小化边割. 如今, 现实中的图数据通常呈动态增长态势, 这就需要一种能够处理动态增量图的划分方法, 在图数据动态增长的过程中确保划分的质量不受影响. 目前虽然有一些动态图划分算法被提出, 但它们不能同时专注于实时处理动态变化和获得高质量的划分结果. 提出基于顶点组重分配的动态增量图划分算法(ED-IDGP)来解决大规模动态增量图的划分问题. 在ED-IDGP算法中, 设计实时处理4种不同单元更新类型的动态处理器, 并在每次处理完单元更新后通过在分区发生动态变化的附近执行局部优化器进一步提高图划分的质量. 在ED-IDGP的局部优化器中, 利用基于改进标签传播算法的顶点组搜索策略搜索顶点组, 并利用提出的顶点组移动增益公式衡量最有益的顶点组, 将该顶点组移动到目标分区中做优化. 在真实数据集上从不同的角度和度量指标评估了ED-IDGP算法的性能和效率.

基于指针神经网络的细粒度缺陷定位

王尚文，刘逵，林博，黎立，Jacques KLEIN，Tegawendé François BISSYANDÉ，毛晓光

2024, 35(4):1841-1860. DOI: 10.13328/j.cnki.jos.006924

摘要 (265) HTML (75) PDF 10.82 M (810) 评论 (0) 收藏

摘要:软件缺陷定位是指找出与软件失效相关的程序元素. 当前的缺陷定位技术仅能产生函数级或语句级的定位结果. 这种粗粒度的定位结果会影响人工调试程序和软件缺陷自动修复的效率和效果. 专注于细粒度地识别导致软件缺陷的具体代码令牌, 为代码令牌建立抽象语法树路径, 提出基于指针神经网络的细粒度缺陷定位模型来预测出具体的缺陷代码令牌和修复该令牌的具体操作行为. 开源项目中的大量缺陷补丁数据集包含大量可供训练的数据, 且基于抽象语法树构建的路径可以有效捕获程序结构信息. 实验结果表明所训练出的模型能够准确预测缺陷代码令牌并显著优于基于统计的与基于机器学习的基线方法. 另外, 为了验证细粒度的缺陷定位结果可以贡献于缺陷自动修复, 基于细粒度的缺陷定位结果设计两种程序修复流程, 即代码补全工具去预测正确令牌的方法和启发式规则寻找合适代码修复元素的方法, 结果表明两种方法都能有效解决软件缺陷自动修复中的过拟合问题.

基于可攻击空间假设的陷阱式集成对抗防御网络

孙家泽，温苏雷，郑炜，陈翔

2024, 35(4):1861-1884. DOI: 10.13328/j.cnki.jos.006829

摘要 (350) HTML (79) PDF 4.32 M (860) 评论 (0) 收藏

摘要:如今, 深度神经网络在各个领域取得了广泛的应用. 然而研究表明, 深度神经网络容易受到对抗样本的攻击, 严重威胁着深度神经网络的应用和发展. 现有的对抗防御方法大多需要以牺牲部分原始分类精度为代价, 且强依赖于已有生成的对抗样本所提供的信息, 无法兼顾防御的效力与效率. 因此基于流形学习, 从特征空间的角度提出可攻击空间对抗样本成因假设, 并据此提出一种陷阱式集成对抗防御网络Trap-Net. Trap-Net在原始模型的基础上向训练数据添加陷阱类数据, 使用陷阱式平滑损失函数建立目标数据类别与陷阱数据类别间的诱导关系以生成陷阱式网络. 针对原始分类精度损失问题, 利用集成学习的方式集成多个陷阱式网络以在不损失原始分类精度的同时, 扩大陷阱类标签于特征空间所定义的靶标可攻击空间. 最终, Trap-Net通过探测输入数据是否命中靶标可攻击空间以判断数据是否为对抗样本. 基于MNIST、K-MNIST、F-MNIST、CIFAR-10和CIFAR-100数据集的实验表明, Trap-Net可在不损失干净样本分类精确度的同时具有很强的对抗样本防御泛化性, 且实验结果验证可攻击空间对抗成因假设. 在低扰动的白盒攻击场景中, Trap-Net对对抗样本的探测率高达85%以上. 在高扰动的白盒攻击和黑盒攻击场景中, Trap-Net对对抗样本的探测率几乎高达100%. 与其他探测式对抗防御方法相比, Trap-Net对白盒和黑盒对抗攻击皆有很强的防御效力. 为对抗环境下深度神经网络提供一种高效的鲁棒性优化方法.

一种基于窗口机制的口语理解异构图网络

张启辰，王帅，李静梅

2024, 35(4):1885-1898. DOI: 10.13328/j.cnki.jos.006831

摘要 (288) HTML (68) PDF 2.28 M (798) 评论 (0) 收藏

摘要:口语理解(spoken language understanding, SLU)是面向任务的对话系统的核心组成部分, 旨在提取用户查询的语义框架. 在对话系统中, 口语理解组件(SLU)负责识别用户的请求, 并创建总结用户需求的语义框架, SLU通常包括两个子任务: 意图检测(intent detection, ID)和槽位填充(slot filling, SF). 意图检测是一个语义话语分类问题, 在句子层面分析话语的语义; 槽位填充是一个序列标注任务, 在词级层面分析话语的语义. 由于意图和槽之间的密切相关性, 主流的工作采用联合模型来利用跨任务的共享知识. 但是ID和SF是两个具有强相关性的不同任务, 它们分别表征了话语的句级语义信息和词级信息, 这意味着两个任务的信息是异构的, 同时具有不同的粒度. 提出一种用于联合意图检测和槽位填充的异构交互结构, 采用自注意力和图注意力网络的联合形式充分地捕捉两个相关任务中异构信息的句级语义信息和词级信息之间的关系. 不同于普通的同构结构, 所提模型是一个包含不同类型节点和连接的异构图架构, 因为异构图涉及更全面的信息和丰富的语义, 同时可以更好地交互表征不同粒度节点之间的信息. 此外, 为了更好地适应槽标签的局部连续性, 利用窗口机制来准确地表示词级嵌入表示. 同时结合预训练模型(BERT), 分析所提出模型应用预训练模型的效果. 所提模型在两个公共数据集上的实验结果表明, 所提模型在意图检测任务上准确率分别达到了97.98%和99.11%, 在槽位填充任务上F1分数分别达到96.10%和96.11%, 均优于目前主流的方法.

跨模态交互融合与全局感知的RGB-D显著性目标检测

孙福明，胡锡航，武景宇，孙静，王法胜

2024, 35(4):1899-1913. DOI: 10.13328/j.cnki.jos.006833

摘要 (589) HTML (102) PDF 3.94 M (1132) 评论 (0) 收藏

摘要:近年来, RGB-D显著性检测方法凭借深度图中丰富的几何结构和空间位置信息, 取得了比RGB显著性检测模型更好的性能, 受到学术界的高度关注. 然而, 现有的RGB-D检测模型仍面临着持续提升检测性能的需求. 最近兴起的Transformer擅长建模全局信息, 而卷积神经网络(CNN)擅长提取局部细节. 因此, 如何有效结合CNN和Transformer两者的优势, 挖掘全局和局部信息, 将有助于提升显著性目标检测的精度. 为此, 提出一种基于跨模态交互融合与全局感知的RGB-D显著性目标检测方法, 通过将Transformer网络嵌入U-Net中, 从而将全局注意力机制与局部卷积结合在一起, 能够更好地对特征进行提取. 首先借助U-Net编码-解码结构, 高效地提取多层次互补特征并逐级解码生成显著特征图. 然后, 使用Transformer模块学习高级特征间的全局依赖关系增强特征表示, 并针对输入采用渐进上采样融合策略以减少噪声信息的引入. 其次, 为了减轻低质量深度图带来的负面影响, 设计一个跨模态交互融合模块以实现跨模态特征融合. 最后, 5个基准数据集上的实验结果表明, 所提算法与其他最新的算法相比具有显著优势.

HAO打卡系统：以组织智能成就智能组织

吴信东，朱晓宇，董丙冰，嵇圣硙，卜晨阳

2024, 35(4):1914-1933. DOI: 10.13328/j.cnki.jos.006838

摘要 (252) HTML (73) PDF 8.57 M (743) 评论 (0) 收藏

摘要:打卡可能出于私人目的, 没有组织关联, 比如记录个人的旅行日志; 也可能是公事需求, 属于组织考勤的一部分, 有时还会与多个组织关联. 因此, 打卡数据的保存、分享和分析需要精细化管理. HAO打卡是一个移动式轻量级打卡平台, 以个人和组织为两个抓手, 以人类智能(HI)、人工智能(AI)和组织智能(OI)相结合的HAO智能为技术驱动, 构建HAO打卡知识图谱, 通过提出HAO打卡闭环权限管理架构, 并辅以从粗粒度到细粒度的隐私权限管理办法, 在进行精细化考勤管理的同时保护用户的隐私, 从而推动新一代打卡系统的智能化变革. 在组织考勤分析方面, 提出四要素得分法和四要素考勤报表法, 通过打卡数据计算员工考勤得分, 生成精准全面的考勤报表, 为组织提供决策支持, 激发组织和个人的活力, 以组织智能成就智能组织.

多标记学习中基于交互表示的深度森林方法

吕沈欢，陈一赫，姜远

2024, 35(4):1934-1944. DOI: 10.13328/j.cnki.jos.006841

摘要 (216) HTML (73) PDF 4.65 M (633) 评论 (0) 收藏

摘要:在多标记学习中, 每个样本都与多个标记关联, 关键任务是如何在构建模型时利用标记之间的相关性. 多标记深度森林算法尝试在深度集成学习的框架下使用逐层的表示学习来挖掘标记之间的相关性, 并利用得到的标记概率表示提升预测精度. 然而, 一方面标记概率表示与标记信息高度相关, 这会导致其多样性较低. 随着深度森林的深度增加, 性能会下降. 另一方面, 标记概率的计算需要我们存储所有层数的森林结构并在测试阶段逐一使用, 这会造成难以承受的计算和存储开销. 针对这些问题, 提出基于交互表示的多标记深度森林算法(interaction- representation-based multi-label deep forest, iMLDF). iMLDF从森林模型的决策路径中挖掘特征空间中的结构信息, 利用随机交互树抽取决策树路径中的特征交互, 分别得到特征置信度得分和标记概率分布两种交互表示. iMLDF一方面充分利用模型中的特征结构信息来丰富标记间的相关信息, 另一方面通过交互表达式计算所有的表示, 从而使得算法无需存储森林结构, 大大地提升了计算效率. 实验结果表明: 在交互表示基础上进行表示学习的iMLDF算法取得了更好的预测性能, 而且针对样本较多的数据集, 计算效率比MLDF算法提升了一个数量级.

基于遗传算法的划分序乘积空间问题求解层选择

徐怡，邱紫恒

2024, 35(4):1945-1963. DOI: 10.13328/j.cnki.jos.006843

摘要 (298) HTML (60) PDF 5.15 M (705) 评论 (0) 收藏

摘要:划分序乘积空间作为一种新的粒计算模型, 可以从多个视角和多个层次对问题进行描述和求解. 其解空间是由多个问题求解层组成的格结构, 其中每个问题求解层由多个单层次视角构成. 如何在划分序乘积空间中选择问题求解层是一个NP难问题. 为此, 提出一种两阶段自适应遗传算法TSAGA (two stage adaptive genetic algorithm)来寻找问题求解层. 首先, 采用实数编码对问题求解层进行编码, 然后根据问题求解层的分类精度和粒度定义适应度函数. 算法第1阶段基于经典遗传算法, 预选出一些优秀问题求解层作为第2阶段初始种群的一部分, 从而优化解空间. 算法第2阶段, 提出随当前种群进化迭代次数动态变化的自适应选择算子、自适应交叉算子以及自适应大变异算子, 从而在优化的解空间中进一步选择问题求解层. 实验结果证明了所提方法的有效性.

针对MUS求解问题的加强剪枝策略

蒋璐宇，欧阳丹彤，董博文，张立明

2024, 35(4):1964-1979. DOI: 10.13328/j.cnki.jos.006845

摘要 (233) HTML (57) PDF 2.68 M (736) 评论 (0) 收藏

摘要:极小不可满足子集(minimal unsatisfiable subsets, MUS)的求解是布尔可满足性问题中的一个重要子问题. 对于一个给定的不可满足问题, 其MUS的求解能够反映出问题中导致其不可满足的关键原因. 然而, MUS的求解是一项极其耗时的任务, 不同的剪枝过程将直接影响到搜索空间的大小、算法的迭代次数, 从而影响算法的求解效率. 提出一种针对MUS求解的加强剪枝策略ABC (accelerating by critical MSS), 依据MSS、MCS、MUS这3者之间的对偶性和碰集关系特点, 提出cMSS和subMUS概念, 并总结出4条性质, 即每个MUS必是subMUS的超集, 进而在避免对MCS的碰集进行求解的情况下有效利用MUS和MCS互为碰集的特征, 有效避免求解碰集时的时间开销. 当subMUS不可满足时, 则subMUS是唯一的MUS, 算法将提前结束执行; 当subMUS可满足时, 则剪枝掉此节点, 进而有效避免对求解空间中的冗余空间进行搜索. 同时, 通过理论证明ABC策略的有效性, 并将其应用于目前最高效的单一化模型算法MARCO和双模型算法MARCO-MAM, 在标准测试用例下的实验结果表明, 该策略可以有效地对搜索空间进行进一步剪枝, 从而提高MUS的枚举效率.

分组密码复杂线性层可分性传播的MILP刻画方法

黄明，张莎莎，洪春雷，曾乐，向泽军

2024, 35(4):1980-1992. DOI: 10.13328/j.cnki.jos.006839

摘要 (276) HTML (97) PDF 7.07 M (763) 评论 (0) 收藏

摘要:混合整数线性规划(MILP)作为一种自动化搜索工具, 被广泛地应用于搜索分组密码的差分、线性、积分等密码性质. 提出一种基于动态选取策略构建MILP模型的新技术, 该技术在不同的条件下采用不同的约束不等式刻画密码性质的传播. 具体地, 从可分性出发根据输入可分性汉明重量的不同, 分别采用不同的方法构建线性层可分性传播的MILP模型. 最后, 将该技术应用于搜索uBlock和Saturnin算法的积分区分器. 实验结果表明: 对于uBlock128算法, 该技术可以搜索到比之前最优区分器多32个平衡比特的8轮积分区分器. 除此之外, 搜索到uBlock128和uBlock256算法比之前最优区分器更长一轮的9和10轮积分区分器. 对于Saturnin256算法, 同样搜索到比之前最优区分器更长一轮的9轮积分区分器.

传输控制中的确认机制研究

李彤，郑凯，徐恪

2024, 35(4):1993-2021. DOI: 10.13328/j.cnki.jos.006939

摘要 (674) HTML (70) PDF 7.84 M (855) 评论 (0) 收藏

摘要:Internet传输层协议需要依赖于确认(ACK)机制提供的反馈信息, 实现拥塞控制和可靠传输等功能. 以Internet传输协议演化的历史为线索, 回顾传输控制领域中的确认机制, 并讨论现有确认机制中需要解决的问题; 基于“类型-触发条件-信息” 三要素, 提出按需确认机制及其设计原则, 重点分析确认机制和拥塞控制、丢包恢复等传输协议子模块之间的耦合关系; 结合设计原则, 详细阐述一种可行的按需确认机制实现——TACK机制, 并对相关概念进行系统的、深入的分析和澄清. 最后结合按需确认机制面临的挑战, 给出几个有意义的研究方向.

面向指-笔混合输入的交互原语和交互模型研究

仝青山，康文惠，付强，黄进，田丰，戴国忠

2024, 35(4):2022-2038. DOI: 10.13328/j.cnki.jos.006909

摘要 (247) HTML (79) PDF 9.53 M (772) 评论 (0) 收藏

摘要:随着触摸设备的普及, 指、笔输入已成为移动办公的一种主流输入方式. 然而现有的应用主要以手指或笔通道中的一种作为输入, 限制了用户的交互空间. 同时, 现有的指-笔混合研究主要关注串行的指-笔分工协作和特定交互任务的并行处理, 并没有系统地考虑并行协作机制和不同通道输入之间的意图关联. 为此, 提出一种面向指-笔混合输入的交互模型; 结合用户指-笔协作的行为习惯定义指-笔混合交互原语, 拓展指、笔交互空间; 继而利用部分可观察马尔可夫决策过程提出基于时序信息的指-笔混合输入意图提取方法, 用以增量式地提取多义性交互原语的交互意图. 最后通过一个用户实验说明指-笔混合输入的优势.

基于人体和场景上下文的多人3D姿态估计

何建航，孙郡瑤，刘琼

2024, 35(4):2039-2054. DOI: 10.13328/j.cnki.jos.006837

摘要 (261) HTML (89) PDF 7.55 M (779) 评论 (0) 收藏

摘要:深度歧义是单帧图像多人3D姿态估计面临的重要挑战, 提取图像上下文对缓解深度歧义极具潜力. 自顶向下方法大多基于人体检测建模关键点关系, 人体包围框粒度粗背景噪声占比较大, 极易导致关键点偏移或误匹配, 还将影响基于人体尺度因子估计绝对深度的可靠性. 自底向上的方法直接检出图像中的人体关键点再逐一恢复3D人体姿态. 虽然能够显式获取场景上下文, 但在相对深度估计方面处于劣势. 提出新的双分支网络, 自顶向下分支基于关键点区域提议提取人体上下文, 自底向上分支基于三维空间提取场景上下文. 提出带噪声抑制的人体上下文提取方法, 通过建模“关键点区域提议”描述人体目标, 建模姿态关联的动态稀疏关键点关系剔除弱连接减少噪声传播. 提出从鸟瞰视角提取场景上下文的方法, 通过建模图像深度特征并映射鸟瞰平面获得三维空间人体位置布局; 设计人体和场景上下文融合网络预测人体绝对深度. 在公开数据集MuPoTS-3D和Human3.6M上的实验结果表明: 与同类先进模型相比, 所提模型HSC-Pose的相对和绝对3D关键点位置精度至少提高2.2%和0.5%; 平均根关键点位置误差至少降低4.2 mm.

HiLog：OpenHarmony的高性能日志系统

吴圣垚，王枫，武延军，凌祥，屈晟，罗天悦，吴敬征

2024, 35(4):2055-2075. DOI: 10.13328/j.cnki.jos.006900

摘要 (588) HTML (117) PDF 3.74 M (1218) 评论 (0) 收藏

摘要:日志是计算机系统中记录事件状态信息的的重要载体, 日志系统负责计算机系统的日志生成、收集和输出. OpenHarmony是新兴的、面向全设备、全场景的开源操作系统. 在所述工作之前, 包括日志系统在内OpenHarmony有许多关键子系统尚未构建, 而OpenHarmony的开源特性使第三方开发者可以为其贡献核心代码. 为了解决OpenHarmony日志系统缺乏的问题, 主要开展如下工作: ① 分析当今主流日志系统的技术架构和优缺点; ② 基于OpenHarmony操作系统的异构设备互联特性设计HiLog日志系统模型规范; ③ 设计并实现第1个面向OpenHarmony的日志系统HiLog, 并贡献到OpenHarmony主线; ④ 对HiLog日志系统的关键指标进行测试和对比试验. 实验数据表明, 在基础性能方面, HiLog和Log的日志写入阶段吞吐量分别为1 500 KB/s和700 KB/s, 相比Android日志系统吞吐量提升114%; 在日志持久化方面, HiLog可以3.5%的压缩率进行持久化, 并且丢包率小于6‰, 远低于Log. 此外, HiLog还具备数据安全、流量控制等新型实用能力.

榫卯：一种可组合的定制化内存分配框架

欧阳湘臻，朱怡安，史先琛

2024, 35(4):2076-2098. DOI: 10.13328/j.cnki.jos.006830

摘要 (454) HTML (68) PDF 6.53 M (863) 评论 (0) 收藏

摘要:动态内存分配器是现代应用程序重要组成部分, 它负责管理空闲内存并处理用户内存请求. 现代通用动态内存分配器能够提供较为平衡的性能与内存利用率, 但考虑到不同应用场景的内存使用情况和优化目标不同, 使用通用内存分配器并非最优解. 针对应用场景定制的专用内存分配器通常能够更好地满足系统需要, 然而编写专用内存分配器较为费时, 也容易出错. 开发者通常使用内存分配框架搭建专用动态内存分配器. 然而, 现有的内存分配框架存在抽象能力较差, 组合性与定制性不足的问题. 为此, 从函数式编程视角审视动态内存分配过程, 基于函数可组合性提出了一种可组合的定制化动态内存分配器框架榫卯. 榫卯框架将系统内存分配抽象为多个互不耦合的内存分配层级函数的组合, 这些层级函数能够扩展出策略槽, 以提供更高的定制性和组合性. 榫卯框架基于标准C实现, 依赖C预处理器的元编程特性实现层级函数组合的零性能开销. 开发者能够通过组合与定制分配器的层级函数, 快速构建出适合应用场景的内存分配器. 为了证明榫卯框架的有效性, 使用榫卯框架构建了3种不同的内存分配器实例: tlsfcc, hslab与wfslab, 其中tlsfcc针对多核嵌入式应用场景, 通过替换同步策略优化并发吞吐率; hslab是核心感知的slab式分配器, 通过定制线程缓存优化在异构硬件的性能; wfslab是低延迟的无等待/无锁分配器. 为了评估这3种内存分配器实例, 通过运行基准测试对比现有内存分配器. 实验分别在8核x86/64平台和8核异构aarch64嵌入式平台进行. 实验表明tlsfcc与原始tlsf分配器相比, 在上述两个平台上分别取得了平均1.76和1.59的加速比; 对比hslab与类似架构的tcmalloc, 它在两个平台的平均执行时间仅为tcmalloc的69.6%和85.0%; wfslab则取得了参与实验对比的内存分配器中最小的最差情况内存请求延迟, 其中包括目前最先进的无锁内存分配器mimalloc和snmalloc.

微信服务号

微信订阅号

当期目录

年份

刊期