• 2026年第37卷第5期文章目次
    全 选
    显示方式: |
    • >专刊文章
    • 基于多模态异质图表征的专利推荐算法

      2026, 37(5). DOI: 10.13328/j.cnki.jos.007537

      摘要 (137) HTML (0) PDF 1.40 M (140) 评论 (0) 收藏

      摘要:通过专利推荐将科技创新成果转化为现实生活中的实际应用,让科学技术实现经济价值,对社会经济发展具有重大意义.然而,现有的专利推荐算法往往忽略了专利本身所包含的多模态信息,导致推荐结果无法全面反映专利的真实价值与应用潜力,进而影响专利与企业需求之间的匹配精度.为此,本文提出了一种基于多模态异质图网络的专利推荐算法(Multimodal Heterogeneous Graph Network for patent recommendation, MHGN).首先,本文利用预训练表征模型将专利的多属性文本信息、图像,以及企业信息进行初始化表征学习.随后,采用图注意力网络学习企业在不同模态下的偏好表征,在此基础上,本文进一步基于偏好表征的相似度学习企业-专利交互的关系权重,并设计了一个图卷积网络来学习企业和专利的节点偏好表征.最后,本文引入了适配向量,并使用注意力机制对节点偏好表征与多模态表征进行融合.在实验验证上,本文构建了4个真实的高校向企业转让的专利数据集,并与7个先进的基线模型进行了实验对比,结果表明,本文的模型在各项指标上均显著优于基线模型.本文将公开这四个数据集及模型的源代码,为专利推荐和科技成果转化领域的研究提供坚实的数据和模型基础,推动科技服务科技.

    • 姿态控制人物生成技术综述

      2026, 37(5). DOI: 10.13328/j.cnki.jos.007539

      摘要 (99) HTML (0) PDF 2.00 M (131) 评论 (0) 收藏

      摘要:生成技术的飞速发展揭示了相关技术在实际应用中的潜力,姿态控制人物生成技术(Pose Guided Person Image Generation)的核心目标是将输入的人物图像转换为指定姿态,同时保持人物外观的高度一致性.其技术可以广泛应用于虚拟试穿与时尚行业、广告内容生成领域的视频生成与编辑以及多模态结合生成等多个应用场景,推动用户体验和技术创新的进步.然而,尽管技术已经取得了显著进展,仍面临着多个挑战,包括姿态迁移过程中外观信息的有效提取和重排、不可见信息的生成、一致性保持、模型的高效训练与使用等.本文基于现有技术的挑战,详细分析了当前主流的姿态控制生成方法应对挑战的策略,并探讨了它们在实际应用中的可行性和局限性.同时,文章还讨论了姿态控制生成技术的常用生成模型,以及不同的姿态信息表示方法.此外,文章整理讨论了该技术常用的数据集大小、特点等信息、各项测试基准,并从虚拟试穿、视频生成与编辑、多模态结合生成等应用场景展开了讨论.此外,文章还揭示了目前方法仍遇到的个性化信息的保留、复杂场景的生成以及模型效率与实时性能等挑战,并讨论姿态控制生成技术可能的未来发展趋势,旨在为相关领域的研究人员提供系统的总结与参考,以期推动该技术在各行业中的应用与创新.

    • 视听协同的交互式步态干预训练方法

      2026, 37(5). DOI: 10.13328/j.cnki.jos.007540

      摘要 (98) HTML (0) PDF 1.79 M (108) 评论 (0) 收藏

      摘要:帕金森病(Parkinson's disease, PD)影响着全球近千万的患者, 尚无根治方法, 但循证医学表明基于感官信息提示的训练可以延缓疾病进展. 然而, 目前的研究大多基于单一模态, 且缺乏对于用户的感知与反馈. 为此, 本文提出了视听协同的多模态步态训练方法, 基于用户步态数据生成并动态调节多模态提示, 进而探究其辅助早期PD康复的可行性. 该方法首先构建了多模态提示生成框架, 通过用户步态数据计算周期和步高参数, 生成视觉与听觉协同的提示; 然后搭建了交互式干预训练系统, 基于用户步态变化动态调整视听提示, 实现了用户感知与多模态提示生成的交互式迭代. 最后, 在临床招募了40名早期PD患者(H&Y ≤2)进行实验, 与对照组相比视听协同组改善效果最优, 与基线状态相比视听协同组在训练中和训练后步态对称性平均提高20.776% (p=0.0001)和21.157% (p=0.0001), 病患侧步速平均提高33.924% (p=0.0001)和36.433% (p<0.0001). 结果同时表明视听协同提示, 能够更快速、更持久的帮助患者改善步态表现. 本文提出的基于步态数据生成多模态提示的训练方法, 为建立量化驱动的精准康复模式提供了新思路, 促进了多模态交互技术在医疗领域的应用与发展.

    • 基于音频-语言模型的端到端说话人日志系统

      2026, 37(5). DOI: 10.13328/j.cnki.jos.007541

      摘要 (149) HTML (0) PDF 980.55 K (137) 评论 (0) 收藏

      摘要:会议纪要、客服质检等应用对多说话人语音转写与归属判断的需求正日益增长。随着近年来多模态大语言模型的迅速发展,音频-语言模型因其能够同时理解音频信号与自然语言提示,并在自回归解码框架中统一处理两种模态的能力,天然契合这种“说话人日志”任务的需求,为端到端多说话人音频转写提供了全新的思路。本文提出一种基于音频-语言模型的端到端说话人日志系统,通过两阶段训练策略实现语音识别能力与判断说话人归属能力的协同优化,将音频-语言模型的能力泛化到具体的下游任务上。训练的第一阶段采用监督微调(SFT),在标准交叉熵损失中引入“说话人损失”,以加权的方式强化对稀疏说话人标签token的学习信号;第二阶段使用了基于组相对策略优化(GRPO)算法的强化学习策略,以联合指标cpCER与SA-CER设计奖励函数,突破了监督学习的性能瓶颈。本研究在双说话人的场景下开展实验,对比了热门开源工具3D-Speaker、Diar Sortformer和闭源的AssemblyAI、Microsoft Azure说话人日志API,并通过消融实验证明了训练方法的合理性,随后将实验拓宽至四说话人场景。结果表明,两阶段的训练方法在双说话人环境中显著提升了模型的语音识别能力与判断说话人归属的能力,而在四说话人场景中,常规的监督微调已取得较大收益。本文进一步讨论了大模型资源消耗、输入时长限制、跨域适应等问题,提出了引入流式音频编码器、课程学习、拒绝采样策略等未来优化方向。研究表明音频-语言模型在多说话人日志任务中具备显著潜力,但亦需在复杂声学场景下完成更多技术突破。

    • 融合音乐知识结构化表征的高精度符号音乐理解

      2026, 37(5). DOI: 10.13328/j.cnki.jos.007542

      摘要 (113) HTML (0) PDF 1.40 M (143) 评论 (0) 收藏

      摘要:符号音乐理解(Symbolic Music Understanding, SMU)是多媒体内容理解的重要任务之一,旨在从符号化音乐表示中提取旋律、力度、作曲家风格、情感与流派等多维音乐属性.现有方法在音乐序列依赖建模方面取得了显著进展,但是仍然存在两方面关键问题:(1)表示单一化:将复杂的音乐结构简化为线性符号序列,忽略了音乐固有的多维层级信息;(2)乐理知识缺乏:基于序列数据驱动的模型难以融入系统化乐理知识,限制了对音乐深层语义的理解.针对上述问题,本文提出了一种融合音乐知识结构化表征的高精度符号音乐理解模型CNN-Midiformer.该模型首先基于音乐理论构建音乐知识和音乐序列的结构化表征;其次,设计互补音乐特征提取模块,利用卷积神经网络(Convolutional Neural Networks, CNN)提取音乐知识结构化表征的深层局部特征,并通过Transformer编码器的自注意力机制捕获音乐序列的深层语义特征;最后,设计音乐知识自适应增强的特征融合模块,利用高效的交叉注意力机制将CNN提取的深层音乐知识特征与Transformer编码器的深层语义特征进行动态融合,实现对序列语境的感知与特征增强.在6个公开符号音乐理解数据集Pop1K7、ASAP、POP909、Pianist8、EMOPIA和ADL上的对比实验表明,本文提出的模型CNN-Midiformer在旋律识别、力度预测、作曲家分类、情感分类和流派分类5个符号音乐理解的基准下游任务上均优于最新方法,相较于基线模型精度平均提高0.21%~7.14%.

    • 基于CLIP引导标签优化的弱监督图像哈希

      2026, 37(5). DOI: 10.13328/j.cnki.jos.007543

      摘要 (121) HTML (0) PDF 3.06 M (153) 评论 (0) 收藏

      摘要:在大规模图像检索任务中,图像哈希技术通常依赖大量人工标注数据来训练深度哈希模型,但高昂的人工标注成本限制了其实际应用.为缓解对人工标注的依赖,现有研究尝试利用网络用户提供的文本作为弱监督信息,引导模型从图像中挖掘和文本关联的语义信息.然而,用户标签中普遍存在噪声,限制了这些的方法的性能.多模态预训练基础模型(如CLIP)具备较强的图像-文本对齐能力.受此启发,本文利用CLIP来优化用户标签,并提出一种CLIP引导标签优化的弱监督哈希方法(CLIP-guided Tag Refinement Hashing, CTRH).该方法包含三个主要内容:标签置换模块,标签赋权模块和标签平衡损失函数.标签置换模块通过微调CLIP挖掘图像关联的潜在标签.标签赋权模块利用优化后的文本和图像进行跨模态全局语义交互,学习判别性的联合表示.针对用户标签的分布不平衡问题,本文设计了一种标签平衡损失,通过动态加权增强模型对难样本的表征学习.在MirFlickr和NUS-WIDE两个通用数据集上与最先进的方法对比验证了所提方法的有效性.

    • 面向免训练视频问答的双重自适应冗余消除方法

      2026, 37(5). DOI: 10.13328/j.cnki.jos.007544

      摘要 (125) HTML (0) PDF 4.39 M (131) 评论 (0) 收藏

      摘要:近年来,免训练的视频问答模型因其即插即用的特性,成为轻量级多模态推理研究的热点.然而,包含丰富语义信息的高帧率视频往往具备天然的冗余性,导致在时间维度上存在信息密度与计算效率之间的平衡问题,传统的采样策略容易受到噪声帧的干扰.此外,在复杂的动态场景中,背景干扰物和局部身体部位等非目标区域会引入空间特征偏差,严重影响答案生成的可靠性.为解决以上两个问题,本文提出了双重自适应冗余消除框架,旨在通过时空冗余协同优化机制,实现免训练范式下视频语义理解精度与答案质量的系统性提升.首先,本文提出一种基于文本-视觉对齐与帧间语义一致的双关联时间采样方法,通过双向交互推理筛选视频关键帧序列,并同步剔除与文本语境冲突的冗余帧.其次,本文引入一种动态空间采样方法,从与提示相关的热力图候选区域中提取最大连通语义区域,以消除与问题无关的分散区域的干扰,增强空间特征表达的紧密相关性.本文所提方法在MSVD-QA、MSRVTT-QA、TGIF-QA和ActivityNet-QA等广泛使用的数据集上进行了实验,并在零样本(zero-shot)设定下与14个最新模型进行了对比评估.实验结果表明,本文方法在使用更少的视频特征序列情况下实现了更具竞争力的性能.可视化分析进一步验证了该方法在复杂场景中(如多人交互和细粒度动作识别)表现出更准确的时空定位能力.本文提出的双重自适应冗余消除框架通过协同优化时空冗余,在免训练范式下显著提升了视频问答任务的性能,能够生成准确且高质量的答案,展现出其在多模态视频理解中的应用潜力.

    • 交通场景多模态双阶反馈的三维目标检测方法

      2026, 37(5). DOI: 10.13328/j.cnki.jos.007545

      摘要 (127) HTML (0) PDF 1.60 M (132) 评论 (0) 收藏

      摘要:智能驾驶技术的最新进展主要体现在环境感知层面,其中传感器数据融合对提升系统性能至关重要。点云数据虽能提供精确三维空间描述,但存在无序性和稀疏性;图像数据则分布规则且稠密,二者融合可弥补单模态检测的不足。然而,现有融合算法存在语义信息有限、模态交互不足等问题,多模态三维目标检测在高精度检测方面仍有提升空间。针对此问题,本文提出一种创新的多传感器融合方法:利用RGB图像深度补全生成伪点云,与真实点云结合以识别感兴趣区域。关键改进包括:采用可变形注意力的多层次特征提取,自适应扩展感受野至目标区域;利用二维稀疏卷积对伪点云进行高效特征提取,发挥其图像域规则分布特性;提出双阶反馈机制,在特征级通过多模态交叉注意力解决数据对齐问题,在决策级采用高效融合策略,实现多阶段交互训练。该方法有效解决了伪点云精度受限与计算量增大的矛盾,显著提升了特征提取效率与检测精度。在KITTI数据集的实验表明,所提方法在三维交通要素检测任务中实现了更优的性能,充分验证了算法的有效性,为智能驾驶环境感知中的多模态融合提供了新思路。

当期目录


文章目录

过刊浏览

年份

刊期

联系方式
  • 《软件学报 》
  • 主办单位:中国科学院软件研究所
                     中国计算机学会
  • 邮编:100190
  • 电话:010-62562563
  • 电子邮箱:jos@iscas.ac.cn
  • 网址:https://www.jos.org.cn
  • 刊号:ISSN 1000-9825
  •           CN 11-2560/TP
  • 国内定价:70元
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号