2023, 34(5):1-16. DOI: 10.13328/j.cnki.jos.006766
摘要:文本-图像行人检索旨在从行人数据库中查找符合特定文本描述的行人图像. 近年来受到学术界和工业界的广泛关注. 该任务同时面临两个挑战: 细粒度检索以及图像与文本之间的异构鸿沟. 部分方法提出使用有监督属性学习提取属性相关特征, 在细粒度上关联图像和文本. 然而属性标签难以获取, 导致这类方法在实践中表现不佳. 如何在没有属性标注的情况下提取属性相关特征, 建立细粒度的跨模态语义关联成为亟待解决的关键问题. 为解决这个问题, 融合预训练技术提出基于虚拟属性学习的文本-图像行人检索方法, 通过无监督属性学习建立细粒度的跨模态语义关联. 第一, 基于行人属性的不变性和跨模态语义一致性提出语义引导的属性解耦方法, 所提方法利用行人的身份标签作为监督信号引导模型解耦属性相关特征. 第二, 基于属性之间的关联构建语义图提出基于语义推理的特征学习模块, 所提模块通过图模型在属性之间交换信息增强特征的跨模态识别能力. 在公开的文本-图像行人检索数据集CUHK-PEDES和跨模态检索数据集Flickr30k上与现有方法进行实验对比, 实验结果表明了所提方法的有效性.
2023, 34(5):1-15. DOI: 10.13328/j.cnki.jos.006767
摘要:尽管生成对抗网络在人脸图像生成和编辑领域取得了巨大的成功, 但在其潜在编码空间中寻找可以操作人脸语义属性的方向仍然是计算机视觉的一大挑战, 这一挑战的实现需要大量标记数据不断进行网络调优, 而搜集、标注类似数据存在诸多难点, 比如较高的技术门槛以及大量的人工成本. 最近的一些工作都在试图借助预训练模型来克服标记数据短缺的问题. 虽然这种做法已经被验证能够完成上述任务, 但在操作的准确性和结果的真实性上都无法满足真实人脸编辑场景的需求. 借助对比语言-图像预训练模型(CLIP)的图像文本联合表示能力将图像和文本内容编码在一个共享的潜在编码空间中, 借助于精心设计的网络结构和损失函数, 所提框架可以精准识别相关面部属性并学习一个多级残差映射网络, 所提网络可根据图像和文本内容编码预测潜在编码残差, 再借助图像生成预训练模型StyleGAN2完成高质量的人脸图像生成和编辑任务. 大量实验也证明了所提方法在操作准确性、视觉真实性和无关属性保留方面的优异表现.
2023, 34(5):1-17. DOI: 10.13328/j.cnki.jos.006768
摘要:卷积神经网络(convolutional neural network, CNN)在图像篡改检测任务中不断取得性能突破, 但在面向真实场景下篡改手段未知的情况时, 现有方法仍然无法有效地捕获输入图像的长远依赖关系以缓解识别偏差问题, 从而影响检测精度. 此外, 由于标注困难, 图像篡改检测任务通常缺乏精准的像素级图像标注信息. 针对以上问题, 提出一种预训练驱动的多模态边界感知视觉Transformer. 首先, 为捕获在RGB域中不可见的细微伪造痕迹, 引入图像的频域模态并将其与RGB空间域结合作为多模态嵌入形式. 其次利用ImageNet对主干网络的编码器进行训练以缓解当前训练样本不足的问题. 然后, Transformer模块被整合到该编码器的尾部, 以达到同时捕获低级空间细节信息和全局上下文的目的, 从而提升模型的整体表征能力. 最后, 为有效地缓解因伪造区域边界模糊导致的定位难问题, 构建边界感知模块, 其可以通过Scharr卷积层获得的噪声分布以更多地关注噪声信息而不是语义内容, 并利用边界残差块锐化边界信息, 从而提升模型的边界分割性能. 大量实验结果表明, 所提方法在识别精度上优于现有的图像篡改检测方法, 并对不同的篡改手段具有较好的泛化性和鲁棒性.
2023, 34(5):1-18. DOI: 10.13328/j.cnki.jos.006769
摘要:随着生成式对抗网络的出现, 从文本描述合成图像最近成为一个活跃的研究领域. 然而, 目前文本描述往往使用英文, 生成的对象也大多是人脸和花鸟等, 专门针对中文和中国画的研究较少. 同时, 文本生成图像任务往往需要大量标注好的图像文本对, 制作数据集的代价昂贵. 随着多模态预训练的出现与推进, 使得能够以一种优化的方式来指导生成对抗网络的生成过程, 大大减少了对数据集和计算资源的需求. 提出一种多域VQGAN模型来同时生成多种域的中国画, 并利用多模态预训练模型WenLan来计算生成图像和文本描述之间的距离损失, 通过优化输入多域VQGAN的隐空间变量来达到图片与文本语义一致的效果. 对模型进行了消融实验, 详细比较了不同结构的多域VQGAN的FID及R-precisoin指标, 并进行了用户调查研究. 结果表示, 使用完整的多域VQGAN模型在图像质量和文本图像语义一致性上均超过原VQGAN模型的生成结果.
2023, 34(5):1-11. DOI: 10.13328/j.cnki.jos.006770
摘要:大多数现有的视觉语言预训练方法侧重于理解任务, 并在训练时使用类似于BERT的损失函数(掩码语言建模和图像文本匹配). 尽管它们在许多理解类型的下游任务中表现良好, 例如视觉问答、图像文本检索和视觉蕴涵, 但它们不具备生成信息的能力. 为了解决这个问题, 提出了视觉语言理解和生成的统一多模态预训练(unified multimodal pre-training for vision-language understanding and generation , UniVL). UniVL能够处理理解任务和生成任务, 并扩展了现有的预训练范式, 同时使用随机掩码和因果掩码, 因果掩码即掩盖未来标记的三角形掩码, 这样预训练的模型可以具有自回归生成的能力. 将几种视觉语言理解任务规范为文本生成任务, 并使用基于模版提示的方法对不同的下游任务进行微调. 实验表明, 在使用同一个模型时, 理解任务和生成任务之间存在权衡, 而提升这两个任务的可行方法是使用更多的数据. UniVL框架在理解任务和生成任务方面的性能与最近的视觉语言预训练方法相当. 此外, 实验还证明了基于模版提示的生成方法更有效, 甚至在少数场景中它优于判别方法.
2023, 34(5):1-15. DOI: 10.13328/j.cnki.jos.006771
摘要:深度学习模型取得了令人瞩目的成绩, 但其训练依赖于大量的标注样本, 在标注样本匮乏的场景下模型表现不尽人意. 针对这一问题, 近年来以研究如何从少量样本快速学习的小样本学习被提了出来, 方法主要采用元学习方式对模型进行训练, 取得了不错的学习效果. 但现有方法: 1)通常仅基于样本的视觉特征来识别新类别, 信息源较为单一; 2)元学习的使用使得模型从大量相似的小样本任务中学习通用的、可迁移的知识, 不可避免地导致模型特征空间趋于一般化, 存在样本特征表达不充分、不准确的问题. 为解决上述问题, 将预训练技术和多模态学习技术引入小样本学习过程, 提出基于多模态引导的局部特征选择小样本学习方法. 所提方法首先在包含大量样本的已知类别上进行模型预训练, 旨在提升模型的特征表达能力; 而后在元学习阶段, 方法利用元学习对模型进行进一步优化, 旨在提升模型的迁移能力或对小样本环境的适应能力, 所提方法同时基于样本的视觉特征和文本特征进行局部特征选择来提升样本特征的表达能力, 以避免元学习过程中模型特征表达能力的大幅下降; 最后所提方法利用选择后的样本特征进行小样本学习. 在MiniImageNet、CIFAR-FS和FC100这3个基准数据集上的实验表明, 所提的小样本学习方法能够取得更好的小样本学习效果.
2023, 34(5):1-18. DOI: 10.13328/j.cnki.jos.006772
摘要:随着多模态医学图像在临床诊疗工作中的普及, 建立在时空相关性特性基础上的融合技术得到快速发展, 融合后的医学图像不仅可以保留各模态源图像的独有特征, 而且能够强化互补信息、便于医生阅片. 目前大多数方法采用人工定义约束的策略来实现特征提取和特征融合, 这容易导致融合图像中部分有用信息丢失和细节不清晰等问题. 为此, 提出一种基于预训练模型特征提取的双对抗融合网络实现MR-T1/MR-T2图像的融合. 该网络由一个特征提取模块、一个特征融合模块和两个鉴别网络模块组成. 由于已配准的多模态医学图像数据集规模较小, 无法对特征提取网络进行充分的训练, 又因预训练模型具有强大的数据表征能力, 故将预先训练的卷积神经网络模型嵌入到特征提取模块以生成特征图. 然后, 特征融合网络负责融合深度特征并输出融合图像. 两个鉴别网络通过对源图像与融合图像进行准确分类, 分别与特征融合网络建立对抗关系, 最终激励其学习出最优的融合参数. 实验结果证明了预训练技术在所提方法中的有效性, 同时与现有的6种典型融合方法相比, 所提方法融合结果在视觉效果和量化指标方面均取得最优表现.
2023, 34(5):1-18. DOI: 10.13328/j.cnki.jos.006773
摘要:近几年, 基于Transformer的预训练模型展现了强大的模态表征能力, 促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变, 并且能够使得模型获得更好的性能以及更快的推理速度. 然而, 该技术所提取的网格型视觉特征中缺乏区域型的视觉信息, 从而导致模型对对象内容的描述不精确. 因此, 预训练模型在图像描述生成任务上的适用性在很大程度上仍有待探索. 针对这一问题, 提出一种基于视觉区域聚合与双向协作学习的端到端图像描述生成方法(visual region aggregation and dual-level collaboration, VRADC). 为了学习到区域型的视觉信息, 设计了一种视觉区域聚合模块, 将有相似语义的网格特征聚合在一起形成紧凑的视觉区域表征. 接着, 双向协作模块利用交叉注意力机制从两种视觉特征中学习到更加有代表性的语义信息, 进而指导模型生成更加细粒度的图像描述文本. 基于MSCOCO和Flickr 30K两个数据集的实验结果表明, 所提的VRADC方法能够大幅度地提升图像描述生成的质量, 实现了最先进的性能.
2023, 34(5):1-24. DOI: 10.13328/j.cnki.jos.006774
摘要:近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能. 随着技术的发展, 多模态学习的重要性和必要性已经慢慢展现. 视觉语言学习作为多模态学习的重要部分, 得到国内外研究人员的广泛关注. 得益于Transformer框架的发展, 越来越多的预训练模型被运用到视觉语言多模态学习上, 相关任务在性能上得到了质的飞跃. 系统地梳理了当前视觉语言预训练模型相关的工作, 首先介绍了预训练模型的相关知识, 其次从两种不同的角度分析比较预训练模型结构, 讨论了常用的视觉语言预训练技术, 详细介绍了5类下游预训练任务, 最后介绍了常用的图像和视频预训练任务的数据集, 并比较和分析了常用预训练模型在不同任务下不同数据集上的性能.
2023, 34(5):1-18. DOI: 10.13328/j.cnki.jos.006775
摘要:视频问答作为一种跨模态理解任务, 在给定一段视频和与之相关的问题的条件下, 需要通过不同模态语义信息之间的交互来产生问题的答案. 近年来, 由于图神经网络在跨模态信息融合与推理方面强大的能力, 其在视频问答任务中取得了显著的进展. 但是, 大多数现有的图网络方法由于自身固有的过拟合或过平滑、弱鲁棒性和弱泛化性的缺陷使得视频问答模型的性能未能进一步提升. 鉴于预训练技术中自监督对比学习方法的有效性和鲁棒性, 在视频问答任务中利用图数据增强的思路提出了一种图网络自监督对比学习框架GMC. 该框架使用针对节点和边的两种数据增强操作来生成相异子样本, 并通过提升原样本与生成子样本图数据预测分布之间的一致性来提高视频问答模型的准确率和鲁棒性. 在视频问答公开数据集上通过与现有先进的视频问答模型和不同GMC变体模型的实验对比验证了所提框架的有效性.
2023, 34(5):1-27. DOI: 10.13328/j.cnki.jos.006808
摘要:目前, 各个国家和地区均已将大数据视为重要的战略资源. 然而, 大数据时代普遍存在数据流通困难、数据监管不足等问题, 致使数据孤岛现象严重, 数据质量低下, 数据要素潜能难以释放. 这驱使研究人员探索数据集成技术, 以打破数据壁垒、实现信息共享、提升数据质量, 进而激活数据要素潜能. 关系型数据和知识图谱作为两种至关重要的数据组织与存储形式, 在现实生活中应用广泛. 为此, 聚焦关系型数据和知识图谱, 归纳总结并分析实体解析、数据融合、数据清洗3方面的数据集成关键技术, 最后展望未来研究方向与趋势.