王成济(1993-), 男, 博士生, 主要研究领域为多媒体信息检索, 机器学习
苏家威(1993-), 男, 博士生, 主要研究领域为医学图像处理, 机器学习
罗志明(1989-), 男, 博士, 副教授, CCF专业会员, 主要研究领域为计算机视觉, 机器学习
曹冬林(1977-), 男, 博士, 助理教授, CCF专业会员, 主要研究领域为Web信息检索, 自然语言处理
林耀进(1980-), 男, 博士, 教授, 主要研究领域为数据挖掘, 机器学习
李绍滋(1963-), 男, 博士, 教授, CCF高级会员, 主要研究领域为计算机视觉, 机器学习, 多媒体信息检索
文本-图像行人检索旨在从行人数据库中查找符合特定文本描述的行人图像. 近年来受到学术界和工业界的广泛关注. 该任务同时面临两个挑战: 细粒度检索以及图像与文本之间的异构鸿沟. 部分方法提出使用有监督属性学习提取属性相关特征, 在细粒度上关联图像和文本. 然而属性标签难以获取, 导致这类方法在实践中表现不佳. 如何在没有属性标注的情况下提取属性相关特征, 建立细粒度的跨模态语义关联成为亟待解决的关键问题. 为解决这个问题, 融合预训练技术提出基于虚拟属性学习的文本-图像行人检索方法, 通过无监督属性学习建立细粒度的跨模态语义关联. 第一, 基于行人属性的不变性和跨模态语义一致性提出语义引导的属性解耦方法, 所提方法利用行人的身份标签作为监督信号引导模型解耦属性相关特征. 第二, 基于属性之间的关联构建语义图提出基于语义推理的特征学习模块, 所提模块通过图模型在属性之间交换信息增强特征的跨模态识别能力. 在公开的文本-图像行人检索数据集CUHK-PEDES和跨模态检索数据集Flickr30k上与现有方法进行实验对比, 实验结果表明了所提方法的有效性.
The text-based person search aims to find the image of the target person conforming to a given text description from a person database, which has attracted the attention of researchers from academia and industry. It faces two challenges: fine-grained retrieval and a heterogeneous gap between images and texts. Some methods propose to use supervised attribute learning to obtain attribute-related features and build fine-grained associations between tests and images. The attribute annotations, however, are hard to obtain, which leads to poor performance of these methods in practice. Determining how to extract attribute-related features without attribute annotations and establish fine-grained and cross-modal semantic associations becomes a key problem to be solved. To address this issue, this study incorporates the pre-training technology and proposes a text-based person search via virtual attribute learning, which builds the cross-modal semantic associations between images and texts at a fine-grained level through unsupervised attribute learning. Specifically, in view of the invariance and cross-modal consistency of pedestrian attributes, a semantics-guided attribute decoupling method is proposed, which utilizes identity labels as the supervision signal to guide the model to decouple attribute-related features. Then, a feature learning module based on semantic reasoning is presented, which utilizes the relations between attributes to construct a semantic graph. This model uses the graph model to exchange information among attributes to enhance the cross-modal identification ability of features. The proposed approach is compared with existing methods on the public text-based person search dataset CUHK-PEDES and cross-modal retrieval dataset Flickr30k, and the experimental results verify the effectiveness of the proposed approach.
行人检索旨在从图像数据库或视频集中找到特定的行人, 达到跨时空行人跟踪的目的. 自动化地行人检索是智能安防系统的重要组成部分, 广泛应用于安防监控、群体性事件识别等. 行人检索技术是当前计算机视觉领域中具有极高研究和应用价值的前沿方向之一. 当前的行人检索方法可以根据输入数据类型的不同简要地分为两大类: 单模态行人检索[
文本-图像跨模态行人检索示例
在大型数据集上预训练的特征提取模型隐式地学习到通用的语义知识. 研究人员提出借助预训练模型的表征能力提取多模态的行人特征表示[
事实上, 属性是行人固有的特征具有不变性, 且描述同一行人的不同类型的数据存在天然的语义一致性. 其中, 语义一致性是指属性的模态无关性. 因此, 利用属性的不变性和跨模态语义一致性解耦行人的属性信息, 可以得到属性相关的特征. 其次, 属性之间存在依存关系, 例如“裙子”一般与“女性”同时出现. 这表明利用属性间的关联可以更好地解耦属性信息. 此外, 单一的属性不足以区分不同的行人. 与之不同的是属性的组合携带大量可用于识别行人身份的信息. 这表明充分地建模属性的全局上下文信息可以获得更加鲁棒的跨模态行人特征表示.
有监督属性学习与无监督属性解耦
然而, 现有的基于属性建立细粒度跨模态语义关联的方法依赖于属性标注, 这些方法利用有监督属性学习引导模型提取属性相关的特征. 但多模态行人数据的属性标签难以获取, 手工标注代价高等问题限制这类方法的应用. 因此, 如何在没有属性标签的情况下自动地解耦属性相关特征, 建立细粒度的跨模态语义关联. 本文提出基于虚拟属性学习的文本-图像行人检索方法, 利用行人的身份标签进行虚拟属性学习引导模型解耦属性相关特征, 通过虚拟属性建立细粒度的跨模态语义关联.
本文的主要贡献如下.
(1) 提出基于虚拟属性学习的文本-图像行人检索方法. 该方法无需标注属性标签就可以完成细粒度的跨模态关联分析与挖掘, 摆脱对属性标注的依赖.
(2)针对没有属性标签无法提取到属性相关特征的问题, 提出语义引导的属性解耦方法. 该方法使用行人的身份标签作为监督信号引导模型解耦属性相关特征. 无需属性标签就可以充分挖掘多样的属性信息, 从而建立细粒度的跨模态语义关联.
(3) 提出基于语义推理的特征学习模块, 利用属性间的共现关系构建语义图. 一方面, 通过语义图在属性之间交换信息, 补全缺失的属性信息; 另一方面, 多层图模型可以充分挖掘属性的上下文信息, 从而提升特征的识别能力.
通过在CUHK-PEDES数据集上的实验设计和分析, 验证了所提出方法的有效性. 在通用跨模态检索数据集Flickr30k上的实验证明了所提出方法的泛化性. 本文第1节介绍相关工作. 第2节介绍提出的基于虚拟属性学习的文本-图像行人检索方法. 第3节为实验设置与结果分析. 第4节为本文结论.
当前的文本-图像跨模态行人检索方法可以简要分为3类: 基于跨模态交互的方法、基于联合特征映射的方法和基于属性学习的方法.
基于跨模态交互的方法旨在通过文本与图像的跨模态交互计算文本与图像的相似度. Li等人[
基于联合特征映射的方法将两个模态的数据映射到同一空间中. 在共享的特征空间中进行特征学习和跨模态匹配. Zhang等人[
基于属性学习的方法利用属性的跨模态语义一致性提取跨模态的细粒度语义表征, 从而建立细粒度的跨模态语义关联, 提升模型的检索精度. 具有代表性的方法有Aggarwal等人[
基于属性学习的方法融合了基于跨模态交互的方法和基于联合特征映射的方法的优点, 能够在细粒度上关联图像和文本同时具有较快的推理速度. 针对没有属性标签无法提取属性相关特征的问题, 提出基于虚拟属性学习的文本-图像行人检索方法. 与之前的方法不同, 本文所提出的方法无需属性标签和预训练的属性相关特征提取模型. 所提出的语义引导的属性解耦方法可以自动地从文本和图像中解耦出属性相关特征, 在细粒度上建立跨模态语义关联.
属性是结构化的行人语义特征描述着装、发型、携带物体等诸多可识别的信息, 其对光照变化和视角变化都具有鲁棒性. 史金婉等人[
文献[
本文方法利用属性在细粒度上关联图像和文本提升特征的鉴别能力. 与上述方法不同, 本文方法基于属性的不变性和跨模态语义一致性, 在没有使用属性标签的前提下自动地解耦属性信息获取跨模态的属性相关特征, 提升模型检索精度.
属性是与模态无关的细粒度语义信息. 提取行人属性相关特征能有效地建立细粒度跨模态语义关联, 提升特征的跨模态识别能力. 为摆脱对属性标签的依赖, 提出基于虚拟属性学习的文本-图像行人检索方法, 所提出方法的网络结构如
本文方法整体框架示意图
下面给出文本-图像跨模态行人检索的形式化定义. 假定数据集为
如
预训练神经网络结构
模态 | 网络 | 基本结构 | 网络深度 | 特征维度 |
图像 | VGG[ |
卷积层 | 16 | 512 |
MobileNet[ |
深度可分离卷积层 | 28 | 1024 | |
ResNet[ |
卷积层、残差层 | 50 | 2048 | |
文本 | BERT[ |
自注意力层 | 12 | 768 |
语义引导的属性解耦模块旨在使用属性语义嵌入引导模型提取属性相关的特征表示. 属性语义嵌入编码了属性信息. 使用与模态无关的属性语义嵌入引导模型学习, 可以使得模型更加关注属性相关的图像区域或词语, 学习到跨模态的属性相关特征表示. 因此, 如何合理利用属性的不变性和跨模态语义一致性自动地解耦属性信息成为无监督属性解耦的关键问题. 受属性的跨模态一致性和行人属性的不变性的启发, 提出使用行人的身份标签作为监督信号, 引导模型进行属性解耦.
对于每一个图像区域
其中,
最后, 使用加权求和的方式聚合所有位置的图像特征, 得到属性相关的图像特征表示. 与属性
重复上述过程
其中,
同理, 对于每一个词语
在得到输入的属性预测和行人的属性分布之后, 根据行人的属性不变性设计中心点损失函数, 给每一个行人提供一个属性分布中心, 使得同一行人不同样本的属性分布尽可能地靠近其属性分布中心缩小同一行人不同样本间的属性分布的距离. 采用如下损失函数约束同一行人不同样本的属性分布的距离:
其中,
本文设计基于属性的跨模态匹配损失限制身份标签相同的图像和文本的属性分布的距离小于身份标签不同的图像和文本的距离. 属性分布的距离定义如下:
基于属性的跨模态匹配损失定义如下:
其中,
为保证模型学习到多样化的属性相关特征提出的基于对比学习的属性解耦损失定义如下:
最终的属性解耦损失函数定义如下:
属性之间存在语义关联, 单一属性缺少上下文信息不足以区分不同的行人. 对属性之间的关联进行建模可以很好地挖掘属性的上下文信息, 提升模型的跨模态表征能力. 基于语义推理的特征学习以属性相关特征为节点、属性之间的共现概率为边, 使用图神经网络(GNN)构造语义图, 基于图模型在属性之间交换信息, 对属性的全局上下文信息进行建模提升特征的跨模态识别能力.
首先, 构建语义图
其中,
其中,
为使得语义增强的图像和文本特征更好地保留行人的身份信息, 可以最大化特征与行人身份的相关性. 计算每个特征层输出的特征
其中,
语义增强的特征可以提取丰富的细粒度语义信息, 但是仍缺少行人的全局信息. 图像和文本的全局特征分别编码图像和文本的空间分布, 携带具有鉴别力的全局信息. 将全局特征与语义增强的特征融合, 可以使得模型获得更加具有鉴别力的跨模态行人特征表示. 两个模态的行人特征表示如下:
其中,
本文使用如下三元组损失训练模型:
其中,
综合公式(9)、公式(13)和公式(15), 总体目标函数表示如下:
其中,
本节先说明实验设置. 然后, 在公开数据集上与多种现有方法进行对比说明本文方法的性能. 之后, 通过销蚀实验分析本文方法各个部分的作用. 最后, 通过实验分析各个损失函数的重要性.
● 数据集. 为验证本文提出方法的有效性, 我们在当前公开的大型文本-图像跨模态行人检索数据集CUHK-PEDES[
数据集划分
数据集 | CUHK-PEDES | Flickr30k | ||||
行人身份 | 图片 | 文本描述 | 图片 | 文本描述 | ||
训练集 | 11003 | 34054 | 68126 | 29783 | 148915 | |
验证集 | 1000 | 3078 | 6156 | 1000 | 5000 | |
测试集 | 1000 | 3074 | 6148 | 1000 | 5000 |
● 评价指标. 我们采用累计匹配特性(cumulative matching characteristic, CMC)评价模型的好坏. CMC值统计的是目标图像出现在前
● 实现细节. 本文使用TensorFlow实现
● 测试设置. 在测试阶段, 分别提取图像特征
本文方法与其他方法在CUHK-PEDES数据集上的比较结果 (%)
方法 | 主干网络 | 预训练 | 属性学习 | Rank-1 | Rank-5 | Rank-10 |
注: “-”代表原论文没有报告此项结果, “×”代表没有使用该项, “√”代表使用该项 | ||||||
GNA-RNN (CVPR 2017)[ |
VGG-16 | CNN | × | 19.05 | - | 53.64 |
IATV (ICCV 2017)[ |
CNN | × | 25.94 | - | 60.48 | |
PWM-ATH (WACV 2018)[ |
CNN | × | 27.14 | 49.45 | 61.02 | |
Dual-Path (TOMM 2020)[ |
CNN | × | 32.15 | 54.42 | 64.30 | |
GLA (ECCV 2018)[ |
CNN | × | 43.58 | 66.93 | 76.26 | |
GARN (TIP 2021)[ |
CNN | × | 46.25 | 67.48 | 76.84 | |
PWA (AAAI 2020)[ |
姿态估计模型 | × | 47.82 | 69.83 | 78.31 | |
本文方法 | CNN | √ | ||||
CMPC (ECCV 2018)[ |
MobileNet | CNN | × | 49.37 | 71.69 | 79.27 |
GARN (TIP 2021)[ |
CNN | × | 52.75 | 74.36 | 81.85 | |
TVFR (ICMR 2021)[ |
CNN | × | 53.87 | 75.25 | 83.47 | |
CMAAM (WACV 2020)[ |
CNN | √ | 55.13 | 76.14 | 83.77 | |
本文方法 | CNN | √ | ||||
Dual-Path (TOMM 2020)[ |
ResNet-50 | CNN | × | 44.40 | 66.26 | 75.07 |
GARN (TIP 2021)[ |
CNN | × | 52.25 | 73.51 | 81.12 | |
AATE (TMM 2020)[ |
CNN | √ | 52.42 | 74.98 | 82.74 | |
MIA (TIP 2020)[ |
CNN | × | 53.10 | 75.00 | 82.90 | |
A-GANet (MM 2019)[ |
目标检测模型 | × | 53.14 | 74.03 | 82.95 | |
PWA (AAAI 2020)[ |
姿态估计模型 | × | 54.12 | 75.45 | 82.97 | |
CMKA (TIP 2021)[ |
CNN | × | 54.69 | 73.65 | 81.86 | |
ViTAA (ECCV 2020)[ |
语义分割模型 | √ | 55.97 | 75.84 | 83.52 | |
本文方法 | CNN | √ |
我们可以得到以下的观察结果.
第一, 当使用相同的主干网络时, 本文的方法在3个评价指标上都取得最好的结果. 与之前的方法相比, 本文方法的检索准确率有较大幅度的提升. 首先, 在仅使用预训练的CNN模型的方法, 本文方法的实验结果大幅领先于CMKA[
第二, 与使用有监督属性学习的方法比较. AATE[
综上所述, 本文方法在文本-图像跨模态行人检索任务上表现优异, 可以: 1)降低现有方法对属性标注的需求, 2)避免预训练模型的不确定性带来的干扰. 本文方法改善现有方法在特征鉴别力不足的问题. 实验结果表明, 提出的无监督属性解耦可以有效地弥合图像与文本间的异构鸿沟. 对比其他使用预训练模型的方法, 例如, PWA[
本文方法与ViTAA模型在CUHK-PEDES数据集的检索结果对比
方法 | 查询文本 | |
the man is wearing a black and white striped shirt he is wearing black shorts he has on sandals | the woman is wearing a mid length purple dress with matching pull over she has short brown hair | |
本文方法 |
|
|
ViTAA[ |
|
|
第一, 不准确的预训练分割模型导致错误的检索结果. 第1个样例检索结果中的第2张和第4张图像中的行人没有“shorts”, ViTAA则根据腿部特征判定“wearing shorts”; 第5张图像中的男子的特征不明显, ViTAA受到背景的干扰判定其“wearing a black and white striped shirt”. 以上结果由于预训练的行人分割模型在原有数据集上过拟合导致分割出的行人部位不准确, 致使ViTAA学习到错误的匹配. 同样的情况也能够在第2个样例的检索结果中发现. 本文方法仅使用预训练CNN模型提取特征. 预训练CNN模型具有良好的泛化性. 本文方法能够避免由于预训练模型的不确定性导致的噪声干扰.
第二, ViTAA直接学习属性的跨模态匹配而忽略属性的全局上下文. 对属性的全局上下文建模可以更加全面和立体的提取行人特征表示. ViTAA直接学习属性的跨模态匹配. 会导致当某一个属性的特征不明显时, 模型会忽略该属性导致错误的匹配结果. 提出的基于语义推理的特征学习可以充分地建模属性的全局上下文获得更加鲁棒的跨模态行人特征表示.
为说明本文方法的泛化性,
本文方法与其他方法在Flickr30k数据集上的比较结果 (%)
方法 | 图像检索文本 | 文本检索图像 | |||||
Rank-1 | Rank-5 | Rank-10 | Rank-1 | Rank-5 | Rank-10 | ||
CMPC (ECCV 2018)[ |
49.6 | 76.8 | 86.1 | 37.3 | 65.7 | 75.5 | |
Dual-Path (TOMM 2020)[ |
55.6 | 81.9 | 89.5 | 39.1 | 69.2 | 80.9 | |
CMKA (TIP 2021)[ |
55.7 | 82.9 | 90.0 | 45.0 | 73.4 | 82.7 | |
GARN (TIP 2021)[ |
84.6 | 90.4 | 44.2 | 71.2 | 80.3 | ||
基线方法 | 49.2 | 75.8 | 85.7 | 37.5 | 65.4 | 75.2 | |
本文方法 | 59.8 |
第一, 我们通过消减相应的模块分析不同部件(包括语义引导的属性解耦ATT、基于语义推理的特征学习ASR、串接语义增强的特征和全局特征FF及预训练语言模型BERT)的贡献. 销蚀实验结果见
在CUHK-PEDES数据集上, 每种模块的销蚀实验结果 (%)
编号 | 方法 | Rank-1 | Rank-5 | Rank-10 |
1 | 基准方法 | 48.52 | 71.57 | 80.36 |
2 | ATT | 50.52 | 72.60 | 80.70 |
3 | ATT+FF | 51.86 | 73.95 | 81.87 |
4 | ATT+ASR | 54.35 | 75.19 | 82.99 |
5 | ATT+ASR+FF | 55.24 | 76.13 | 83.26 |
6 | ATT+ASR+FF+BERT | 56.17 | 77.05 | 83.74 |
第二, 我们通过消减属性解耦模块损失函数对应项分析不同损失(包括中心点损失函数
虚拟属性的注意力热图可视化结果(红色越深表示相关性越高)
在CUHK-PEDES数据集上, 属性解耦模块损失函数的销蚀实验结果
编号 | 方法 | Rank-1 | Rank-5 | Rank-10 |
1 | 基线方法 | 48.52 | 71.57 | 80.36 |
2 | ATT (w/o
|
49.34 | 72.01 | 80.52 |
3 | ATT (w/o
|
49.25 | 72.13 | 80.54 |
4 | ATT (w/o
|
49.03 | 71.95 | 80.41 |
5 | ATT | 50.52 | 72.60 | 80.70 |
在本实验中, 通过改变
The experimental results for varying
在CUHK-PEDES数据集, 随参数
本文方法具有较高的检索效率和较好的可解释性. 本文提出的方法使用向量表示图像和文本, 通过比较向量的相似度能够实现快速地检索. 虚拟属性学习可以在细粒度上建立跨模态语义关联增强方法的可解释性. 但虚拟属性不是真实的属性. 从
本文提出基于虚拟属性学习的文本-图像行人检索方法. 第一, 基于属性的不变性和语义一致性提出语义引导的属性解耦方法. 该方法可以充分地解耦出多样化的属性信息并有效地利用行人属性建立细粒度的跨模态语义关联减少不同模态的异构鸿沟. 第二, 提出的基于语义推理的特征学习模块利用属性构建的语义图模型有效地增强特征的跨模态识别能力. 所提出的方法降低了对数据的标注要求, 通过在公开的文本-图像行人检索数据集和跨模态检索数据集上的实验对比, 表明了本文方法的有效性. 本文提出的方法可以应用于智能视频监控系统中, 比如, 协助办案人员快速筛查可疑人员、在人流量较大的场所(机场、火车站、游乐场等)寻找走失儿童或老人等.
本文提出的基于属性学习的文本-图像行人检索方法没有考虑到属性类别的不平衡问题. 真实数据中不同的属性类之间是不平衡. 下一步工作拟引入代价敏感学习对不同属性给予不同的权重. 并尝试采用聚类分析技术对图像和文本进行聚类. 使用类别中心初始化属性的语义嵌入, 根据聚类的结果对不同属性赋予不同权重. 未来还可以围绕多模态语义理解中的不确定性问题开展研究工作.
Nguyen DT, Hong HG, Kim KW, Park KR. Person recognition system based on a combination of body images from visible light and thermal cameras. Sensors, 2017, 17(3): 605. [doi: 10.3390/s17030605]
http://www.jos.org.cn/1000-9825/5664.htm]]>
http://www.jos.org.cn/1000-9825/5664.htm]]>
罗浩, 姜伟, 范星, 张思朋. 基于深度学习的行人重识别研究进展. 自动化学报, 2019, 45(11): 2032−2049. [doi: 10.16383/j.aas.c180154].
Luo H, Jiang W, Fan X, Zhang SP. A survey on deep learning based person re-identification. Acta Automatica Sinica, 2019, 45(11): 2032−2049 (in Chinese with English abstract). [doi: 10.16383/j.aas.c180154]
http://www.jos.org.cn/1000-9825/6083.htm]]>
http://www.jos.org.cn/1000-9825/6083.htm]]>
Zheng ZD, Zheng L, Garrett M, Yang Y, Xu ML, Shen YD. Dual-path convolutional image-text embeddings with instance loss. ACM Transactions on Multimedia Computing, Communications, and Applications, 2020, 16(2): 1–23. [doi: 10.1145/3383184]
Zha ZJ, Liu JW, Chen D, Wu F. Adversarial attribute-text embedding for person search with natural language query. IEEE Transactions on Multimedia, 2020, 22(7): 1836–1846. [doi: 10.1109/TMM.2020.2972168]
Niu K, Huang Y, Ouyang WL, Wang L. Improving description-based person re-identification by multi-granularity image-text alignments. IEEE Transactions on Image Processing, 2020, 29: 5542–5556. [doi: 10.1109/TIP.2020.2984883]
Chen W, Liu Y, Bakker EM, Lew MS. Integrating information theory and adversarial learning for cross-modal retrieval. Pattern Recognition, 2021, 117: 107983. [doi: 10.1016/j.patcog.2021.107983]
Jing Y, Wang W, Wang L, Tan TN. Learning aligned image-text representations using graph attentive relational network. IEEE Transactions on Image Processing, 2021, 30: 1840–1852. [doi: 10.1109/TIP.2020.3048627]
史金婉, 宋雪萌, 刘子鑫, 聂礼强. 基于时尚图谱增强的个性化互补服装推荐. 信息安全学报, 2021, 6(5): 181–198. [doi: 10.19363/J.cnki.cn10-1380/tn.2021.09.14].
Shi JW, Song XM, Liu ZX, Nie LQ. Fashion graph-enhanced personalized complementary clothing recommendation. Journal of Cyber Security, 2021, 6(5): 181–198 (in Chinese with English abstract). [doi: 10.19363/J.cnki.cn10-1380/tn.2021.09.14]
郑鑫, 林兰, 叶茂, 王丽, 贺春林. 结合注意力机制和多属性分类的行人再识别. 中国图象图形学报, 2020, 25(5): 936–945. [doi: 10.11834/jig.190185].
Zheng X, Lin L, Ye M, Wang L, He CL. Improving person re-identification by attention and multi-attributes. Journal of Image and Graphics, 2020, 25(5): 936–945 (in Chinese with English abstract). [doi: 10.11834/jig.190185]
Young P, Lai A, Hodosh M, Hockenmaier J. From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. Transactions of the Association for Computational Linguistics, 2014, 2: 67–78. [doi: 10.1162/tacl_a_00166]
Chen YC, Huang R, Chang H, Tan CQ, Xue T, Ma BP. Cross-modal knowledge adaptation for language-based person search. IEEE Transactions on Image Processing, 2021, 30: 4057–4069. [doi: 10.1109/TIP.2021.3068825]
徐童, 周培伦, 陈恩红. 多模态语义理解中的不确定性. 中国人工智能学会通讯, 2020, 10(9): 7–11.
Xu T, Zhou PL, Chen EH. Uncertainty in multimodal semantic understanding. Communications of the CAAI, 2020, 10(9): 7–11 (in Chinese).