细粒度视频分类旨在识别粗粒度大类中的细粒度子类,是计算机视觉中一个极具挑战的任务.考虑到视频数据的标注成本巨大,而图像的标注成本相对较小,且细粒度图像分类已经取得了较为显著的进展,一个自然的想法是不用标注,以无监督的方式将细粒度图像分类中学习到的知识自适应地迁移到细粒度视频分类中.然而,来源不同的图像和视频之间存在着域差异和模态差异,这导致细粒度图像分类的模型不能直接应用于细粒度视频分类.为了实现无监督的细粒度视频分类,提出一种无监督辨识适应网络,能够将辨识性定位能力从细粒度图像分类迁移到细粒度视频分类.进一步,提出一种渐进式伪标签策略来迭代地引导无监督辨识适应网络学习目标域视频的数据分布.在CUB-200-2011、Cars-196图像数据集和YouTube Birds、YouTube Cars视频数据集上验证该方法跨域、跨模态的适应能力,实验结果证明了该方法在无监督细粒度视频分类上的优势.
Fine-grained video categorization is a highly challenging task to discriminate similar subcategories that belong to the same basic-level category. Due to the significant advances in fine-grained image categorization and expensive cost of labeling video data, it is intuitive to adapt the knowledge learned from image to video in an unsupervised manner. However, there is a clear gap to directly apply the models learned from image to recognize the fine-grained instances in video, due to domain distinction and modality distinction between image and video. Therefore, this study proposes the unsupervised discriminative adaptation network (UDAN), which transfers the ability of discrimination localization from image to video. A progressive pseudo labeling strategy is adopted to iteratively guide UDAN to approximate the distribution of the target video data. To verify the effectiveness of the proposed UDAN approach, adaptation tasks between image and video are performed, adapting the knowledge learned from CUB-200-2011/Cars-196 datasets (image) to YouTube Birds/YouTube Cars datasets (video). Experimental results illustrate the advantage of the proposed UDAN approach for unsupervised fine-grained video categorization.
细粒度视觉分类(fine-grained visual categorization, 简称FGVC)是计算机视觉领域中一个重要且极具挑战的任务, 其旨在对粗粒度的大类(如鸟、车等)中相似的细粒度子类(如鸟类中的小白额燕鸥、普通燕鸥和福斯特燕鸥等)进行识别.细粒度视觉分类主要有两大挑战:
(1) 类内差异大.如
图像和视频之间存在的域差异和模态差异以及细粒度视觉分类任务的挑战: “类内差异大、类间差异小”
Distinctions of domains and modalities between image and video, as well as the challenges of fine-grained visual categorization: Large variance in the same subcategory and small variance among different subcategories
(2) 类间差异小.如
这两大挑战使得细粒度视觉分类任务十分困难.现有方法一般聚焦在图像领域的细粒度分类(即细粒度图像分类), 而视频领域的相关研究(即细粒度视频分类)还相对较少.但是, 随着手机等移动设备上视频娱乐交友软件的快速发展, 现在人们更加倾向于通过上传视频来记录他们的所见所闻以及表达他们的所感所想.视频数据的海量动态增长, 使得视频的管理变得极为重要, 而细粒度视频分类就是进行视频管理的重要手段之一.
近年来, 研究者开始逐渐关注到细粒度视频分类任务.Zhu等人[
但是, 从图像数据中学习到的模型很难直接应用于细粒度视频分类, 主要是因为来源不同的图像和视频之间存在两种类型的差异.
(1) 域差异: 如
(2) 模态差异: 图像只有静态的空域信息, 但是除此之外, 视频还有动态的时域信息, 这使得细粒度视频分类更具有挑战性.
因此, 将知识从图像数据迁移到视频数据包含了两层含义: (1) 从标准封闭数据集向真实应用场景的开放数据集的迁移; (2) 从空域向时域的迁移.此外, 考虑到细粒度视频分类“类内差异大、类间差异小”的挑战, 从图像到视频的无监督跨域和跨模态细粒度适应学习是一项极具挑战的任务.
因此, 本文将知识从源域标注的图像数据迁移到目标域未标注的视频数据, 旨在实现无监督的细粒度视频分类.首先, 本文提出了一种无监督辨识适应网络(unsupervised discriminative adaptation network, 简称UDAN), 能够将辨识性定位能力从细粒度图像分类迁移到细粒度视频分类; 然后, 本文提出了一种渐进式伪标签策略来迭代地引导无监督辨识适应网络学习目标域视频的数据分布.本文是细粒度视觉分类领域中, 从图像到视频跨域、跨模态的无监督工作, 能够有效地降低视频数据标注的巨大成本, 进一步推动细粒度视频分类的研究与应用.为了验证本文UDAN方法的有效性, 本文将辨识定位能力从CUB-200-2011、Cars-196图像数据集迁移到YouTube Birds、YouTube Cars视频数据集.实验结果验证了本文UDAN方法能够在无监督细粒度视频分类上取得当前最好的分类准确率.
本节对细粒度视觉分类、域适应的相关工作进行了简单概述.其中, 细粒度视觉分类是本文的目标任务, 而域适应是本文的聚焦点.
细粒度视觉分类是计算机视觉领域最具挑战的任务之一, 在学术界和工业界都得到了广泛关注.细粒度视觉分类在实际生活中也有着丰富的应用场景, 如无人驾驶、动植物保护、癌症检测、海洋作业等, 因此具有重要的研究和应用价值.
现有细粒度视觉分类一般聚焦在细粒度图像分类, 而细粒度视频分类的相关研究还相对较少.本节主要从细粒度图像分类和细粒度视频分类两个方面对细粒度视觉分类进行介绍.
细粒度图像分类一般划分为基于定位的方法、基于编码的方法以及基于文本或属性的方法.
● 基于定位的方法
由于不同的细粒度类别之间外表相似, 仅在一些局部区域存在细微的差异, 因此, 研究者们一般采取如下的方法流程: 首先定位到图像中的辨识性区域, 如鸟的头部、翅膀、尾部等, 这是现有细粒度图像分类方法的关键; 然后, 学习并提取辨识性区域的特征以进行细粒度分类.Zhang等人[
Krause等人[
● 基于编码的方法
一些工作聚焦于特征表示学习, 其主要方法是对卷积神经网络(convolutional neural network, 简称CNN)的特征图(feature map)进行统计编码, 以获取更好的特征表示.Lin等人[
● 基于文本或属性的方法
由于图像的文本描述信息(如这是一只白色翅膀、橙色喙的海鸥)以及图像的属性信息(如白色翅膀、橙色鸟喙等)能够提供图像中对象的细粒度辨识性信息, 与图像的视觉信息互为补充, 能够进一步促进图像的特征表示学习.因此, 研究者开始研究基于文本或属性的方法.He等人[
相比于图像, 视频通常包含了更丰富的辨识性信息, 因此, 研究者们开始关注细粒度视频分类任务.Saito等人[
域适应(domain adaptation)任务也是计算机视觉领域的研究热点之一.随着域的变化, 例如从源域数据(标准的图像分类数据集)到目标域数据(用户上传的视频), 输入数据
在细粒度视觉分类领域, 仅有少数工作者做了域适应的相关工作, 他们一般聚焦于从源域图像数据向目标域图像数据的迁移.Gebru等人[
本文研究的域适应任务的源域数据是标准的图像, 目标域数据是用户上传的真实视频.这涉及到模态的迁移(由图像到视频)、域的迁移、小规模数据向大规模数据的迁移.并且本文所研究的是无监督条件下的细粒度域适应任务, 目标域数据的标注信息是不可以在训练过程中使用的.这是一个无监督的从图像到视频的细粒度域适应工作.
本文提出了无监督辨识适应网络, 通过联合辨识最大均值差异准则(joint discriminative maximum mean discrepancy, 简称JDMMD), 将在源域图像数据中学到的辨识性定位能力迁移到目标域的视频数据中.进一步, 本文提出了一种渐进式伪标签策略, 通过迭代的方式引导UDAN模型近似估计目标域视频数据的分布.
本文所研究的问题是无监督条件下的细粒度视频分类, 旨在将知识从标注的源域图像数据迁移到未标注的目标域视频数据中.问题的定义描述如下:
给定标注的源域图像数据
本文提出了无监督辨识适应网络UDAN, 以实现无监督细粒度视频分类.
无监督辨识适应网络(UDAN)
Unsupervised discriminative adaptation network (UDAN)
进一步, 为了实现无监督辨识适应, 本文对ResNet50网络模型的损失函数进行了重新设计, 其定义如下:
在公式(1)中, 第1项
本文采用交叉熵损失函数
Yosinski等人的研究[
本文采用CNN网络的最后|
考虑到在细粒度视觉分类任务中, 细粒度类别之间的差异一般在对象的部件上, 因此, 本文提出了联合辨识最大均值差异.JDMMD能够充分利用图像中辨识性区域的特征, 有效地分析细粒度类别之间的差异.所以,
为了实现UDAN网络模型的端到端(end-to-end)训练, 本文设计了辨识性生成网络, 其包含两个部分: 辨识性生成层(discrimination generation layer)和感兴趣区域对齐层(RoI align layer)[
本文提出的辨识性生成网络的框架
Architecture of the proposed discrimination generator network
● 辨识性生成层
辨识性生成层是为了生成图像中辨识性区域的位置坐标信息, 然后作为感兴趣对齐层的输入.首先, 提取ResNet50网络模型最后一层卷积层的所有特征图, 并且通过平均池化操作把它们聚合成一个特征图
为了获得辨识性区域的位置坐标信息, 本文通过大津阈值(OTSU)[
● 感兴趣区域对齐层
感兴趣区域对齐层是为了生成图像中辨识性区域对应的特征图, 采用双线性插值算法来计算对应区域的特征, 有效避免了RoI Pooling的量化损失.
经过辨识性生成网络, 可以获得源域数据和目标域数据对应的辨识性联合分布
与JAN方法[
公式(1)中的第3项
目标域视频进行抽帧; 然后, 利用这些视频帧来训练UDAN网络模型.其定义如下:
与
介绍.
如果能够直接从目标域的视频数据中学习, 本文UDAN方法将会取得更好的细粒度分类效果.在无监督条件下, 目标域视频数据的标注信息不能使用, 然而在源域图像数据上训练得到的UDAN网络模型能够较为准确地对目标域的部分视频帧进行分类.因此, 本文提出了一种渐进式伪标签策略, 能够有效地给目标域的部分视频帧打标签, 从而利用这些带有伪标签信息的视频帧数据对UDAN网络模型进行微调(fine-tune).对于目标域的视频帧, 需要满足下列条件才能获取伪标签:
为了使得所选择的目标域视频帧具有较高的置信度, 本文将设置为0.99.通过利用带有伪标签的视频帧数据进行UDAN的训练, UDAN能够直接学习到目标域视频数据的特定知识.进一步, 再次利用训练后的UDAN执行伪标签操作, 会获得更多的视频帧数据以作训练之用.通过这样一种渐进式的迭代过程, UDAN能够进一步提升细粒度分类能力.
在实验部分, 为了验证本文UDAN方法的有效性, 本文将CUB-200-2011数据集[
CUB-200-2011、Cars-196、YouTube Birds和YouTube Cars这4个细粒度数据集的划分见
4个细粒度数据集的数据划分
Data partitions on four fine-grained datasets
数据集 | 训练集 | 测试集 |
CUB-200-2011 | 5 994张图像 | 5 794张图像 |
Cars-196 | 8 144张图像 | 8 041张图像 |
YouTube Birds | 12 666个视频 | 5 684个视频 |
YouTube Cars | 10 259个视频 | 4 961个视频 |
(1) CUB-200-2011数据集[
(2) Cars-196数据集[
(3) YouTube Birds数据集[
(4) YouTube Cars数据集[
为了评价本文UDAN方法的有效性, 本文设计了两种适应任务, 分别是图像到视频帧的适应任务以及图像到视频的适应任务.以CUB-200-2011和YouTube Birds两个数据集为例, 见
两种适应任务
Two types of adaptation tasks
适应任务 | 源域数据 | 目标域数据 |
图像到视频帧( |
CUB-200-2011的训练集图像 | YouTube Birds的测试集视频中间帧 |
图像到视频( |
CUB-200-2011的训练集图像 | YouTube Birds的测试集视频 |
(1) 图像到视频帧的适应任务(
(2) 图像到视频的适应任务(
需要注意的是: 在训练过程中使用的是标注的CUB-200-2011数据集的训练图片和未标注的YouTube Birds数据集的训练视频, 在测试过程中使用的是YouTube Birds数据集的测试视频.
在本文的两种适应任务实验中, 采用准确率(accuracy)作为评价指标来验证本文UDAN方法的有效性.准确率的定义如下:
其中,
为了方便后续研究者与本文UDAN方法进行公平对比, 本节从基础CNN模型、视频处理和训练细节这3个方面对本文UDAN方法的实现细节进行介绍.
(1) 基础CNN模型: 本文采用ResNet50网络模型[
(2) 视频处理: 对于YouTube Birds和YouTube Cars这2个视频数据集, 本文实验部分仅对其RGB视频帧进行分析处理.具体地, 在图像到视频帧和图像到视频的适应任务中, 对于每个训练视频, 本文等间隔地抽取5帧作为训练视频帧数据.在测试过程中, 两个适应任务的设置有所不同: 对于图像到视频帧适应任务, 本文抽取测试视频的中间帧作为测试数据; 对于图像到视频适应任务, 本文对每个测试视频等间隔地抽取25帧作为测试数据.
(3) 训练细节: 为了获得最好的细粒度视频分类效果, 在训练过程中, 本文采用了两次迭代来进行伪标签的生成.对于伪标签生成的阈值, 本文设置为0.99和0.9.在本文UDAN网络模型的训练过程中, 采用梯度下降算法SGD进行优化, 设置批尺寸(batch size)大小为8, 权值衰减系数(weight decay)为0.0005, 冲量系数(momentum)为0.9.本文设置初始学习率(learning rate)为1e-5, 每训练6个epoch学习率以0.5的系数减小.
本节展示了源域数据与目标域数据之间的差异, 以CUB-200-2011和YouTube Birds两个数据集为例.与文献[
从CUB-200-2011数据集到YouTube Birds数据集的适应结果
Results of adaptation between CUB-200-2011 and YouTube-Birds datasets
数据集 | 准确率(%) | |||
训练集 | 测试集 | |||
85.2 |
-
|
首先, 本文利用标注的CUB-200-2011数据集的训练图像训练ResNet50网络模型; 然后, 在CUB-200-2011数据集的测试图像上验证ResNet50网络模型的细粒度分类效果.如
然后, 本文验证了
(1)
(2)
最后, 本文验证了额外使用YouTube Birds训练集数据对于
(1)
(2)
从上述分析可以看出, 源域与目标域数据之间存在巨大的差异,
本节通过无监督细粒度视频分类任务来验证本文UDAN方法的有效性, 将知识从标注的图像数据迁移到未标注的视频数据.本文将目标域的视频数据划分为两种模态: 视频帧(每个视频的中间帧)及视频.同样地, 执行两种适应任务:
本节将本文UDAN方法与现有先进(state-of-the-art)方法进行了对比, 并给出了详细的分析.为了公平对比, 本文UDAN方法与对比方法在
CUB-200-2011和YouTube Birds两个数据集上
Results on two types of adaptation tasks: Image-to-frame adaptation (
对比方法 | 准确率(%) | |
本文UDAN方法 | 42.5 | 58.3 |
JAN[ |
36.5 | 46.4 |
ResNet50[ |
34.2 | 40.7 |
ICAN[ |
32.9 | 42.3 |
MCD[ |
30.1 | 43.9 |
I3D[ |
- | 40.7 |
Cars-196和YouTube Cars两个数据集上
Results on two types of adaptation tasks: image-to-frame adaptation (
对比方法 | 准确率(%) | |
本文UDAN方法 | 15.3 | 44.6 |
JAN[ |
10.4 | 15.5 |
ResNet50[ |
14.3 | 30.4 |
ICAN[ |
10.9 | 28.0 |
I3D[ |
- | 40.9 |
(1) 与基础网络模型的对比.在实验中, 本文UDAN方法采用ResNet50网络模型[
在CUB-200-2011和YouTube Birds数据集上从ResNet50模型到本文UDAN方法, 目标视频的数据分布变化
Variation of distribution of target video data, from ResNet50 model to our UDAN approach on CUB-200-2011 and YouTube Birds datasets
(2) 与现有适应方法的对比.本文的UDAN方法与现有的适应方法进行了对比, 如联合适应网络(joint adaptation network, 简称JAN)[
(3) 与现有的有监督的视频分类方法的对比.本文也与膨胀三维卷积(inflated 3D ConvNet, 简称I3D)方法进行了对比.I3D将二维的卷积层膨胀为三维的卷积层, 首先利用二维的卷积层进行初始化, 之后再利用视频数据进行训练.从
从上述3个方面的分析对比, 本文UDAN方法的有效性得到了验证.从Cars-196到YouTube Car上两种适应任务的结果如
在本节中, 通过剥离实验验证本文UDAN方法每个组成部分的效果, 以及在渐进式伪标签策略中迭代次数对于细粒度分类效果的影响.
● 基线实验结果分析
为了验证本文UDAN方法每个组成部分的效果, 在基线方法JAN[
本文UDAN方法中每个组成部分的影响
Effect of each component in our UDAN approach
(1) 在基线方法JAN(表示为baseline)的基础上加入联合辨识最大均值差异准则(表示为+JDMMD), 可以在
(2) 进一步, 加入渐进式伪标签策略(表示为+JDMMD+PL)可以在
● 渐进式伪标签策略的迭代次数影响
在渐进式伪标签策略中, 不同的迭代次数对于本文UDAN方法的细粒度分类准确率有一定的影响.
以CUB-200-2011和YouTube Birds这两个数据集上的实验为例,
渐进式伪标签策略中迭代次数的影响
Effect of iteration number in progressive pseudo labeling strategy
本文提出了无监督辨识适应网络, 能够将知识从源域标注的图像数据迁移到目标域未标注的视频数据.首先, 本文提出了联合辨识最大均值差异, 将从源域图像数据学习到的辨识性定位能力迁移应用于目标域视频数据; 进一步, 本文提出了一种渐进式伪标签策略来迭代地引导无监督辨识适应网络来近似目标域视频的数据分布.在实验部分, 本文将知识从CUB-200-2011/Cars-196图像数据集迁移到YouTube Birds/YouTube Cars视频数据集, 实验结果证明了本文方法在无监督细粒度视频分类上的优势.
下一步工作主要从以下两个方面展开: (1) 发现更多更精细的辨识性区域, 以进一步降低域差异和模态差异; (2) 探索使用少量目标域标注的视频数据对于细粒度视频分类的影响.
Zhu C, Tan X, Zhou F, Liu X, Yue KY, Ding ER, Ma Y. Fine-grained video categorization with redundancy reduction attention. In: Proc. of the European Conf. on Computer Vision (ECCV). Berlin: Springer-Verlag, 2018. 139-155.
Torralba A, Efros AA. Unbiased look at dataset bias. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2011. 1521-1528.
Zhang NN, Donahue J, Girshick R, Darrell T. Part-based
Krause J, Jin HL, Yang JC, Li FF. Fine-grained recognition without part annotations. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2015. 5546-5555.
Xiao TJ, Xu YC, Yang KY, Zhang JX, Peng YX, Zhang Z. The application of two-level attention models in deep convolutional neural network for fine-grained image classification. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2015. 842-850.
Uijlings JRR, van de Sande KEA, Gevers T, Smeulders AWM. Selective search for object recognition. Int'l Journal of Computer Vision (IJCV), 2013, 104(2): 154-171.
Fu JL, Zheng HL, Mei T. Look closer to see better: Recurrent attention convolutional neural network for fine-grained image recognition. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2017. 4438-4446.
He XT, Peng YX, Zhao JJ. Stackdrl: Stacked deep reinforcement learning for fine-grained visual categorization. In: Proc. of the Int'l Joint Conf. on Artificial Intelligence (IJCAI). San Francisco: Morgan Kaufmann Publishers, 2018. 741-747.
Lin TY, Chowdhury AR, Maji S. Bilinear CNN models for fine-grained visual recognition. In: Proc. of the Int'l Conf. of Computer Vision (ICCV). Piscataway: IEEE, 2015. 1449-1457.
Gao Y, Beijbom O, Zhang N, Darrell T. Compact bilinear pooling. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2016. 317-326.
Cui Y, Zhou F, Wang J, Liu X, Lin YQ, Belongie S. Kernel pooling for convolutional neural networks. In: Proc. of the IEEE Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2017. 3049-3058.
Wang YM, Morariu VI, Davis LS. Learning a discriminative filter bank within a CNN for fine-grained recognition. In: Proc. of the IEEE Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2018. 4148-4157.
He XT, Peng YX. Fine-grained image classification via combining vision and language. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2017. 5994-6002.
Chen TS, Lin L, Chen RQ, Wu Y, Luo XN. Knowledge-embedded representation learning for fine-grained image recognition. In: Proc. of the Int'l Joint Conf. on Artificial Intelligence (IJCAI). San Francisco: Morgan Kaufmann Publishers, 2018. 627-634.
Saito T, Kanezaki A, Harada T. Ibc127: Video dataset for fine-grained bird classification. In: Proc. of the IEEE Int'l Conf. on Multimedia and Expo (ICME). Piscataway: IEEE, 2016. 1-6.
Kalogeiton V, Ferrari V, Schmid C. Analysing domain shift factors between videos and images for object detection. IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI), 2016, 38(11): 2327-2334.
Ben-David S, Blitzer J, Crammer K, Pereira F. Analysis of representations for domain adaptation. In: Proc. of the Neural Information Processing Systems (NeurIPS). Cambridge: MIT Press, 2007. 137-144.
Gebru T, Hoffman J, Li FF. Fine-grained recognition in the wild: A multi-task domain adaptation approach. In: Proc. of the IEEE Int'l Conf. onComputer Vision (ICCV). Piscataway: IEEE, 2017. 1358-1367.
Cui Y, Song Y, Sun C, Howard A, Belongie S. Large scale fine-grained categorization and domain-specific transfer learning. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2018. 4109-4118.
He KM, Zhang XY, Ren SQ, Sun J. Deep residual learning for image recognition. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2016. 770-778.
Yosinski J, Clune J, Bengio Y, Lipson H. How transferable are features in deep neural networks? In: Proc. of the Neural Information Processing Systems (NeurIPS). Cambridge: MIT Press, 2014. 3320-3328.
Long MS, Zhu H, Wang JM, Jordan MI. Deep transfer learning with joint adaptation networks. In: Proc. of the Int'l Conf. on Machine Learning (ICML). New York: ACM, 2017. 2208-2217.
He KM, Gkioxari G, Dollár P, Girshick R. Mask R-CNN. In: Proc. of the IEEE Int'l Conf. on Computer Vision (ICCV). Piscataway: IEEE, 2017. 2980-2988.
Otsu N. A threshold selection method from gray-level histograms. IEEE Trans. on Systems, Man, and Cybernetics (TCYB), 1979, 9(1): 62-66.
Wah C, Branson S, Welinder P, Perona P, Belongie S. The Caltech-UCSD birds-200-2011 dataset. Technical Report, CNS-TR-2011-001, Pasadena: California Institute of Technology, 2011.
Krause J, Stark M, Deng J, Li FF. 3D object representations for fine-grained categorization. In: Proc. of the Int'l Conf. of Computer Vision Workshop (ICCVW). Piscataway: IEEE, 2013. 554-561.
Zhang WC, Ouyang WL, Li W, Xu D. Collaborative and adversarial network for unsupervised domain adaptation. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2018. 3801-3809.
Saito K, Watanabe K, Ushiku Y, Harada T. Maximum classifier discrepancy for unsupervised domain adaptation. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2018. 3723-3732.
Carreira J, Zisserman A. Quo Vadis, action recognition? A new model and the kinetics dataset. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2017. 4724-4733.