在手绘草图检索(sketch-based image retrieval,简称SBIR)领域,引入一种手绘草图的新型检索模型.手绘草图与自然图片之间存在巨大的差异性,这是因为,与自然图片相比,手绘草图展现出高度抽象的视觉表达,用现有的方法对手绘草图进行特征提取,其产生的特征描述子对于手绘草图的内容无法进行有效地拟合;对于相同的物体,不同的人群用手绘草图描述方式和表达也存在巨大的差距,这就使得手绘草图-自然图片的匹配更加困难;同时,将手绘草图与自然图片映射到相同视觉域的工作,也是一项具有困难的任务.所以,手绘草图检索技术是公认的比较有挑战性的任务.提出一种将手绘草图与自然图片在多个层次上映射到同一视觉域的策略来解决跨域的问题.同时,引入多层深度融合卷积神经网络(multi-layer deep fusion convolutional neural network)的框架来训练并获得手绘草图和自然彩色图片的多层特征表达.在Flickr15k图像数据库进行检索实验,实验结果显示,多层深度融合卷积网络学习到的特征的检索精度超过了现有的手工特征以及由自然图片或者手绘草图训练出来的卷积神经网络(convolutional neural network,简称CNN)的特征.
The purpose of this paper is to introduce a new approach for the free-hand sketch representation in the sketch-based image retrieval (SBIR), where the sketches are treated as the queries to search for the natural photos in the natural image dataset. This task is known as an extremely challenging work for 3 main reasons:(1) Sketches show a highly abstract visual appearance versus natural photos, fewer context can be extracted as descriptors using the existing methods. (2) For the same object, different people provide widely different sketches, making sketch-photo matching harder. (3) Mapping the sketches and photos into a common domain is also a challenging task. In this study, the cross-domain question is addressed using a strategy of mapping sketches and natural photos in multiple layers. For the first time, a multi-layer deep CNN framework is introduced to train the multi-layer representation of free hand sketches and natural photos. Flickr15k dataset is used as the benchmark for the retrieval and it is shown that the learned representation significantly outperforms both hand-crafted features as well as deep features trained by sketches or photos.
近年来, 随着互联网技术和移动终端设备的产品更新, 触屏技术快速发展, 多媒体信息(尤其是图像信息)急剧增加.伴随着触屏技术的不断进步, 平板电脑、掌上设备和超宽屏幕手机制造产业和使用正蓬勃发展, 可触屏设备逐渐成为人们生活中不可或缺的一部分, 用户可以用手绘草图的方式在移动终端快捷方便地描绘出所需物体的外观、特点及其轮廓.而手绘图像检索作为针对可触屏设备的新兴的一个科研领域, 具有非常大的潜力和市场价值.如何有效地跨越手绘草图与自然图片之间的语义鸿沟进行检索, 是众多研究人员面临的难点.与此同时, 当面临高度抽象的手绘图像的问题时, 特征的选取、高效的检索算法, 成为当前的一个研究热点.手绘草图检索(sketch-based image retrieval, 简称SBIR)是指通过手绘草图, 在海量自然图片数据库中找到用户想要的自然图片的过程, 如
手绘草图及手绘草图检索
Sketch and sketch-based image retrieval
针对手绘草图与自然彩色图片之间的视觉差异, 本文提出了“分层”跨域匹配的框架; 同时, 针对手绘草图与自然图片之间的语义差距, 本文设计了多层深度融合卷积神经网络(multi-layer deep fusion convolutional neural network)来学习手绘草图和自然图片的多层跨域特征.该方法还探索了对于多层深度特征的融合技术的研究.为了实现更高精度的和更高效的检索, 本文方法主要研究的是手绘草图与自然彩色图片之间的跨域建模(cross- domain modeling)和与模型相适应的深度特征学习.对本文的算法框架的简介如下.
在手绘草图检索领域中提出了独特的基于“层次”属性的检索模型.本文检索模型旨在跨越手绘草图和自然图像的视觉域的差距; 对于手绘草图和自然图片的不同层次的特征性质进行了建模; 与此同时, 提出了与多层模型相适应的多层深度融合卷积神经网络, 并且展示了将多层提取的特征融合成最终特征表示的过程.
本文第1节介绍相关工作.第2节阐述本文的核心理论.第3节对实验细节和实验结果进行展示.第4节总结本文方法, 并对未来的工作进行初步的探讨.
目前对于手绘草图语义的定义, 有些工作给出其独到的定义方法.Eitz等人[
在手绘草图的图像检索(SBIR)中, 对于将彩色自然图片与手绘草图映射到同一视觉域的跨域方法, 主要是将自然图片转化成类似于手绘图片的边缘图, 以保证两者在高层的视觉上的可比性.主流的边缘检测方法分为2类:第1类是基于显著性检测的方法, 包括Canny Detector边缘检测方法和Robert Detector边缘检测方法等; 第2类是基于边缘感应的方法, 例如Sketch-token[
本文的深度多层卷积神经网络主要是受到了以下工作的启发:Yu等人[
现有的手绘草图和自然图片的特征描述子, 主要分为手工特征和深度学习特征两类.
● 第1类:手工特征.如Sift[
● 第2类:深度学习特征.由于卷积神经网络(CNN)对于数据的强大拟合能力以及对于特征提取的深度, 随着对于网络的深度的增加, 深度学习框架AlexNet[
本文将在第4节实验部分对于这些网络的特征刻画能力进行实验比较和实验验证.
近年来, 针对手绘草图和自然图像跨域建模的方法, 大多采用了比较新型的深度学习框架及模型.如Bui等人[
为了计算同一视觉域中手绘草图与自然图片之间的相似度, 采用多层深度融合卷积神经网络来捕捉和提取手绘草图与自然图片的特征.
跨域检索与深度融合模型
Cross-domain retrieval and deep fusion model
如
● 首先, 按照分层规则(本文第2.1节、第2.2节详述), 同时对手绘草图和自然图片进行分层操作, 即3层视觉表达, 使得它们之间的视觉表达在同一层次上达到统一.
● 然后, 基于多层视觉表达, 将手绘草图与彩色图片的边缘图作为训练图片, 分别输入多层深度融合卷积神经网络中, 进行分层训练.多层深度融合卷积神经网络的框架中, 手绘草图的3层视觉表达的特征由3个CNN网络进行训练, 直至收敛.这里, 3个CNN网络是相同的Image-very-deep-19网络, 简称VGG-19[
● 最后, 本文利用手绘草图的特征描述子来检索自然图片库中的彩色自然图片.
将特征表达扩展到多层表达, 是为了从手绘草图和自然图片的边缘图中获取更多抽象性、细节性的语义信息.在特征相似度计算方面, 能够更多地考虑到语义含义.同时, 对于不同层次特征的融合操作, 是为了得到手绘草图和彩色自然图片唯一的特征表达.
本文将手绘草图的“时序”特质作为分析的语义特征.时序性是手绘草图所固有的属性.通过调研文献[
手绘草图的多层语义定义
Layer-based semantic definition of the sketch
与此同时, 人们在识别手绘草图时, 也是一个由粗到细、由外至内、由轮廓至细节的过程.所以, 将手绘草图进行分层操作符合神经网络学习的特质, 即模拟人类的思维和感官感受方式来进行学习.对于这种层次性绘制和理解的手绘草图, 本文相应地使用层次视觉表达来描述这种层次性的语义.然后, 使用卷积神经网络提取出不同层次的语义特征, 并加以融合.
(1) 对于一幅手绘草图, 本文提取草图中笔画的总数目
(2) 设置手绘草图的层次, 本文设置为3层.因为在实验测试时, 当手绘草图的多层视觉表达少于3层时, 无法显示出分层网络的优势; 然而, 当多层视觉表达多于3层时, 对于不同人的绘制习惯就失去了普适性和统计性.在3层的范围内, 人们的绘制习惯大致达到统一, 虽然在细节上微微有些出入, 但却极大地提高了对图像的描述力.所以, 本文选择3层视觉表达, 记为
(3) 每一层的笔画数目由笔画总数目除以手绘草图的层次数, 并向上取整所得, 即
➢ 前期笔画集合(第1层视觉表达)为{
➢ 中期笔画集合(第2层视觉表达)为{
➢ 最终的笔画集合(第3层视觉表达)为原始的手绘草图{
基于手绘草图的多层视觉表达, 对自然彩色图片采用相同的分层策略, 以达到更好的跨域建模(cross domain modeling)效果.首先, 对传统的边缘检测方法进行分析, 使用如
不同方法对于自然图片的边缘提取
Different methods of edge detection on natural photos
从
本文在得到手绘草图的3个层次的视觉表达后, 也对自然图像进行了相似的实验探索.由于手绘草
自然图片边缘图的多层表达
Layer-based representations of edge map from the natural photo
最终, 根据文献[
(1) 采用
(2) 第1层视觉表达被定义为聚类中心中最小的聚类中心所在的簇; 接下来, 第2层视觉表达表示的是中层灰度值的聚类簇; 最后, 拥有最高的灰度值的聚类簇被定义为第3层.方法如
通过采用与处理手绘草图相同的分层策略, 获得了自然图片的3层视觉表达, 如
多层深度融合卷积神经网络中的多层框架为手绘草图和彩色图片的跨域建模提供了新的跨域思路, 并且提供了更多的细节信息和空间信息以及多层的抽象的语义信息.在特征学习阶段, 这些细节信息不仅丰富了本文特征的描述力, 而且保证了跨域检索的稳定性.
在多层深度融合卷积神经网络的框架中, 单一的卷积神经网络(CNN)采用的是在MatConvNet环境所训练的“Image-very-deep-19”网络结构.在训练完Flickr15k数据库中手绘草图和彩色自然图片的多层视觉表达之后, 提取每一层网络的全连接第7层Convfc-7(fully connected layer 7)的特征作为每一层视觉表达的特征表示.
如上所述, 本文的关注点是获取手绘草图和彩色自然图片基于层次的特征表示.这个层次特征是可训练的, 能够产生语义和区分力的特征表示; 同时, 这种框架是保证可被高效实现的.基于层次的特征表示从跨域建模阶段的多层视觉表达开始, 由深度多层融合卷积神经网络产生.但是如何融合多层特征, 是手绘草图检索(SBIR)阶段的关键一步, 因为在最后的相似度计算过程中, 需要手绘草图和自然图片的唯一的特征表示.
特征融合的方式有均值融合、权重融合、串联融合.
(1) 一种简单的方式就是对不同层次的特征进行均值化, 把每一层的特征的权重视为同等重要, 这种方法称为均值融合.
其中,
(2) 第2种方式是使用类似于贝叶斯特征融合的方式[
在公式(2)中,
在公式(3)中,
(3) 第3种特征融合方式就是把所有层次的特征按序排列, 按照一定的顺序串联起来, 这种方法称为串联融合.多层深度融合卷积神经网络框架中采用的就是串联融合方式, 将第1层直至第3层所学习到的深度特征进行有序的串联, 得到最终的特征向量.
以上3种特征融合方式的有效性验证结果在第4节展示.
本文使用Flickr15k数据集.该数据集包含60类, 总共14 460张彩色自然图片; 并且, 该数据集还包含由非专业手绘草图人员绘制的33类, 总共329张手绘草图.
对于训练深度卷积神经网络(deep CNN), 关键的一步是提供充足的训练数据.对于训练数据较少的数据库, 我们需要进行数据扩增(data augment)操作.手工特征或者ImageNet[
在本文的实验中, 训练的实验数据集有ImageNet、TU-Berlin手绘数据集和Flickr15k数据集.实验中, 本文将实验数据集大体按照7:3的比例进行分割.所有模型在训练集完成训练并收敛之后, 再在测试集上进行测试, 从而获得每个模型的检索精度.
本文使用的评价标准是mAP、平均准确率(mean average precision).本文中对于SBIR中的mAP定义如下.
其中,
本文方法与现有方法的实验对比结果见
不同方法的检索表现
Retrieval performance of different methods
名称 | 描述 | 训练数据集 | 检索数据集 | mAP |
VGG-16 |
深度网络 |
ImageNet |
Flickr15k | 0.179 3 |
Sketch-A-Net(single) |
深度网络 |
TU-Berlin |
Flickr15k | 0.153 8 |
Siamese CNN[ |
深度网络 |
Flickr15k |
Flickr15k | 0.195 4 |
多层卷积神经网络 | 本文框网络框架 | Flickr15k | Flickr15k | 0.557 4 |
(1) 第1类是单独在自然彩色图片ImageNet上训练的深度卷积神经网络特征, 其中, 使用LeNet的数据集MINIST是因为手写数字数据集和我们的手绘草图在视觉上有一定的相似性.
(2) 第2类是单独在手绘草图数据库TU-Berlin上训练的深度卷积神经网络, 用所学习的特征进行检索.
(3) 第3类是使用训练好的深度卷积网络, 在Flickr15k数据集上微调, 然后使用再次收敛的网络所生成的特征进行检索.
从
为了揭示手绘草图和自然图片不同层次之间的内在联系, 对不同视觉层次的检索结果进行分析, 实验的对比结果见
不同层次的检索效果
Retrieval results on different layers
层次 | 层次1 | 层次2 | 层次3 |
mAP | 0.410 1 | 0.458 2 | 0.529 8 |
在
为了探索不同的特征融合策略对于手绘草图检索(SBIR)的影响, 我们对不同的融合策略进行了实验对比, 实验结果见
特征融合策略对于检索结果的影响
Impacts of different feature fusion strategies on retrieval results
特征融合策略 | 均值融合 | 串联融合 | 权重融合 |
mAP | 0.360 4 | 0.557 4 | 0.438 1 |
从
最后, 多层融合卷积神经网络对Flickr15k数据集的检索结果如
多层融合卷积神经网络在Flickr15k上的检索表现
Retrieval performance of multi-layer fusion CNN on Flickr15k
如
在本文中, “多层”的概念一直是模型中至关重要的主题, 而在实验中发现, 本文的多层视觉表达方法对于手绘草图或者自然图片具有数据扩增的潜力.与此同时, 本文的理论中仍存在着一个猜想:对于手绘草图和自然图片的边缘图, 是否它们的抽象层次越高, 它们之间的相似度就越大?在实验中, 本文的3层视觉表达的确显示了这样的趋势.
关于设置多少层才能最佳地利用好手绘草图和彩色自然图片中的层次信息的问题, 本文的实验仅仅证明了多层表达能够进一步提高检索表现, 所以仍然需要进行更多的实验来解答这个问题.正如本文的实验部分所示, 抽象的程度越高, 在自然图片的边缘图中的背景噪音就越少.所以我们猜想:在某一个合适的抽象层次, 能够获得一个最好的视觉表达和特征表示.
本文的特征采用的特征融合策略都比较简单, 与此同时, 特征融合阶段也是提高多层卷积神经网络的最终特征的辨别力的关键环节.所以, 一种更好的特征融合方法将会为手绘草图检索(SBIR)的检索精度带来巨大的提升.
Eitz M, Hays J, Alexa M. How do humans sketch objects? ACM Trans. on Graph, 2012, 31(4):44:1-44:10.[doi: 10.1145/2185520. 2185540]
Fu H, Zhou S, Liu L,
et al. Sketch-a-Net that beats humans. arXiv preprint arXiv: 1501.07873, 2015.[doi: 10.5244/C.29.7]]]>
Sangkloy P, Burnell N, Ham C,
doi: 10.1109/CVPR.2013.406]]]>
Arbelaez P, Maire M, Fowlkes C,
et al. Sketch me that shoe. In: Proc. of the 2016 IEEE Conf. on Computer Vision and Pattern Recognition. Washington: IEEE Computer Society, 2016. 799-807.[doi: 10.1109/CVPR.2016.93]]]>
et al. Multi-View convolutional neural networks for 3D shape recognition. In: Proc. of the 2015 IEEE Int'l Conf. on Computer Vision. Washington: IEEE Computer Society, 2015. 945-953.[doi: 10.1109/ICCV.2015.114]]]>
Lowe DG. Distinctive image features from scale-invariant keypoints. Int'l Journal of Computer Vision, 2004, 60(2):91-110.[doi: 10.1023/B:VISI.0000029664.99615.94]
Mori G, Belongie S, Malik J. Efficient shape matching using shape contexts. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2005, 27(11):1832-1837.[doi: 10.1109/TPAMI.2005.220]
et al. Edgel index for large-scale sketch-based image search. In: Proc. of the 2011 IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). Washington: IEEE Computer Society, 2011. 761-768.[doi: 10.1109/CVPR.2011.5995460]]]>
Hu R, Collomosse J. A performance evaluation of gradient field hog descriptor for sketch based image retrieval. Computer Vision and Image Understanding, 2013, 117(7):790-806.[doi: 10.1016/j.cviu.2013.02.005]
et al. Sketch-Based image retrieval via shape words. In: Proc. of the 5th ACM Int'l Conf. on Multimedia Retrieval. New York: ACM Press, 2015. 571-574.[doi: 10.1145/2671188.2749360]]]>
doi: 10.1145/3065386]]]>
et al. Gradient-Based learning applied to document recognition. Proc. of the IEEE, 1998, 86(11): 2278-2324.[doi: 10.1109/5.726791]]]>
Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv: 1409.1556, 2014.
Bui T, Ribeiro L, Ponti M,
et al. Sketch-Based image retrieval via Siamese convolutional neural network. In: Proc. of the 2016 IEEE Int'l Conf. on Image Processing (ICIP). Los Alamitos: IEEE Computer Society Press, 2016. 2460-2464.[doi: 10.1109/ICIP.2016.7532801]]]>
doi: 10.1145/3078971.3078985]]]>
Yu Q, Yang Y, Song YZ,
http://www.jos.org.cn/1000-9825/3383.htm[doi: 10.3724/SP.J.1001.2009.03383]]]>
http://www.jos.org.cn/1000-9825/3383.htm [doi: 10.3724/SP.J.1001.2009.03383]]]>
Liu YJ, Pang YP, Lu ZQ,
刘玉杰, 庞芸萍, 路子奇, 等.结合距离变换和隐层图词包的手绘图像检索方法.计算机辅助设计与图形学学报, 2016, 28(12): 2168-2174.[doi: 10.3969/j.issn.1003-9775.2016.12.017]
et al.Imagenet: A large-scale hierarchical image database.In: Proc.of the 2009 IEEE Conf.on Computer Vision and Pattern Recognition. Washington: IEEE Computer Society, 2009. 248-255.[doi: 10.1109/CVPR.2009.5206848]]]>