软件学报  2018, Vol. 29 Issue (4): 900-913   PDF    
数据外补偿的深度网络超分辨率重建
杨文瀚, 刘家瑛, 夏思烽, 郭宗明     
北京大学 计算机科学技术研究所, 北京 100871
摘要: 单张图像超分辨率重建受到多对一映射的困扰.对于给定的低分辨率图像块,存在若干高分辨率图像块与之对应.基于学习的方法受此影响,学习到的逆映射规则只能预测这些高分辨率图像块的均值,从而产生视觉上模糊的超分辨率重建结果.为了弥补歧义性造成的高频细节损失,提出了一种基于深度网络、利用在线检索的数据进行高频信息补偿的图像超分辨率重建算法.该方法构建一个深度网络,通过3个分支预测高分辨率重建结果:一条旁路直接将输入的低分辨率图像输入到网络的最后一层;一条内部高频信息重建路径基于低分辨率图像回归预测高分辨率图像,重建高分辨率图像的主要结构;另一条外部高频信息补偿路径根据内部重建的结果,从在线检索到的相似图像中提取高频细节,对内部重建的结果进行细节补偿.在第2条路径中,为了有效提取高频信号并使之适应于内部重建的重建结构,在多层特征的测量和约束下,进行高频细节迁移.相比于之前基于云数据库的传统图像超分辨率方法,所提出的方法是端对端可训练的(end-to-end trainable),因此,通过在大数据上进行学习,该方法能同时建模内部重建和外部补偿,并能自动权衡两者利弊从而给出最优的重建结果.图像超分辨率重建的实验结果表明,相比于最新的超分辨率算法,所提方法在主客观评价中均取得了更加优越的性能.
关键词: 超分辨率重建     外部补偿     深度学习     内部重建    
Data-Driven External Compensation Guided Deep Networks for Image Super-Resolution
YANG Wen-Han, LIU Jia-Ying, XIA Si-Feng, GUO Zong-Ming     
Institiude of Computer Science and Technology, Peking University, Beijing 100871, China
Foundation item: National Natural Science Foundation of China (61772043)
Abstract: Single-Image super-resolution reconstruction is undercut by the problem of ambiguity. For a given low-resolution (LR) patch, there are several corresponding high-resolution (HR) patches. Learning-Based approaches suffer from this hindrance and are only capable of learning the inverse mapping from the LR patch to the mean of these HR patches, resulting in visually blurred result. In order to alleviate the high frequency loss caused by ambiguity, this paper presents a deep network for image super-resolution utilizing the online retrieved data to compensate high-frequency details. This method constructs a deep network to predict the HR reconstruction through three paths:A bypass connection directly inputting the LR image to the last layer of the network; an internal high-frequency information inference path regressing the HR images based on the input LR image, to reconstruct the main structure of the HR images; and another external high-frequency information compensation path enhancing the results of internal inference based on the online retrieved similar images. In the second path, to effectively extract the high-frequency details adaptively for the reconstruction of the internal inference, the high-frequency details are transferred under the constraints measured by hierarchical features. Compared with previous conventional cloud-based image super-resolution methods, the proposed method is end-to-end trainable. Thus, after training on a large dataset, the proposed method is capable of modeling internal inference and external compensation, and making a good trade-off between these two terms to obtain the best reconstruction result. The experimental results on image super-resolution demonstrate the superiority of the proposed method to not only conventional data-driven image super-resolution methods but also recently proposed deep learning approaches in both subjective and objective evaluations.
Key words: super-resolution     exteral compensation     deep learning     internal inference    

图像超分辨率重建旨在根据低分辨率观测估计高分辨率图像.由于在图像的采集、存储和传输过程中存在诸多因素导致的质量下降, 低分辨率图像丢失了部分信息, 特别是损失了图像中的高频细节.这使得仅根据降质后的低分辨率图像估计高分辨率图像的单张图像超分辨率重建问题成为一个病态性问题.因此, 需要添加额外信息, 指导和约束高分辨率图像重建, 从而在一定程度上规避和缓解病态性.

最早的图像超分辨率方法将缺失的高分辨率像素建模为已知低分辨率像素与局部高分辨率像素之间相对位置的多项式函数.该类方法复杂度较低, 但是, 由于模型缺乏自适应性, 因此容易产生模糊的结果, 并在边缘处产生瑕疵.后续的工作采用最大后验概率(MAP)估计的框架, 并施加多种先验以约束高分辨率图像的估计.这些正则项被用来描述自然图像的分布规律和统计特性.典型的正则项约束包括梯度约束[1, 2]、非局部相似性[3-5]和全变分约束[6, 7]等.这些正则项基于启发式设计, 并不能完全覆盖自然图像多样化的模式或特征.

基于学习的方法通过在大规模数据集上进行训练来获得先验知识, 并建立从低分辨率空间到高分辨率空间的映射.若干种机器学习模型被用来建立该映射.稀疏表示方法[8-10]利用高低分辨率耦合字典和两个空间上统一的编码表示来实现该映射.基于邻域嵌入的方法[11, 12], 使用训练集中的低分辨率图像块对输入图像块进行表示, 并用对应的表示系数和相应的高分辨率图像块重建高分辨率图像.为了加速超分辨率重建, Timofte等人利用空间划分和局部线性回归的思想, 提出了锚点回归的超分辨率方法[13, 14], 对每个锚点附近的局部映射使用线性函数进行逼近.一些工作利用随机森林[15, 16]对子空间划分和每个子空间中的映射函数进行自动联合学习.

基于深度学习的超分辨率重建方法[17-20], 通过构建深层次的网络, 并进行端对端的训练, 取得了较好的性能.超分辨率重建卷积神经网络(SRCNN)[17]是该分支方法的开创性工作.该网络由3层卷积堆叠而成, 原理上等价于稀疏编码, 其重建结果取得了当时的最佳性能.后续的工作[19]在网络中采用可学习的迭代收缩和阈值单元(LISTA)显式地学习稀疏性先验.Kim等人[21, 22]通过堆叠3×3的卷积, 构造非常深的卷积网络, 使网络具有非常大的感受野, 同时引入残差学习使网络收敛到很好的状态, 带来了显著的性能增益.Yang等人[20]构造了一个边缘引导的子带复原网络, 更好地捕捉频域信息, 有效地恢复了图像中的高频细节.

尽管基于学习的方法, 特别是基于深度学习的方法取得了较好的重建效果, 但它们仍然受到单张图像超分辨率重建问题病态性本质的困扰.在均方误差的约束下, 基于学习的方法通常会出现“回归到均值”[23]的问题, 即基于学习的方法往往会回归到几个相似高分辨率图像的均值.为了克服这一问题, 有两类方法被提了出来:一种是基于感知的图像幻构[24, 25], 这些工作旨在设计模拟人类分辨率感知的质量评估方法, 并在其约束下, 使深度学习超分辨率网络产生视觉上令人满意的细节, 但是, 该类方法降低了对保真度的约束, 因此可能重建出不真实的高频细节.这一点严重降低了方法的实用性, 如:监控视频中的犯罪检测和行为识别等.

另一类是基于云数据库的图像增强方法.随着移动互联网的普及、繁荣与爆炸式发展, 在线图像共享社区和图像视频拍摄应用越来越流行, 每天数以万计的海量用户正不断拍摄和分享图像和视频.在线数据的繁荣为图像视频处理技术带来了新的契机.基于云数据库的图像视频增强方法, 通过在线检索高质量数据为增强本地低质量图像提供有效先验和约束.具体地, 对于图像超分辨率而言, 检索的数据提供了内部图像块的上下文信息, 例如:几何对应关系和纹理特征等, 这些信息有效地帮助重建丢失的高频细节, 并辅助定位低分辨率信号对应高分辨率信号所在的流形位置.Yue等人[26]初次研究地标图超分辨率重建的问题.该工作首先在云数据库中检索与输入图像相似的高分辨率参考图像, 之后根据几何对应关系对高分辨率参考图像进行对齐, 最后从对齐后的参考图像中抽取高频信息, 叠加在仅根据低分辨率图像复原得到的高分辨率估计上.Li等人[27]利用检索的相似图像块对稀疏表示模型中的参数估计进行修正和增强, 提升了稀疏表示超分辨率重建的性能.Liu等人[28]利用语义信息引导构建结构化组稀疏模型, 同时联合参考图像上的非局部相似性, 提升超分辨率重建的准确性. Timofte等人[23]提出利用语义标签来帮助克服超分辨率重建的歧义性.然而, 这些方法并未考虑到以下几个问题:首先, 这些方法使用浅层模型对检索到的相似图像块进行融合, 难以描述图像的内部结构与外部高频信息之间的复杂依赖.其次, 在这些启发式方法中, 细节提取和融合相对独立, 联合优化的缺失导致算法对错误引入的噪声和高频细节较为敏感.再次, 这些方法在每个步骤中都包含很多参数, 需要经过繁杂的调参才能取得较好的性能, 因此增加了将算法应用到实际的难度.

为了解决上述问题, 本文提出了一个统一的深度学习网络, 对仅根据低分辨率图像进行的高频细节重建和根据外部参考图像进行的在线高频细节补偿进行联合优化.在本文提出的在线补偿超分辨率重建方法中, 高分辨率重建结果由3部分内容加以恢复:低分辨率图像本身, 由内部重建路径预测得到的内部高频图(仅根据低分辨率图像重建的缺失高频部分)以及由外部补偿路径提取的外部高频细节.然后, 整个网络在两个损失函数的约束下进行训练:(1)一个约束使网络通过内部重建路径, 根据低分辨率图像尽可能地拟合高分辨率图像, 以保持图像的主要结构; (2)另一个约束使外部补偿路径基于内部重建结果对检索到的相似图像块进行高频提取, 并对内部重建结果进行高频信息叠加, 以准确地恢复高频细节.在外部补偿路径中, 高频细节从参考图像块到重建结果的迁移由多层次特征进行建模和约束.与之前基于云数据库的方法相比, 本文的深度网络对内部高频信息重建和外部高频细节补偿进行端到端的联合优化, 提升了方法的有效性, 同时使得方法对错误引入的噪音和不准确的高频信息更鲁棒.本文贡献主要体现在如下3个方面.

(1) 本文首次在深度网络框架下思考基于云数据库的超分辨率重建问题.具体地, 本文利用深度网络对内部高频信息重建和外部高频细节补偿进行联合优化.在根据外部检索的相似块进行在线高频信息叠加时, 本文使用多层次特征对其进行建模和约束.因此, 细节补偿与图像内部结构更自然地融为一体.

(2) 通过利用网络进行端对端的联合优化, 本文方法在内部复原和外部补偿之间进行了较好的权衡, 使内部和外部高频细节复原的融合变得准确和鲁棒.通过在训练的过程中考虑参考图像的光照和颜色变化以及可能的错误匹配, 本文方法比之前的基于云数据库的超分辨率重建更加鲁棒.

(3) 图像超分辨率重建的实验结果表明, 比起之前的基于深度学习和云数据库的超分辨率重建方法, 本文方法在主客观质量评估中展现出显著的优势.

本文第1节对相关工作进行介绍, 主要包括基于深度学习的单张图像超分辨率重建、基于云数据库的图像处理和基于样例的图像超分辨率这3个方面.第2节介绍本文提出的双路径深度网络, 对内部高频信息重建和外部高频信息补偿进行联合建模.第3节通过实验将本文方法与其他现有超分辨率方法进行比较, 证明本文方法的有效性.最后对全文进行总结.

1 相关工作 1.1 基于深度学习的单张图像超分辨率重建

基于深度学习的超分辨率重建通过构建多层次的神经网络端对端地学习从低分辨率图像到高分辨率图像的映射.董超等人[17]提出的超分辨率卷积神经网络是这一类方法的开创性工作.该工作使用3层卷积神经网络进行特征提取、特征映射和重建, 等价于稀疏编码框架.Wang等人[18, 19]利用可学习的迭代收缩和阈值单元构造深度网络, 使网络提取的特征具有稀疏性.Kim等人[21, 22]通过堆叠大量3×3的卷积单元搭建了非常深的卷积网络.网络深度的增加使网络的感受野不断扩大, 感知到更大范围内的具有拟合更复杂函数的能力, 并带来了显著的性能提升.基于边缘导向的循环子带(recurrent subband)重建[20]带来了更好的高频细节复原.为了加快超分辨率重建的速度, 以满足实时应用的需求, 在快速超分辨率重建神经卷积网络(FSRCNN)[29, 30]中, 特征抽取和映射的过程被放在低分辨率空间中进行, 直到网络的最后, 才将特征或重建结果通过反卷积进行空域尺度上的放大.为了约束网络生成视觉感受上锐利的结果, 对抗生成模型[24, 25]被用于超分辨率重建, 有效地幻构出令人视觉满意的高频细节.本文通过从在线检索的相似图像中抽取高频信息, 对基于低分辨率图像重建得到的高分辨率估计进行高频细节补偿, 生成视觉上愉悦并具有一定保真度的高分辨率图像.

1.2 基于数据驱动的图像处理

基于数据驱动的方法, 利用高层语义信息, 如分类标签和几何对应关系等, 提升超分辨率重建中高频信息复原的准确性.Yue等人[26]初次研究地标图超分辨率重建的问题.该工作首先在云数据库中检索与输入图像相似的高分辨率参考图像, 之后根据几何对应关系对高分辨率参考图像进行对齐, 最后从对齐后的参考图像中抽取高频信息, 叠加在仅根据低分辨率图像复原得到的高分辨率估计上.一个后续的工作[31]将类似的想法应用到单张图像去噪操作中, 提出了一种两步去噪算法, 在空域和频域上分别进行内部重建和外部信息补偿.Li等人[27]利用检索的相似图像块对稀疏表示模型中的参数估计进行修正和增强, 提升了稀疏表示超分辨率重建的性能.Liu等人[28]利用语义信息引导构建结构化组稀疏模型, 同时联合参考图像上的非局部相似性, 提升超分辨率重建的准确性.除了超分辨率重建和去噪, 基于数据驱动的建模与表示也被应用到其他领域, 如JPEG压缩图像复原[32]、风格化[33]、彩色图像增强[34]等.这些工作首先通过在线检索得到相似数据, 然后根据这些相似数据抽取先验知识, 最后在这些先验知识的约束下, 进行相关任务的图像重建.本文同属基于数据驱动的方法, 不同于之前工作对内部先验和外部补偿信息相对较为独立的建模和处理, 本文构建了一个双路径深度网络, 并通过端对端的训练, 对引入的超分辨率重建中的内部复原和外部参考信息进行联合建模与优化.

1.3 基于样例的图像超分辨率重建

基于学习的超分辨率重建通过模型估计高分辨率图像, 另一类方法——基于样例的方法, 通过抽样生成高分辨率图像估计.该类方法通过在一个包含大量耦合高低分辨率图像块的集合中, 检索与低分辨率图像块相似的高分辨率图像块, 然后将这些高分辨率图像块融合生成高分辨率图像估计.许多模型用于将抽样得到的高分辨率图像块融合, 生成高分辨率图像, 这些模型包括:马尔可夫随机场[35]、邻域嵌入[11, 12]、因子图[36]、局部回归[37]等.这些方法在局部区域一致性的约束下, 根据抽样得到的高分辨率图像块, 对高分辨率图像进行估计.本文利用基于样例的方法根据抽样得到的高分辨率图像块融合得到高分辨率图像的能力, 设计了一个双路径深度网络来重建和融合抽样出的高分辨率图像块, 以获得更好的高分辨率图像估计.为了保持更好的局部一致性, 在进行高频信息迁移时, 本文采用多层次的特征进行建模和约束.

2 对内部重建和外部在线补偿联合建模的双路径深度网络

本节介绍双路径深度网络, 首先介绍整个网络的全貌, 然后具体介绍每一部分的细节.本节使用的符号与缩写首先定义在表 1中.

Table 1 Description for symbols and abbreviations 表 1 算法描述符号与简称汇总

2.1 联合双路径高频信息复原

本文提出的双路径高频信息复原网络利用高层语义相似性, 检索相似的外部参考图像, 并在输入图像和参考图像之间建立几何对应关系, 利用外部高频信息辅助单张图像超分辨率重建.在该双路径高频信息复原网络中, 内部高频信息重建路径仅根据低分辨率图像Il预测高分辨率图像Ih, 以准确恢复图像结构; 另一条外部高频细节补偿路径, 根据检索到的高分辨率参考图像对其余的损失高频细节进行补偿.

2.2 内部高频信息重建网络

内部高频重建网络(IHIN)首先根据低分辨率图像Il本身的信息对高分辨率图像进行重建, 如图 1所示, IHIN以Il为输入, 输出为内部高频图.该网络包含两条路径, 分别进行内部高频信息重建和外部高频细节补偿. h×w×*为卷积层的卷积核大小, *表示通道数, s表示放大尺度.Il经由最近邻或双3次上插得到图像${\tilde I^l}.$$I_t^l$是由内部高频信息重建网络预测得到的中间结果, ${I^h}$是进一步增强的结果.右下方的箭头和文字表示多层次特征约束下的求和操作, 在充分保持局部一致性的同时进行高频信息叠加.

Fig. 1 Framework of the proposed dual high-frequency detail reconstruction networks 图 1 双路径高频细节复原网络的框架

内部重建得到的内部高频图后, 中间重建结果$I_t^l$按如下方式重建:

$ I_t^l = {\tilde I^l} \oplus \varphi \left( {{I^l}} \right), $

其中, $\oplus $代表直接求和, $\varphi ({I^l})$表示IHIN仅根据低分辨率图像${I^l}$重建得到的缺失高频信息.本文的IHIN可以使用任意的网络结构.对于测试中的两种配置, 本文分别使用边缘引导的子带复原网络[20]和极深超分辨率重建网络[21]作为内部重建网络, 并分别使用最近邻插值和双3次插值将${I^l}$放大为${\tilde I^l}.$

2.3 外部高频细节补偿网络

IHIN根据低分辨率图像预测高分辨率图像.由于上文提及的歧义性问题, 并非所有的高频信息都能仅根据低分辨率图像推得.因此, 除IHIN外, 本文构建外部高频补偿网络(EHCN)进一步从检索到的相似参考图像中抽取高频信息, 对$I_t^l$进一步增强.

低分辨率图像与检索到的相似参考图像之间往往存在常见的光照和颜色变化.此外, 在外部参考图像中, 相关冗余低频信息的存在可能会影响高分辨率细节的提取.因此, 本文在训练和测试阶段采用多种方法提高对$\hat I_m^r$估计的准确性和鲁棒性.首先, 本文在训练阶段进行数据鲁棒性的增强, 对合成的高分辨率图像标签进行对比度的随机扰动以模仿光照和颜色变化.此外, 为了排除低频信息的干扰, 本文使用${\hat I^r}$和对应的中间重建结果$\hat I_t^r$的差作为EHCN的输入, 而非直接输入${\hat I^r}.$$\hat I_t^r$${\hat I^r}$经过降质后通过IHIN网络复原后得到的结果.差异图的使用有效地移除了光照变化和冗余的低分辨率信息.

之后, EHCN从$\hat I_m^r$=$({\hat I^r} -\hat I_t^{\rm{r}})$中抽取外部高频细节, 并重建最终结果.

$ {I^h} = I_t^l\overline \oplus \rho (\widehat I_m^r), $

其中, $\rho $为从$\hat I_m^r$中抽取高频信息的形式化表述.操作$\overline \oplus $表示中间结果$I_t^l$$\rho (\hat I_m^r)$在多层次特征的约束下进行高频信息叠加.

2.4 基于多层次特征约束的外部高频补偿 2.4.1 参考图像检索

本文使用文献[28]中的方法, 检索高分辨率参考图像.根据内部高频信息重建网络重建得到的内部重建图像$I_t^l$, 在一个大的图像集合中检索相似的参考图像.首先, 使用SURF算子检测[38]关键点.然后, 对以关键点为中心的图像块抽取具有分类信息的144维特征.最后, 使用BOW模型[39]根据抽取的特征对参考图像进行索引和检索.

2.4.2 参考图像对齐

得到相似的参考图像后, 为了进一步创建参考图像与内部重建图像$I_t^l$之间的对应关系, 本文根据几何信息对参考图像进行校正.首先检测$I_t^l$的SIFT特征[40], 然后对检测到的特征点使用RANSAC算法, 计算最佳单应性(homography)变换矩阵, 最后根据该变换矩阵, 将参考图像${I^r}$进行变换, 得到对齐后的参考图像${\hat I^r}.$

2.4.3 位置匹配

得到对齐后的参考图像${\hat I^r}$之后, 后续考虑从中抽取外部高频图$\hat I_m^r$, 对内部重建结果$I_t^l$进行增强.尽管从全局角度看, 对齐后的参考图像${\hat I^r}$与内部重建结果$I_t^l$已经基本一致, 但从像素级精度来看, 在每个局部区域上, 对齐结果仍存在像素偏移.因此, 需要在${\hat I^r}$$I_t^l$之间进一步进行块级别的匹配, 建立像素级的对应关系, 以指导$\hat I_m^r$$I_t^l$的融合.

由于在内部重建结果$I_t^l$与对齐后的高分辨率参考图像${\hat I^r}$之间存在光照、颜色、分辨率等许多方面的差异, 因此, 为了更好地进行块匹配和高频信息融合, 本文使用参考图像${I^r}$降质后通过内部高频信息重建网络的重建结果$\hat I_t^r$作为匹配依据, 并通过正规化减少光度不一致的影响.

$ \hat I_t^{r'}{\rm{ = }}\left( {\hat I_t^r-\tau \left( {\hat I_t^r} \right)} \right)\frac{{\sigma \left( {I_t^l} \right)}}{{\sigma \left( {\hat I_t^r} \right)}} + \tau \left( {I_t^l} \right). $

$\hat I_t^{r'}$是归一化后的结果, $\tau (\cdot)$$\sigma (\cdot)$分别是图像中所有像素的均值和标准差.之后, $I_t^l$被划分为许多重叠的大小为$\sqrt n \times \sqrt n $的查询图像块, 两个相邻查询图像块之间相隔4个像素点.然后, 在$\hat I_t^{r'}$中对应的搜索窗口里检索与该查询图像块相似的对应图像块.

尺寸较小的图像块包含较少的结构化信息, 因此, 对小尺寸的图像块进行匹配并不准确.本文首先使用较大的图像块进行匹配.同时, 考虑越大的图像块, 匹配时越难找到完全对应的图像块, 因此, 使用一个匹配图像块大小自适应调整的块匹配算法[26], 以提供更准确的图像块匹配结果.

${{\bf{P}}_i}$表示在$I_t^l$中位置为i、大小为$\sqrt n \times \sqrt n $的图像块, ${\bf{Q}}_j^i$表示在$\hat I_t^{r'}$中位置为j、大小为$\sqrt n \times \sqrt n $的图像块.在$\hat I_t^{r'}$的以i为中心、大小为$3\sqrt n \times 3\sqrt n $的搜索窗口中检索${{\bf{P}}_i}$的最佳匹配图像块.${{\bf{P}}_i}$${\bf{Q}}_j^i$之间的块距离定义为

$ d\left( {{{\bf{P}}_i}, {\bf{Q}}_j^i} \right) = \left\| {{{\bf{P}}_i}-{\bf{Q}}_j^i} \right\|_2^2 + \upsilon \left\| {\nabla \left( {{{\bf{P}}_i}} \right)-\nabla \left( {{\bf{Q}}_j^i} \right)} \right\|_2^2, $

其中, ∇是梯度算子, υ是控制像素值差异和梯度差异之间相对重要性的权重参数.在计算距离之前, 图像块的DC成分(componenet)被去除.

定义$d({{\boldsymbol{\rm{P}}}_i},{\boldsymbol{\rm{Q}}}_j^i)/(\sqrt n \times \sqrt n )$为梯度均方误差(GMSE), $G_i^{\min }$为在检索窗口中, 检索图像块${{\bf{P}}_i}$与参考图像块${\bf{Q}}_j^i$之间GMSE的最小值.特别地, $G_i^{\min }$的值与图像块匹配的质量相关.为了提升图像块的匹配质量, 本文根据$G_i^{\min }$的值, 对检索图像块的大小进行动态调整.

$ \sqrt n = \left\{ \begin{array}{l} 21, {\rm{ }}G_i^{\min } \le 200\\ 17, {\rm{ 200}} \le G_i^{\min } \le 500\\ 13, {\rm{ 500}} \le G_i^{\min } \le 800\\ 9, {\rm{ }}G_i^{\min } > 800 \end{array} \right., \sqrt n = \left\{ \begin{array}{l} 21, {\rm{ }}G_i^{\min } \le 200\\ 17, {\rm{ 200}} \le G_i^{\min } \le 500\\ 13, {\rm{ 500}} \le G_i^{\min } \le 800\\ 9, {\rm{ }}G_i^{\min } > 800 \end{array} \right.. $

图像块匹配从$21 \times 21$的大小开始, 如果$G_i^{\min }$的值太大, 匹配图像块的尺寸将缩小.图像匹配的滑动步长被设定为$\sqrt n /3$.在此配置下, 找到的最相似图像块被标记为${\bf{Q}}_{{j_0}}^i.$使用较大的图像块进行匹配容易导致错过$\hat I_t^{r'}$中的最佳匹配.于是, 本文进一步在$\hat I_t^{r'}$中以${j_0}$为中心, 使用与${\bf{Q}}_{{j_0}}^i$大小相同的图像块在${(2 \times \sqrt n /3 -1)^2}$的检索窗口中以1为步长继续查找更相似的候选图像块.

2.4.4 高频信息融合

进行块匹配之后, $I_t^l$$\hat I_t^{r'}$中匹配的位置建立起对应关系.之后, 外部高频图$\hat I_m^r = \gamma ({\hat I^r}-\hat I_t^r)$$I_t^l$基于匹配的相关性进行融合.融合后向$I_t^l$叠加的高频信号$I_m^l$定义为

$ I_{m, p}^l = \left\{ \begin{array}{l} \frac{{\sum\limits_{q \in {\Omega _p}}^{} {\hat I_{m, {\bf{q}}}^r \cdot {{\rm{e}}^{\frac{{-d\left( {{\bf{p}}, {\bf{q}}} \right)}}{{100}}}}} }}{{\sum\limits_{q \in {\Omega _p}}^{} {{{\rm{e}}^{\frac{{-d\left( {{\bf{p}}, {\bf{q}}} \right)}}{{100}}}}} }}, {\rm{ }}\left| {{\Omega _{\bf{P}}}} \right| \ne 0\\ 0, {\rm{ }}\left| {{\Omega _{\bf{P}}}} \right| = 0 \end{array} \right., $

其中, $I_{m, p}^l$$I_m^l$中像素点p的值, $\hat I_{m, {\bf{q}}}^r$$I_m^l$中像素点q的值.集合${\Omega _{\bf{P}}}$包含所有在参考图像中与像素点p匹配的所有像素点.$d({\bf{p}}, {\bf{q}})$pq所在图像块之间的GMSE.$\left| {{\Omega _{\bf{P}}}} \right|$表示集合${\Omega _{\bf{P}}}$中元素的个数.

最后, 超分辨率重建的结果通过将抽取的高频图$I_m^l$和中间重建结果$I_t^l$进行相加而得:

$ {I^h} = I_t^l \oplus I_m^l. $
3 实验与结果 3.1 模型训练

直接训练图 1所示的双路径复原网络存在两点困难:(1)在训练阶段, 需要搜集大量的参考图像; (2)对包含外部高频信息复原路径的整个网络进行端对端的训练, 由于包含图像检索、对齐和位置匹配环节, 网络前向预测和后向梯度传播都十分繁琐和耗时.因此, 本文在训练阶段, 为了避免图像检索、对齐和位置匹配等操作, 对输入的低分辨率图像对应的高分辨率图像施加光照变换、对比度变换, 合成高分辨率参考图像.在测试阶段, 图像检索、对齐和位置匹配以离线的方式进行.后续实验结果表明, 用该方式生成的数据训练得到的网络, 与相关的离线操作一起提供了十分有效的超分辨率重建.

3.2 实验设定

本文使用91张图像[41]和BSD500[42]中的200张图像构成的291张图像集合作为训练集.91张图像格式为PNG, 大小为100×100到300×300之间, 200张图像的格式为JPEG, 大小为481×281或281×481.本文首先将图像从RGB颜色空间转换到YCbCr颜色空间.由于人对分辨率的主观视觉感受主要取决于Y通道, 因此仅对Y通道进行处理.色度通道Cb、Cr通过Bicubic插值进行尺度放大.为了在训练过程中, 同一个batch尽量包含多样化的训练样本, 本文将训练图像拆分成大小为32×32的图像块, 并对排列顺序进行随机打乱, 拆分步幅(stepsize)为16, 得到23 680个图像块用于训练.测试的缩放因子为2, 3, 4.本文在两种常见的降质配置下进行了测试和训练:(1)配置1:文献[43]中的下采样方法.使用模糊水平(blur level)为1.6、大小为7×7的模糊核对图像进行模糊, 之后进行逐点下采样.(2)配置2:使用Matlab的imresize函数对图像进行一定倍数的缩放.内部路径首先使用基于边缘引导的子带重建(DEGREE)[20]和极深卷积网络(VDSR)[21]中的方法进行预训练, 预训练之后, 内部路径的学习速率降为10–6, 外部路径的学习速率设置为10–4.对于配置1, 本文选择基于边缘引导的子带重建网络[20]作为内部高频信息复原网络; 对于配置2, 本文选择极深卷积网络[20]作为内部高频信息复原网络.本文与多种超分辨率方法进行比较:这些方法包括基于邻域回归的重建(NE)[11]、基于云数据库的地标图超分辨率重建(Landmark)[26]、基于在线补偿的组稀疏编码(GSSR)[28]和基于边缘引导的子带重建(DEGREE)[20]以及极深卷积网络(VDSR)[21].为了保证比较的公平性, 对于邻域回归超分辨率重建, 本文将检索到的高分辨率参考图像块加入到其训练集中, 对应版本的方法标记为NE-cloud.测试图像选自Oxford Building Dataset[44], 共包括8组, 如图 2所示.对于每个测试图像, 本文检索4张参考图像提取外部高频图加以增强.

Fig. 2 Testing images 图 2 测试图像集

3.3 参考图像检索结果展示

图 3展示了3组检索到的相似参考图像.

Fig. 3 Demonstration for reference image retreval 图 3 参考图像检索展示

3.4 客观质量评估

表 2表 3展示了客观质量评估的结果.对于两种类型的降质, 本文提出的方法均显著优于之前的方法.对于所有的情形(所有缩放尺度和测试样例), 本文提出的方法都取得了最高的PSNR和SSIM结果.具体地, 相比于最新的DEGREE和VDSR方法, 本文方法的PSNR结果分别高出1.10dB、1.45dB、1.50dB和0.81dB、1.38dB、1.70dB, SSIM结果分别高出0.007 9, 0.035 1, 0.044 1和0.011 1, 0.032 6, 0.052 8.相比于之前性能最好的Landmark和GSSR, 本文方法的平均PSNR增益大于1.6dB, 平均SSIM增益大于0.325.

Table 2 PSNR and SSIM results of different methods (under configuration Ⅰ) 表 2 不同方法的PSNR和SSIM结果(配置1)

Table 3 PSNR and SSIM results of different methods (under configuration Ⅱ) 表 3 不同方法的PSNR和SSIM结果(配置2)

3.5 主观结果

主观结果如图 3所示.由于Oxford Building Dataset中的图像集分辨率较大(1024×768).因此, 主观结果仅展示给定完整图像的局部, 以便更清晰地比较不同方法重建的高频细节.不同方法按配置1和配置2在不同放大倍数下的主观结果如图 4图 5所示.

Fig. 4 Subjective results of different methods in 3× enlargement on the local regions of testing image 'h', 'd' and 'b' (Configuration Ⅰ) 图 4 不同方法按配置1在3倍放大下的主观结果(测试图h, d和b的局部)

Fig. 5 Subjective results of different methods in 4× enlargement on the local regions of testing image 'f', 'h' and 'g' (Configuration Ⅱ) 图 5 不同方法按配置2在4倍放大下的主观结果(测试图f, h和g的局部)

图 4图 5可以看出, 通过在训练图像块集合中加入相似的外部参考图像块, NE-cloud成功地复原出部分局部边缘.但是, 该方法容易丢失部分结构信息, 导致失真的重建结果和较低的客观质量.Landmark成功地复原出部分高频信号, 但是, 不准确的图像块匹配以及后续的融合导致图像中出现噪音和瑕疵.基于稀疏表示的方法GSSR在利用相似参考图像信息时, 没有考虑位置信息, 因此, 更容易引入不准确的匹配图像块, 使重建结果中包含更多的噪音.DEGREE和VDSR能够很好地重构出结构信息和部分高频信号.然而, 由于未利用外部相似图像的信息, 这两种方法无法重建更复杂的高频细节.相比之下, 本文方法能够较好地复原图像中的高频信息.由于在设计网络时, 同时对内部高频信息重建和外部高频信息补偿进行联合建模, 并通过端对端的训练进行优化, 本文方法准确地匹配出外部参考图像块, 并有效地从中提取出高频信息, 重建出视觉上舒适的高分辨率结果.

3.6 叠加分析

图 6展示了一个重建示例以及各步骤的重建结果.

Fig. 6 Illustrations for the intermediate results of the proposed method 图 6 本文算法各步骤中间结果展示

图 6(a)为输入图像Il, 图 6(b)为参考图像Ir, 图 6(c)为对齐后的参考图像${\hat I^r}, $图 6(d)为高分辨率图像, 图 6(e)为中间复原结果$I_t^l$, 图 6(f)为重建结果Ih.从图 6可以看出, 仅根据内部高频信息重建得到的中间复原结果(如图 6(e)所示)损失了部分高频信息.经过外部信息补偿后, 重建结果(如图 6(f)所示)的高频细节与高分辨率图像(如图 6(d)所示)中原有的高频细节视觉上十分相似.值得一提的是, 参考图 6(a)与输入的低分辨率图 6(b)之间的光照、颜色存在巨大的差异, 但是由于对内部高频信息重建和外部高频信息补偿进行联合建模, 本文方法仍能有效地从中提取高频信息并对内部重建结果进行细节补偿, 显著提升了重建性能.

此外, 本文验证了所提出训练策略的有效性——对训练数据中的合成参考图像进行光照和颜色的随机扰动, 并对外部高频信息在线补偿路径的输入进行归一化.如表 4所示, 通过在训练中包含光照和颜色扰动, 并在外部复原路径中对输入进行归一化, 重建结果的质量得以进一步提升, PSNR的增益为0.4dB.表 4中, 3种算法分别为:基础算法、在训练中不包括光照和颜色扰动并在外部复原路径中对输入不进行归一化的本文所提算法以及完整的本文算法.

Table 4 Average PSNR and SSIM results (under configuration Ⅰ) 表 4 3种算法的平均PSNR和SSIM结果(配置1)

3.7 参考图像个数对重建性能的影响

表 5展示了本文方法在3倍放大下使用不同个数参考图像进行外部补偿的重建性能.其中, 使用0张参考图像表示不使用外部参考图像的内部重建结果, 亦即极深卷积网络的超分辨率重建结果.从结果可以看出, 相比于仅使用图像内部的信息, 使用1张外部参考图像进行外部补偿带来非常大的性能增益, 其中, PSNR增益为1dB, SSIM增益为0.027 1.相比于使用1张外部参考图像, 使用2张外部参考图像能够带来明显的性能增益, PSNR增益为0.32dB, SSIM增益为0.005 4.继续增加使用外部参考图像的数目, 超分辨率重建质量基本保持稳定.

Table 5 Average PSNR and SSIM results of the proposed method using different numbers of external reference images for the external compensated super-resolution with 3 as the scaling factor (under configuration Ⅱ) 表 5 在3倍放大下, 本文方法使用不同个数参考图像进行外部补偿重建的PSNR和SSIM结果(配置2)

3.8 检索精度对重建性能的影响

表 6展示了本文方法在不使用外部检索图像、检索完全失败、4张结果中仅有1张检索正确、4张结果中有1张检索错误和检索完全正确5种情况下的超分辨率重建性能.从结果中可以看出, 本文方法十分鲁棒, 在全部检索结果都不准确的情况下, 只有略微的性能损失, PSNR损失0.16dB.此外, 只要检索结果中包含正确结果, 本文方法就能利用其中的相似信息辅助超分辨率重建, 带来显著的性能增益, PSNR增益为1.17dB, SSIM增益为0.028 8.此外, 本文对不使用外部参考图像、外部参考图像全为错误检索结果和外部参考图像中包含1张正确检索结果的情况进行视觉对比, 如图 7所示.当检索得到的参考图像与待超分辨图像之间全部不相似时(如图 7(c)所示), 重建结果会出现一些噪音或瑕疵, 当检索结果中包含至少1张正确结果时(如图 7(d)所示), 本文方法能够有效排除噪音和错误检索的干扰, 恢复出一部分与高分辨率图像相似的高频细节.

Table 6 Average PSNR and SSIM results of the proposed method when there are non-similar images in the retrieved images for the external compensated super-resolution with 3 as the scaling factor (under configuration Ⅱ) 表 6 在3倍放大下, 当检索结果存在不相似图像时, 本文方法进行外部补偿超分辨率重建的PSNR和SSIM结果(配置2)

Fig. 7 Illustrations for high-frequency detail reconstruction with inaccurately retrieved results 图 7 存在错误检索结果情况下的高频细节重建展示

图 7(a)为高分辨率图像${I^h}, $图 7(b)为内部重建结果$I_t^l$, 图 7(c)为在检索参考图像全部错误情况下的重建结果Ih, 图 7(d)为在检索参考图像包含1张正确结果情况下的重建结果Ih.

4 总结

本文提出了一种基于深度网络、利用在线检索的数据进行高频信息补偿的图像超分辨率重建算法.该网络通过3个分支预测高分辨率重建结果:一条旁路直接将输入的低分辨率图像输入到网络的最后一层; 高频信息重建路径基于低分辨率图像回归预测高分辨率图像, 重建高分辨率图像的主要结构; 外部高频信息补偿路径根据内部重建的结果, 从在线检索到的相似图像中提取高频细节.在第2条路径中, 本文在多层特征的测量和约束下, 从外部参考图像向重建结果中迁移高频细节.本文方法是端对端可训练的(end-to-end trainable), 并对内部重建和外部补偿进行联合建模与优化, 从而能够自动地权衡两者利弊, 给出最优的重建估计.图像超分辨率重建的实验结果表明, 本文方法在主、客观评价中均取得了比当前最佳算法更加优越的性能.

参考文献
[1]
Sun J, Xu Z, Shum HY. Gradient profile prior and its applications in image super-resolution and enhancement. IEEE Trans. on Image Processing, 2011, 20(6): 1529–1542. [doi:10.1109/TIP.2010.2095871]
[2]
Zuo W, Zhang L, Song C, Zhang D. Texture enhanced image denoising via gradient histogram preservation. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2013. 1203-1210.[doi:10.1109/CVPR.2013.159]
[3]
Katkovnik V, Foi A, Egiazarian K, Astola J. From local kernel to nonlocal multiple-model image denoising. Int'l Journal of Computer Vision, 2010, 86(1): 1–32. [doi:10.1007/s11263-009-0272-7]
[4]
Dong W, Zhang L, Shi G, Li X. Nonlocally centralized sparse representation for image restoration. IEEE Trans. on Image Processing, 2013, 22(4): 1620–1630. [doi:10.1109/TIP.2012.2235847]
[5]
Mairal J, Bach F, Ponce J, Sapiro G, Zisserman A. Non-Local sparse models for image restoration. In:Proc. of the IEEE Conf. on Computer Vision. 2009. 2272-2279.[doi:10.1109/ICCV.2009.5459452]
[6]
Marquina A, Osher SJ. Image super-resolution by TV-regularization and Bregman iteration. Journal of Scientific Computing, 2008, 37(3): 367–382. [doi:10.1007/s10915-008-9214-8]
[7]
Aly HA, Dubois E. Image up-sampling using total-variation regularization with a new observation model. IEEE Trans. on Image Processing, 2005, 14(10): 1647–1659. [doi:10.1109/TIP.2005.851684]
[8]
Yang J, Wright J, Huang TS, Ma Y. Image super-resolution via sparse representation. IEEE Trans. on Image Processing, 2010, 19(11): 2861–2873. [doi:10.1109/TIP.2010.2050625]
[9]
Pan Q, Liang Y, Zhang L, Wang SL. Semi-Coupled dictionary learning with applications to image super-resolution and photo-sketch synthesis. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2012. 2216-2223.[doi:10.1109/CVPR.2012.6247930]
[10]
He L, Qi H, Zaretzki R. Beta process joint dictionary learning for coupled feature spaces with application to single image super-resolution. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2013. 345-352.[doi:10.1109/CVPR.2013.51]
[11]
Li Y, Liu J, Yang W, Guo Z. Neighborhood regression for edge-preserving image super-resolution. In:Proc. of the IEEE Int'l Conf. on Acoustics, Speech and Signal Processing. 2015. 1201-1205.[doi:10.1109/ICASSP.2015.7178160]
[12]
Chang H, Yeung DY, Xiong Y. Super-Resolution through neighbor embedding. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2004. 1:I.[doi:10.1109/CVPR.2004.1315043]
[13]
Timofte R, De Smet V, Van Gool L. Anchored neighborhood regression for fast example-based super-resolution. In:Proc. of the IEEE Int'l Conf. on Computer Vision. 2013. 1920-1927.[doi:10.1109/ICCV.2013.241]
[14]
Timofte R, De Smet V, Van Gool L. A+:Adjusted anchored neighborhood regression for fast super-resolution. In:Proc. of the Asian Conf. on Computer Vision. 2014. 111-126.[doi:10.1007/978-3-319-16817-3_8]
[15]
Salvador J, Pérez-Pellitero E. Naive bayes super-resolution forest. In:Proc. of the IEEE Int'l Conf. on Computer Vision. 2015. 325-333.[doi:10.1109/ICCV.2015.45]
[16]
Schulter S, Leistner C, Bischof H. Fast and accurate image upscaling with super-resolution forests. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2015. 3791-3799.[doi:10.1109/CVPR.2015.7299003]
[17]
Dong C, Loy CC, He K, Tang XO. Learning a deep convolutional network for image super-resolution. In:Proc. of the European Conf. on Computer Vision. 2014. 184-199.[doi:10.1007/978-3-319-10593-2_13]
[18]
Liu D, Wang Z, Wen B, Yang JC, Han W, Huang TS. Robust single image super-resolution via deep networks with sparse prior. IEEE Trans. on Image Processing, 2016, 25(7): 3194–3207. [doi:10.1109/TIP.2016.2564643]
[19]
Wang Z, Liu D, Yang J, Ha W, Huang T. Deep networks for image super-resolution with sparse prior. In:Proc. of the IEEE Int'l Conf. on Computer Vision. 2015. 370-378.[doi:10.1109/ICCV.2015.50]
[20]
Yang W, Feng J, Yang J, Zhao F, Liu J, Guo Z, Yan S. Deep edge guided recurrent residual learning for image super-resolution. IEEE Trans. on Image Processing, 2017, 26(12): 5895–5907. [doi:10.1109/TIP.2017.2750403]
[21]
Kim J, Kwon Lee J, Mu Lee K. Accurate image super-resolution using very deep convolutional networks. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2016. 1646-1654.[doi:10.1109/CVPR.2016.182]
[22]
Kim J, Kwon Lee J, Mu Lee K. Deeply-Recursive convolutional network for image super-resolution. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2016. 1637-1645.[doi:10.1109/CVPR.2016.181]
[23]
Timofte R, De Smet V, Van Gool L. Semantic super-resolution:When and where is it useful. Computer Vision and Image Understanding, 2016, 142: 1–12. [doi:10.1016/j.cviu.2015.09.008]
[24]
Johnson J, Alahi A, Li FF. Perceptual losses for real-time style transfer and super-resolution. In:Proc. of the European Conf. on Computer Vision. 2016. 694-711.[doi:10.1007/978-3-319-46475-6_43]
[25]
Ledig C, Theis L, Huszár F, Caballero J, Cunningham A, Acosta A, Aitke A, Tejani A, Totz J, Wang ZH, Shi WZ. Photo-Realistic single image super-resolution using a generative adversarial network. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2016. 105-114.[doi:10.1109/CVPR.2017.19]
[26]
Yue H, Sun X, Yang J, Wu F. Landmark image super-resolution by retrieving Web images. IEEE Trans. on Image Processing, 2013, 22(12): 4865–4878. [doi:10.1109/TIP.2013.2279315]
[27]
Li Y, Dong W, Shi G, Xie X. Learning parametric distributions for image super-resolution:Where patch matching meets sparse coding. In:Proc. of the IEEE Int'l Conf. on Computer Vision. 2015. 450-458.[doi:10.1109/ICCV.2015.59]
[28]
Liu J, Yang W, Zhang X, Guo Z. Retrieval compensated group structured sparsity for image super-resolution. IEEE Trans. on Multimedia, 2017, 19(2): 302–316. [doi:10.1109/TMM.2016.2614427]
[29]
Dong C, Loy CC, Tang X. Accelerating the super-resolution convolutional neural network. In:Proc. of the European Conf. on Computer Vision. 2016. 391-407. https://www.springerprofessional.de/en/accelerating-the-super-resolution-convolutional-neural-network/10708956
[30]
Shi W, Caballero J, Huszár F, Totz J, Aitken AP, Bishop R, Rueckert D, Wang ZH. Real-Time single image and video super-resolution using an efficient sub-pixel convolutional neural network. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2016. 1874-1883.[doi:10.1109/CVPR.2016.207]
[31]
Yue H, Sun X, Yang J, Wu F. CID:Combined image denoising in spatial and frequency domains using Web images. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2014. 2933-2940.[doi:10.1109/CVPR.2014.375]
[32]
Liu X, Wu X, Zhou J, Zhao D. Data-Driven sparsity-based restoration of JPEG-compressed images in dual transform-pixel domain. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2015. 5171-5178.[doi:10.1109/CVPR.2015.7299153]
[33]
Zhang Y, Dong W, Deussen O, Huang FY, Li K, Hu BG. Data-Driven face cartoon stylization. In:Proc. of the ACM Conf. and Exhibition on Computer Graphics and Interactive Techniques in Asia. 2014. 1-4.[doi:10.1145/2669024.2669028]
[34]
Wang B, Yu Y, Wong TT, Chen C, Xu YQ. Data-Driven image color theme enhancement. Proc. of the ACM Trans. on Graphics, 2010, 29(6): 146. [doi:10.1145/1882261.1866172]
[35]
Freeman WT, Liu C. Markov random fields for super-resolution and texture synthesis. Advances in Markov Random Fields for Vision and Image Processing, 2011, 1: 155–165.
[36]
Xiong Z, Xu D, Sun X, Wu F. Example-Based super-resolution with soft information and decision. IEEE Trans. on Multimedia, 2013, 15(6): 1458–1465. [doi:10.1109/TMM.2013.2264654]
[37]
Yang J, Lin Z, Cohen S. Fast image super-resolution based on in-place example regression. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2013. 1059-1066.[doi:10.1109/CVPR.2013.141]
[38]
Bay H, Ess A, Tuytelaars T, Gool LV. Speeded-Up robust features (SURF). Computer Vision and Image Understanding, 2008, 110(3): 346–359. [doi:10.1016/j.cviu.2007.09.014]
[39]
Li FF, Perona P. A Bayesian hierarchical model for learning natural scene categories. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2005, 2:524-531.[doi:10.1109/CVPR.2005.16]
[40]
Lowe DG. Distinctive image features from scale-invariant keypoints. Int'l Journal of Computer Vision, 2004, 60(2): 91–110. [doi:10.1023/B:VISI.0000029664.99615.94]
[41]
Yang J, Wang Z, Lin Z, Cohen S, Huang T. Coupled dictionary training for image super-resolution. IEEE Trans. on Image Processing, 2012, 21(8): 3467–3478. [doi:10.1109/TIP.2012.2192127]
[42]
Martin D, Fowlkes C, Tal D, Malik J. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics. In:Proc. of the IEEE Int'l Conf. on Computer Vision. 2001, 2:416-423.[doi:10.1109/ICCV.2001.937655]
[43]
Dong WS, Zhang L, Shi GM, Li X. Nonlocally centralized sparse representation for image restoration. IEEE Trans. on Image Processing, 2013, 22(4): 1620–1630.
[44]
Philbin J, Chum O, Isard M, Sivic J, Zisserman A. Object retrieval with large vocabularies and fast spatial matching. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2007. 1-8.[doi:10.1109/CVPR.2007.383172]