软件学报  2017, Vol. 28 Issue (8): 2113-2125   PDF    
基于双稀疏正则的图像集距离学习
刘博1,2, 景丽萍1, 于剑1     
1. 交通数据分析与挖掘北京市重点实验室(北京交通大学), 北京 100044;
2. 河北农业大学 信息科学与技术学院, 河北 保定 071000
摘要: 随着视频采集和网络传输技术的快速发展以及个人移动终端设备的广泛使用,大量图像数据以集合形式存在.集合内在结构的复杂性使得如何度量集合间距离成为图像集分类的一个关键问题.为了解决这一问题,提出了一种基于双稀疏正则的图像集距离学习框架(double sparse regularizations for image set distance learning,简称DSRID).在该框架中,两集合间距离被建模成其对应的内部典型子结构间的距离,从而保证了度量的鲁棒性和判别性.根据不同的集合表示方法,给出了其在传统的欧式空间以及两个常见的流形空间,即对称正定矩阵流形(symmetric positive definite matrices manifold,简称SPD manifold)和格林斯曼流形(Grassmann manifold)上的实现.在一系列的基于集合的人脸识别、动作识别和物体分类任务中验证了该框架的有效性.
关键词: 图像集分类     稀疏表示     距离学习     流形学习     子空间学习    
Image Set Distance Learning Via Double Sparse Regularizations
LIU Bo1,2, JING Li-Ping1, YU Jian1     
1. Beijing Key Laboratory of Traffic Data Analysis and Mining(Beijing Jiaotong University), Beijing 100044, China;
2. College of Information Science and Technology, Agricultural University of Hebei, Baoding 071000, China
Foundation item: National Natural Science Foundation of China (61370129, 61375062, 61632004); CCF-Tencent Open Fund (RAGR20150116); Program for Changjiang Scholars and Innovative Research Team in University (IRT201206); Grants from Baoding City Science & Technology and Intellectual Property Right Bureau (16ZG026)
Abstract: With the development of video acquisition and transmission technologies, and the widespread applications of mobile terminal devices, more and more set-based images are available. The key issue of image set classification is how to measure the distance between two sets over the complexity of inner structure of the set. To address this problem, this paper presents a framework, called double sparse regularizations for image set distance learning (DSRID). In DSRID, the distance between two sets is calculated by the distance between two prominent sub-structures in each set, which enhances the robustness and discrimination of the measure. According to different set representations, this framework is implemented in traditional Euclidean space and two common manifolds, i.e., symmetric positive definite matrices manifold (SPD manifold) and Grassmann manifold. Extensive experiments demonstrate the effectiveness of the proposed method on set-based face recognition, action recognition and object categorization.
Key words: image set classification     sparse representation     distance learning     manifold learning     subspace learning    

网络互联技术与计算机硬件性能的协同发展, 共同推进了大数据时代的来临.一方面, 大量数据以文本、图像、视频等形式不断产生, 如每1分钟有大约300小时的视频被上传到YouTube网站上, 微信和新浪微博这两大社交平台每天产生的朋友圈图像与文本短消息也数以亿计; 另一方面, 对这些数据的有效分析与挖掘, 成为亟待解决的问题.在这些多模数据当中, 有一类数据近年来引起了研究者的关注, 这就是图像集数据.针对图像集的分类问题可被认为是一种泛化的视频分类问题, 如, 从一段人脸视频抽取的多帧序列可以看成是一个图像集.与视频分类的一个明显不同是:图像集分类并不要求集合内数据的时序特性, 如手机上的个人相册、同一物体的多角度图片等.图像集放松了对集合内数据时序特性的限制, 因此在人脸识别[1]、动作识别[2]、物体分类[3]、场景分类[4]中有着广泛的应用.

与传统的以单个样本为单位的分类方法相比, 图像集可以在降低标注负担的同时提供待分类客体的更加丰富的信息, 从而创建更加鲁棒的分类算法.但同时, 图像集也会带来较大的集合内变化, 如一个人脸图像集内通常含有光照、姿态、表情、角度等多种类型的变化, 这导致传统的度量方法不再适用于该类数据.目前, 针对图像集分类的关键问题是如何度量集合间距离或相似度, 其目标是建立具有高判别性的图像集表示.目前已存在的集合度量方法主要分为两种:一类是在传统的欧式空间中[5-7], 每个集合表示成集合内所有图像的某种线性组合, 通过这一压缩表示, 任意两集合间的距离转化为两点间的欧式距离.此类方法不可避免地带来信息损失, 并且忽略了集合的内部结构.另一类方法是引入流形假设[8-12], 其中每个集合被建模为某种特定流形上的一个点, 进而使用流形上的测地距离(geodesic distance)代替传统的欧式距离.该类方法对集合结构的适应性更强, 但仍存在鲁棒性等问题.

本文在充分考虑集合内结构的基础上, 提出了基于双稀疏正则的图像集距离学习框架(double sparse regularizations for image set distance learning, 简称DSRID), 该框架把两集合间距离建模为其对应集合内显著子结构间的距离, 通过在欧式空间及流形空间内实现这一框架, 以验证其有效性.具体过程如图 1所示:给定集合AB(各有3个和两个子结构), DSRID在不同的度量空间下找到每个集合中具有代表性的子结构, 并以子结构间距离作为集合间距离的度量.

Fig. 1 Distance between two image sets 图 1 两图像集间的距离

1 相关工作

根据集合建模方式, 图像集分类方法大致可以分为两类:单模式方法与多模式方法.

单模式方法把每个集合当作一个整体, 假设集合具有某一分布或结构特性.它又可以分为3种建模方式.

1) 以概率分布为主的建模方式.如Shakhnarovich等人[13]、Arandjelovic等人[14]把每个集合表示为一个高斯分布, 用KL-散度度量集合间的相似度.这类方法的不足在于, 当测试与训练数据缺乏统计相关性时, 基于分布的建模方法无法反映集合的真实结构.

2) 以几何结构为主的建模方式, 这类方法从集合的几何结构出发, 提出了不同的集合表示方法, 如子空间方法[15]、协方差矩阵[8]等.

3) 以特征点为主的建模方式.这类方法把集合压缩表示为一个向量形式, 该向量为集合内元素的一个线性组合[5]、凸组合或仿射组合[6], 这一表示可以使传统的基于欧式空间的分类方法直接用于集合数据, 但不可避免地带来信息丢失, 从而降低分类器性能.

以上所涉及到的单模式方法, 其对集合的整体建模特性使其忽略了集合内的子结构分布, 正是这些子结构导致了过大的集合内变化, 从而给分类任务带来困难.

多模式方法充分考虑了集合内的结构变化, 假设集合内存在多个局部结构.如, Wang等人[10]把一个集合分为多个线性子空间结构, 通过定义这些子结构的距离来反映集合距离.又如, Cheng等人[16]针对测试集合中的每个子结构, 搜索其在训练集中的最近集合, 通过重构误差反映集合距离.Huang等人[17]对集合采用高斯混合模型建模, 每个子结构为一个高斯成分.这些方法在充分考虑子结构间关系方面还有所欠缺.同时, 如何反映集合内的子结构变化, 也值得进一步研究.

图像集的结构定义通常与某种空间下的度量方法相匹配, 再辅以判别学习或尺度学习框架, 形成新的集合表示, 最终与某些分类器, 如k-近邻(KNN)、支持向量机(SVM)等相绑定形成图像集分类框架.图像集分类常用的度量空间有两种:欧式空间与流形空间.基于特征点的分类方法由于每个集合被表示成向量形式, 因此通常采用欧式距离进行度量.如, Hu等人[7]通过寻找代表不同集合的点对间的最小距离度量集合间距离, 每个点为其所属集合内的所有点的稀疏线性组合.Yang等人[5]则采用l2-范数正则化表示系数.Zhu等人[18]在生成表示系数时考虑了所有训练数据, 从而相对于前两种方法体现了更多的集合间信息, 但其把每个集合同等对待, 从而使得表示欠缺判别性.当采用子空间或对称正定矩阵(例如协方差矩阵)对集合建模时, 很自然地引入了流形学习框架.如, 每个子空间对应于格林斯曼流形(Grassmann manifold)上的一个点; 每个协方差矩阵对应于对称正定矩阵流形(symmetric positive definite matrices, 简称SPD manifold)上的一个点, 通过定义合适的黎曼度量, 如投影度量[4]、仿射不变度量[19]、对数欧式度量[20]等, 则可以在流形空间中对图像集数据进行分析.其中一类方法是通过定义黎曼度量下的核函数, 在高维空间中进行的判别式学习[21]或度量学习[22, 23], 其基本策略是通过学习映射函数, 从而保证类间距离最大化及类内距离最小化.此类方法虽然可以有效处理集合数据, 但在高维空间中并不能严格保留流形中的几何结构, 并且产生较大的计算负担.另一类方法则通过流形优化技术, 直接在流行空间中学习映射函数[24], 无论采取哪种策略, 这类基于流形的方法在度量集合间关系时易受到噪音点和离群点的影响, 从而产生鲁棒性问题.

近年来, 字典学习[25]和深度学习策略[2, 26]被相继引入到图像集分类当中.前者利用传统图像分类领域中的字典学习方法, 通过适配集合结构以学习集合表示; 在后者中, Hayat等人[2]把属于每个类的数据建模为一个深度网络, 采用类最小重构误差作为分类准则而忽略了类间关系.Lu等人[26]采用相似的类建模方法, 并结合了最大间隔分类策略.有趣的是, 该类深度模型并没有比浅层模型有着显著优势, 部分原因是由于这些网络结构并没有根据图像集数据进行针对性的改进.

2 基于双稀疏正则的图像集距离学习框架

由于图像集内在结构的多样性, 假设每个图像集内部存在着1个或多个子结构, 因此在度量两个图像集时, 应充分考虑这些子结构间的关系, 给定图像集合X={xi}1≤ip$\mathbb{R}$d×pY={yj}1≤jq$\mathbb{R}$d×q各含有p个与q个图像, 其中, xi$\mathbb{R}$dX的第i个图像, yj$\mathbb{R}$dY的第j个图像.为不失去一般性, 这里假设每幅图片为一个子结构, 则基于双稀疏正则的图像集距离学习框架(DSRID)定义为

$ \left\{ \begin{array}{l} {\min _{\mathit{\boldsymbol{a, b}}}}{d^2}( \uplus _{i = 1}^p{a_i}{\mathit{\boldsymbol{x}}_i}, \uplus _{j = 1}^q{b_j}{\mathit{\boldsymbol{y}}_j}) + {\lambda _1}\mathit{\Omega }(\mathit{\boldsymbol{a}}) + {\lambda _2}\mathit{\Omega }(\mathit{\boldsymbol{b}})\\ {\rm{s}}{\rm{.t}}{\rm{. }} \mathit{\boldsymbol{a}}, \mathit{\boldsymbol{b}} \in {\cal C} \end{array} \right. $ (1)

其中, d(·, ·ƒ)为某种距离度量函数, $\uplus$为定义在各子结构间的加和操作, a$\mathbb{R}$pb$\mathbb{R}$q为对应集合中各子结构的线性表示系数, Ω为附加在系数上的正则项, λ1λ2为正则项系数, $\mathcal{C}$为系数的约束条件.该框架的判别性体现在两个方面:一是子结构的划分, 二是正则项的设置.根据图像集的假设空间不同, 以下两节分别给出该框架在欧式空间与流形空间上的实现.

3 欧式空间图像集距离学习

在欧式空间中, 每个图像集表示为若干个图像向量的集合, 这里采用基于高斯相似度的谱聚类[27]算法挖掘欧式空间下图像集内的子结构.本文假定每个集合含有g个子结构, 由于每个子结构对集合的贡献不同, 集合间的距离应为每个集合内最具有代表性的子结构间的距离.为实现这一目标, DSRID引入了组稀疏的约束, 以下给出对应的目标函数和优化方法.

3.1 目标函数

根据公式(1) 的定义, 给出DSRID在欧式空间(简称DSRID-E)内的目标函数为

$ \left\{ \begin{array}{l} {\min _{\mathit{\boldsymbol{a, b}}}}\frac{1}{2}||\mathit{\boldsymbol{Xa}}-\mathit{\boldsymbol{Yb}}||_2^2 + {\lambda _1}\sum\limits_{i = 1}^g {w_i^X} ||{\mathit{\boldsymbol{a}}_{{G_i}}}|{|_2} + {\lambda _2}\sum\limits_{j = 1}^g {w_j^Y} ||{\mathit{\boldsymbol{b}}_{{G_j}}}|{|_2}\\ {\rm{s}}{\rm{.t}}{\rm{. }} \sum\limits_{i = 1}^g {{\mathit{\boldsymbol{a}}_{{G_i}}} = 1}, \sum\limits_{j = 1}^g {{\mathit{\boldsymbol{b}}_{{G_j}}} = 1} \end{array} \right. $ (2)

其中, 每个图像集被分为g组, 对应g个子结构.aGi表示集合X对应第i组的表示系数.wiX表示集合X中第i组的权重, 为了平衡组内图像数量对表示系数的影响, 权重设置为每个组的大小.组稀疏的引入, 使得系数对子结构具有了选择性.另外, 仿射约束的引入, 从而避免了平凡解.

3.2 优化

公式(2) 可以分解为包含变量a, b的两个子问题, 可用ADMM[28]进行求解.求解过程中交替更新两个变量, 针对第k+1次迭代的更新变量ak+1bk+1, 对应的子问题分别是

$ \left\{ \begin{array}{l} {\mathit{\boldsymbol{a}}^{k + 1}} = \arg {\min _\mathit{\boldsymbol{a}}}\frac{1}{2}||\mathit{\boldsymbol{Xa}}-\mathit{\boldsymbol{Y}}{\mathit{\boldsymbol{b}}^k}||_2^2 + {\lambda _1}\sum\limits_{i = 1}^g {w_i^X} ||{\mathit{\boldsymbol{a}}_{{G_i}}}|{|_2}\\ {\rm{s}}{\rm{.t}}{\rm{. }} \sum\limits_{i = 1}^g {{\mathit{\boldsymbol{a}}_{{G_i}}}} = 1 \end{array} \right. $ (3)
$ \left\{ \begin{array}{l} {\mathit{\boldsymbol{b}}^{k + 1}} = \arg {\min _\mathit{\boldsymbol{b}}}\frac{1}{2}|\mathit{\boldsymbol{|X}}{\mathit{\boldsymbol{a}}^{k + 1}}-\mathit{\boldsymbol{Yb}}||_2^2 + {\lambda _2}\sum\limits_{j = 1}^g {w_j^Y} ||{\mathit{\boldsymbol{b}}_{{G_j}}}|{|_2}\\ {\rm{s}}{\rm{.t}}{\rm{. }}\sum\limits_{j = 1}^g {{\mathit{\boldsymbol{b}}_{{G_j}}}} = 1 \end{array} \right. $ (4)

针对问题(3), 引入辅助变量m, 可得:

$ \left\{ \begin{array}{l} {\mathit{\boldsymbol{a}}^{k + 1}} = \arg {\min _\mathit{\boldsymbol{a}}}\frac{1}{2}|\mathit{\boldsymbol{|Xa}}-\mathit{\boldsymbol{Y}}{\mathit{\boldsymbol{b}}^k}||_2^2 + {\lambda _1}\sum\limits_{i = 1}^g {w_i^X} ||{\mathit{\boldsymbol{m}}_{{G_i}}}|{|_2}\\ {\rm{s}}{\rm{.t}}{\rm{. }}\sum\limits_{i = 1}^g {{\mathit{\boldsymbol{a}}_{{G_i}}}} = 1, m = \mathit{\boldsymbol{a}} \end{array} \right. $ (5)

引入乘子τ1$\mathbb{R}$pτ2$\mathbb{R}$, 则公式(5) 对应的增广拉格朗日函数为(为显示方便, 这里去掉了迭代次数k):

$ {\cal L}(\mathit{\boldsymbol{a}}, \mathit{\boldsymbol{m}}, {\mathit{\boldsymbol{\tau }}_1}, {\tau _2}) = \frac{1}{2}||\mathit{\boldsymbol{Xa}}-\mathit{\boldsymbol{Yb}}||_2^2 + {\lambda _1}\sum\limits_{i = 1}^g {w_i^X} ||{\mathit{\boldsymbol{m}}_{{G_i}}}|{|_2} + \\ \frac{\mu }{2}\left\| {\mathit{\boldsymbol{m}}-\mathit{\boldsymbol{a}} + \frac{{{\mathit{\boldsymbol{\tau }}_1}}}{\mu }} \right\|_2^2 + \frac{\mu }{2}\left\| {{\mathit{\boldsymbol{1}}^T}\mathit{\boldsymbol{a}}-1 + \frac{{{\tau _2}}}{\mu }} \right\|_2^2 $ (6)

其中, 1$\mathbb{R}$p为全1向量; μ为二次项的惩罚参数, 用以对违反约束做出惩罚[28].由此, 变量a可按照如下方式更新:

$ \mathit{\boldsymbol{a}} = {({\mathit{\boldsymbol{X}}^T}\mathit{\boldsymbol{X}} + \mu \mathit{\boldsymbol{1}}{\mathit{\boldsymbol{1}}^T} + \mu {\mathit{\boldsymbol{I}}_p})^{-1}}({\mathit{\boldsymbol{X}}^T}\mathit{\boldsymbol{Yb}} + \mu \mathit{\boldsymbol{m}} + {\mathit{\boldsymbol{\tau }}_1} + \mu \mathit{\boldsymbol{1}} + {\tau _2}\mathit{\boldsymbol{1}}) $ (7)

其中, Ip$\mathbb{R}$p×q为单位矩阵.同时, 根据文献[29], 可得:

$ {\mathit{\boldsymbol{m}}_{{G_i}}} = \frac{{{\mathit{\boldsymbol{t}}_{{G_i}}}}}{{||{\mathit{\boldsymbol{t}}_{{G_i}}}|{|_2}}}\max \left( {||{\mathit{\boldsymbol{t}}_{{G_i}}}|{|_2}-\frac{{{\lambda _1}w_i^X}}{\mu }, 0} \right) $ (8)

其中, $\mathit{\boldsymbol{t}} = \mathit{\boldsymbol{a}}-\frac{{{\mathit{\boldsymbol{\tau }}_1}}}{\mu }$.最后, 乘子的更新准则为

$ {\mathit{\boldsymbol{\tau }}_1} = {\mathit{\boldsymbol{\tau }}_1} + \mu (\mathit{\boldsymbol{m}}-\mathit{\boldsymbol{a}}), {\tau _2} = {\tau _2} + \mu ({\mathit{\boldsymbol{1}}^T}\mathit{\boldsymbol{a}}-1) $ (9)

算法1给出了针对变量a的子问题(3) 的求解过程.

算法1.使用ADMM求解子问题(3).

输入:图像集X, Y, 表示系数b, 参数λ1.

输出:a, m.

(1) 初始化μ=0.9, ρ=1.1, ε=10-3, μmax=104, bi=1/q.

(2)   while不收敛do

(3)     使用公式(7) 更新a.

(4)     使用公式(8) 更新m.

(5)     使用公式(9) 更新乘子τ1τ2.

(6)     更新μ=max(ρ, μmax).

(7)     检测收敛条件||ak-mk|| < ε并且max(||ak-ak-1||, ||mk-mk-1||) < ε.

(8) end while

其中, 第(6) 步由于固定的μ会导致算法收敛速度较慢, 因此通过引入变量ρ构建μ的递增序列以加速收敛[30].根据对称性, 易得变量b的更新算法(这里省略了b的求解过程).算法2给出了采用ADMM交替更新a, b以求解DSRID-E模型的过程.算法2为两变量的ADMM, 其收敛性得到保证[28].

算法2.使用ADMM求解问题(2) 的DSRID-E模型.

输入:图像集X, Y, 参数λ1, λ2.

输出:a, b.

(1) while不收敛do

(2)   使用算法1求解系数a.

(3)   使用与算法1类似的对称算法求解系数b.

(4) end while

4 流形空间图像集距离学习

图像集结构的复杂性, 导致不同研究者对其结构采用了不同的假设.流形假设是一类重要的假设.在该假设下, 一个集合被认为是流形上的一个点.不同于传统的欧式度量, 黎曼度量通过计算流形上任意两点间最短路径, 即测地距离, 表示两点间关系.拓展于黎曼流形, 两类对图像集分类最常用的流形是对称正定矩阵流形和格林斯曼流形.本节讨论DSRID框架在这两类流形上的实现.

4.1 SPD流形上的图像集距离学习

SPD流形由对称正定矩阵张成, 为使其建模每个图像集, 同时考虑到每个图像集内部的多个子结构, 这里采用高斯混合模型(GMM)分析每个集合, 进而得到的所有协方差矩阵构成了一个SPD流形.同时, 为保证正定性, 与文献[8]类似, 可以在每个矩阵的对角线元素上加一个小的扰动.假设每个集合含有g个高斯成分, 则有图像集X={Xi}1≤ig, 且Xi$\mathbb{S}_ + ^d$为对应的协方差矩阵.SPD上有两个应用广泛的度量, 分别为仿射不变度量(affine-invariant metric, 简称AIM)[19]和对数欧式度量(log-Euclidean metric, 简称LED)[20].基于运算量与实验结果, 这里选用LED代替公式(1) 中的距离度量函数, 其定义为

$ d\left( {{\mathit{\boldsymbol{X}}_i}, {\mathit{\boldsymbol{X}}_j}} \right) = ||{\rm{log}}\left( {{\mathit{\boldsymbol{X}}_i}} \right)-{\rm{log}}\left( {{\mathit{\boldsymbol{X}}_j}} \right)|{|_F} $ (10)

其中, log(·)为矩阵对数.

4.1.1 目标函数

采用LED度量的DSRID在SPD流形的实现简称为DSRID-S.其初衷是找到集合中具有代表性的SPD矩阵, 并以LED作为距离度量函数.为了便于应用DSRID框架, 首先把SPD矩阵映射到欧式空间, 然后把映射矩阵拉伸成向量形式有$\mathit{\boldsymbol{\tilde X}} = [vec(\log ({\mathit{\boldsymbol{X}}_1})), vec(\log ({\mathit{\boldsymbol{X}}_2})), ..., vec(\log ({\mathit{\boldsymbol{X}}_g}))]$.同时, 对于$\mathit{\boldsymbol{\tilde Y}}$有类似定义.下面给出DSRID-S的目标函数:

$ \left\{ \begin{array}{l} {\min _{\mathit{\boldsymbol{a, b}}}}\frac{1}{2}||\mathit{\boldsymbol{\tilde Xa}}-\mathit{\boldsymbol{\tilde Yb}}||_2^2 + {\lambda _1}||\mathit{\boldsymbol{a}}|{|_1} + {\lambda _2}||\mathit{\boldsymbol{b}}|{|_1}\\ {\rm{s}}{\rm{.t}}{\rm{. }}\sum\limits_{i = 1}^g {{a_i}} = 1, \sum\limits_{j = 1}^g {{b_j}} = 1 \end{array} \right. $ (11)

其中, $||\mathit{\boldsymbol{a}}|{|_1} = \sum\limits_{i = 1}^g {|{a_i}|}, ||\mathit{\boldsymbol{b}}|{|_1} = \sum\limits_{j = 1}^g {|{b_j}|} $.

该目标函数与公式(2) 类似, 由于$\mathit{\boldsymbol{\tilde X}}$$\mathit{\boldsymbol{\tilde Y}}$中每一列已经代表了一个子结构, 因此用稀疏约束代替了公式(2) 中的组稀疏约束.

4.1.2 优化

问题(11) 的优化方法与第3节中DSRID-E模型的优化方法类似, 具体可参考第3.2节的算法1与算法2, 两者最大的不同是对于辅助变量m的求解.在DSRID-S中, 由于对m施加了稀疏约束, 对比公式(8), 应用稀疏求解的收缩算子[29].因此, 对m的更新操作为

$ \mathit{\boldsymbol{m}} = sign(t)\max \left( {|\mathit{\boldsymbol{t}}|-\frac{{{\lambda _1}}}{\mu }, 0} \right) $ (12)

其中, $\mathit{\boldsymbol{t}} = \mathit{\boldsymbol{a}}-\frac{{{\mathit{\boldsymbol{\tau }}_1}}}{\mu }$.可以看出, 公式(8) 为公式(12) 在组稀疏上的扩展.

4.2 Grassmann流形上的图像集距离学习

另一类常见的图像集建模方法是假设每个集合内含有1个或多个线性子空间, 一个线性子空间可以认为是Grassmann流形上的一个点.为了识别集合内的多个子空间结构, 可以采用子空间聚类算法[31].假设每个集合内含有gs维子空间, 则有X={Xi}1≤ig, 令${\boldsymbol{\hat X}_i} \in {\mathbb{R}^{d \times s}}$为第i个图像子集Xi对应的子空间的s个正交基, 且$\mathit{\boldsymbol{\hat X}}_i^T \times {\mathit{\boldsymbol{\hat X}}_i} = {\mathit{\boldsymbol{I}}_s}$.与SPD流形上的DSRID实现类似, 这里引入投影度量(projection metric)[9]来计算两个子空间的测地距离, 其定义为

$ d({\mathit{\boldsymbol{\hat X}}_i}, {\mathit{\boldsymbol{\hat X}}_j}) = ||{\mathit{\boldsymbol{\hat X}}_i}\mathit{\boldsymbol{\hat X}}_i^T-{\mathit{\boldsymbol{\hat X}}_j}\mathit{\boldsymbol{\hat X}}_j^T|{|_F} $ (13)

由于投影度量最终采用欧式距离测量子空间距离, 因此为了便于应用DSRID框架, 这里把投影矩阵拉伸成向量形式, 有$\mathit{\boldsymbol{\hat X}} = [vec({\mathit{\boldsymbol{\hat X}}_1} \times \mathit{\boldsymbol{\hat X}}_1^T), vec({\mathit{\boldsymbol{\hat X}}_2} \times \mathit{\boldsymbol{\hat X}}_2^T), ..., vec({\mathit{\boldsymbol{\hat X}}_g} \times \mathit{\boldsymbol{\hat X}}_g^T)]$.同时, 对于$\mathit{\boldsymbol{\hat Y}}$有类似定义.

4.2.1 目标函数

采用投影度量的DSRID在Grassmann流形上的实现简称为DSRID-G, 其对应的目标函数为

$ \left\{ \begin{array}{l} {\min _{\mathit{\boldsymbol{a, b}}}}\frac{1}{2}||\mathit{\boldsymbol{\hat Xa}}-\mathit{\boldsymbol{\hat Yb}}||_2^2 + {\lambda _1}||\mathit{\boldsymbol{a}}|{|_1} + {\lambda _2}||\mathit{\boldsymbol{b}}|{|_1}\\ {\rm{s}}{\rm{.t}}{\rm{. }}\sum\limits_{i = 1}^g {{a_i}} = 1, \sum\limits_{j = 1}^g {{b_j}} = 1 \end{array} \right. $ (14)

该目标函数与公式(11) 类似, 不同之处在于$\mathit{\boldsymbol{\hat X}}$$\mathit{\boldsymbol{\hat Y}}$中每一列代表了一个子空间.问题(14) 的求解可参照第4.1.2节DSRID-S模型的优化方法.

5 分类

根据以上DSRID在不同空间内的实现, 可以获得任意两集合间的距离, 进而利用这些距离度量构建集合的特征表示.给定含有n个图像集的训练集$\mathbb{X}$c个图像集的测试集$\mathbb{Y}$, 针对其中任意第i个集合的特征表示fi定义为

$ {\mathit{\boldsymbol{f}}_i} = \left[{\frac{{{d_{i, 1}}}}{{||{\mathit{\boldsymbol{f}}_i}|{|_2}}}, \frac{{{d_{i, 2}}}}{{|\mathit{\boldsymbol{|}}{\mathit{\boldsymbol{f}}_i}|{|_2}}}, ..., \frac{{{d_{i, n}}}}{{||{\mathit{\boldsymbol{f}}_i}|{|_2}}}} \right], $

其中, di, j为第i个训练或测试图像集与第j个训练图像集的距离.这里采用最小二乘回归作为分类器, 给定训练集的特征表示矩阵F$\mathbb{R}$n×n, 其中每一行为一个集合的特征表示, 同时定义类标矩阵T$\mathbb{R}$n×c, 其中, ti, j=1表示第i个集合属于第j类(共有c个类), 否则等于0, 则基于最小二乘回归的分类模型为

$ {{\rm{min}} _\mathit{\boldsymbol{W}}}||\mathit{\boldsymbol{FW}} - \mathit{\boldsymbol{T}}||_F^2 + \lambda ||\mathit{\boldsymbol{W}}||_F^2 $ (15)

其中, W$\mathbb{R}$n×c为映射矩阵, 其闭解形式为W=(FTF+λI)-1FTT.在以下实验中, 参数λ均固定为10-4.给定任意测试集合的特征表示fitest则其对应的预测向量为$\mathit{\boldsymbol{t}}_i^{test} = {\mathit{\boldsymbol{W}}^T}\mathit{\boldsymbol{f}}_i^{test}$, 则其类标为$j = \arg {\max _j}t_{i, j}^{test}.$

为利用不同度量下信息的互补性, 这里我们融合了本文涉及的3种度量(DSRID-E, DSRID-S和DSRID-G)的分类结果(对应的预测向量为$\mathit{\boldsymbol{t}}_i^{test(E)}, \mathit{\boldsymbol{t}}_i^{test(S)}$$\mathit{\boldsymbol{t}}_i^{test(G)}$), 采用平均预测向量作为最终的分类结果, 即

$ j = \arg {\max _j}\frac{1}{3}\left( {t_{i, j}^{test(E)} + t_{i, j}^{test(S)} + t_{i, j}^{test(G)}} \right). $
6 实验

为了验证算法的有效性, 我们比较了多种流行的图像集分类算法.这些算法按照图像集度量方式的不同分为4组:基于欧式空间的AHISD[6], CHISD[6], SANP[7]和RNP[5]; 基于子空间假设的DCC[15], MMD[10]和MDA[9]; 基于SPD流形假设的RSR[11]和CDL[8]; 基于组合度量的HERML[3]和DARG[17].

各算法参数参照各文献中的实验设置.

本文提出的图像集距离框架DSRID共有4个实现:欧式空间上的DSRID-E、SPD流形上的DSRID-S、Grassmann流形上的DSRID-G以及它们的融合方法DSRID-(E+G+S).模型中, 两个正则化参数λ1λ2的调试区间为{10-3, 10-2, 10-1}, DSRID中的子结构数量的调整区间为{1, 4, 8, 10}, DSRID-S中的子空间维度的调试区间均为{3, 5, 10, 12}, 具体参数设置由交叉验证确定.

所有实验结果如无特殊说明, 均是10次测试的平均准确率和标准差.

6.1 基于图像集的人脸识别

针对基于图像集的人脸识别任务, 我们选用了3个公共数据集:Honda/USCD[32], Mobo[33]以及YouTube Celebrities(YTC)[34].

●  Honda/USCD涵盖了20类, 由59个视频组成, 一段视频中的若干帧可以构成一个集合, 其中, 人脸图像由Viola-Jones人脸检测器[35]获得, 并且缩放为20x20的大小.按照文献[5]的设置, 数据采用直方图均衡化进行预处理, 以消除不同光照的影响.在训练分类器时, 20个集合作为训练集(每个人选择一个集合), 剩下的39个集合作为测试集.

●  Mobo数据集涵盖了24个人的96段动作视频, 人脸图像的提取采用与Honda类似的方法, 与在文献[5]中的设置类似, 人脸图像被缩放为40x40, 并且采用局部二值模式(local binary pattern, 简称LBP)[36]作为输入特征.在训练分类起时, 每个人选择一个集合构成训练集, 其他的作为测试集.

●  YTC数据集包含了47个人的1 910段视频.对于每个人, 这些视频中包含了大量的光照、姿态、表情等变化.人脸图像仍然用Viola-Jone人脸检测器[35]获得.每幅图像缩放到20x20, 并采用LBP直方图作为输入特征.与文献[7]的实验设置类似, 数据集被平分为尽量不重叠的5部分, 对于每个部分, 每个人约有9个图像集, 其中, 随机选取3个作为训练集, 剩下的组成测试集.

图 2给出了3个数据集的样例, 分类结果在表 1中(最好的结果用加粗标出).可以看出, 由于Honda与Mobo两个数据集相对简单, 所有算法都取得了较好的结果.其中, 本文提出的DSRID-S与DSRID-(E+G+S)算法取得了最好的结果.另一方面, 由于YTC数据集的复杂性, 使其更具有挑战性, 基于欧式空间方法在此数据集上表现较好, 融合类方法方法仍然优于其他类方法, 其中, DSRID-(E+G+S)取得了最好的结果.

Fig. 2 Examples of Honda, Mobo and YTC datasets 图 2 Honda, Mobo和YTC的数据集样例

Table 1 Results for set-based face recognition 表 1 基于集合的人脸识别结果

6.2 基于图像集的动作识别

基于图像集合的动作识别, 我们选用了UCF11数据库[37].该库涵盖了包含了投篮、骑车、跳水等11类动作, 具体样例如图 3所示.数据来源于真实视频, 因此涵盖了角度、光影、遮挡等变化.每一类含有25组数据, 每组含有4个以上的同类视频片段.在特征表示阶段, 我们利用了该库提供的标注信息, 截取出每个视频片段中每一帧的动作信息并缩放成20x20大小, 进而提取其方向梯度直方图(histogram of oriented gradient, 简称HOG)特征, 每个视频构成一个集合.测试方案与文献[37]相同, 从每类中各取一组作为测试集, 其余为训练集.25次的平均结果见表 2(最好的结果用加粗标出).可以看出, 基于SPD流形的方法要优于其他两类基于欧式空间和子空间的方法.DSRID在3种空间下的实现均优于相应空间下的其他算法, DSRID-(E+G+S)算法仍然取得了最好的性能, 这也验证了融合类方法的有效性.

Fig. 3 Examples of UCF11 dataset 图 3 UCF11数据集样例

Table 2 Results for set-based action recognition 表 2 基于集合的动作识别结果

6.3 基于图像集的物体识别

针对基于图像集的物体识别任务, 我们选用了两个公共数据集:ETH-80[38]和RGB-D[39].

●  ETH-80涵盖8类物体, 每个类别又分为10个子类, 每个子类包含41幅多角度的32x32大小的图像.这里, 使用LBP直方图作为输入特征.其中, 每个子类形成一个集合, 每个物体随机选取5个集合组成训练集, 剩下5个集合为测试集.

●  RGB-D包含51类物体, 每个而物体包含多角度的视频序列, 一个序列为一个集合.这里, 我们只使用了RGB信息而没有使用深度信息, 每帧大小为32x32, 使用灰度图像作为输入特征, 每个物体随机选取3个集合组成训练集, 剩余为测试集.

图 4给出了两个物体库的样例, 实验结果见表 3(最好的结果用加粗标出).

Fig. 4 Examples of ETH-80, RGB-D datasets 图 4 ETH-80, RGB-D数据集样例

Table 3 Results for set-based object categorization 表 3 基于集合的物体识别结果

可以看出, 基于SPD流形的方法明显要优于基于欧式距离和子空间的方法, 这也与文献[8]中的结论相一致.在这些方法中, 本文提出的DSRID-(E+G+S)取得了最高的准确率.

6.4 子结构数量对准确率的影响

DSRID中的一个重要参数是需要确定子结构的数量, 图 5给出了在Mobo数据库上, 子结构数量变化对DSRID的4种实现算法(DSRID-E, DSRID-G, DSRID-S和DSRID-(E+G+S))的准确率的影响.可以看出, 4种算法的变化趋势大致相同, 准确率随着子结构的数量增加先是增加, 然后逐渐下降.这表明了以子结构为基础进行图像集距离学习的有效性.集合内多子结构的特点, 使得较少数量的子结构设定无法反映集合真实的数据分布; 而子结构的过划分, 同样会破坏每个子结构的完整性.

Fig. 5 Effect of number of sub-structures to accuracy on Mobo dataset 图 5 Mobo数据集上子结构数量对准确率的影响

6.5 运行时间对比

本节分析不同算法的运行时间, 在表 4中, 我们列出了所有待比较的15种算法的训练时间和测试时间(s).所有算法均采用Matlab实现, 并且运行于4GHz的4核机器上.可以看出, 基于组合度量的方法(HERML, DARG, DSRID-(E+G+S))由于其需要融合多种度量方式, 因此相对耗时较长.DSRID在取得最好的分类准确率的基础上, 在基于欧式空间的方法中, DSRID-E的训练时间虽然高于AHISD, CHISD, SANP和RNP, 但测试时间用时最短.在基于子空间的方法中, DSRID-G用时多于DCC, 但少于MMD和MDA.在基于SPD流形的方法中, 由于DSRID-S考虑了多个子结构, 因此用时高于CDL与RSR.

Table 4 Comparison of algorithms on running time for Mobo dataset 表 4 Mobo数据集上各算法运行时间比较

7 结束语

本文提出了以集合内显著子结构为基础的图像集度量方法, 并把该方法扩展到欧式空间和流形空间上, 在以集合为基础的人脸识别、动作识别、物体分类任务中验证了其有效性.本文使用不同的度量方式, 如何更加有效地确定子结构数量以及如何结合这些不同空间上的表示, 成为下一阶段研究的重点.

参考文献
[1] Harandi M, Salzmann M, Baktashmotlagh M. Beyond Gauss:Image-Set matching on the Riemannian manifold of PDFs. In:Proc. of the Int'l Conf. on Computer Vision. Piscataway:IEEE, 2015. 4112-4120.[doi:10.1109/ICCV.2015.468]
[2] Hayat M, Bennamoun M, An S. Deep reconstruction models for image set classification. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2015, 37(4): 713–727 . [doi:10.1109/TPAMI.2014.2353635]
[3] Huang Z, Wang R, Shan S, Chen X. Hybrid Euclidean-and-Riemannian metric learning for image set classification. In:Proc. of the Asian Conf. on Computer Vision. Berlin:Springer-Verlag, 2014. 562-577.[doi:10.1007/978-3-319-16811-1_37]
[4] Harandi M, Hartley R, Shen C, Lovell B. Extrinsic methods for coding and dictionary learning on Grassmann manifolds. Int'l Journal of Computer Vision, 2015, 114(2-3): 113–136 . [doi:10.1007/s11263-015-0833-x]
[5] Yang M, Zhu P, Van Gool L, Zhang L. Face recognition based on regularized nearest points between image sets. In:Proc. of the IEEE Int'l Conf. and Workshops on Automatic Face and Gesture Recognition. Piscataway:IEEE, 2013. 1-7.[doi:10.1109/FG.2013.6553727]
[6] Cevikalp H, Triggs B. Face recognition based on image sets. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2010. 2567-2573.[doi:10.1109/CVPR.2010.5539965]
[7] Hu Y, Mian AS, Owens R. Face recognition using sparse approximated nearest points between image sets. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2012, 34(10): 1992–2004 . [doi:10.1109/TPAMI.2011.283]
[8] Wang R, Guo H, Davis LS, Dai Q. Covariance discriminative learning:A natural and efficient approach to image set classification. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2012. 2496-2503.[doi:10.1109/CVPR.2012.6247965]
[9] Wang R, Chen X. Manifold discriminant analysis. In:Proc. of the IEEE Conf. Computer Vision and Pattern Recognition. Piscataway:IEEE. 2009. 429-436.[doi:10.1109/CVPRW.2009.5206850]
[10] Wang R, Shan S, Chen X, Gao W. Manifold-Manifold distance with application to face recognition based on image set. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2008. 1-8.[doi:10.1109/CVPR.2008.4587719]
[11] Harandi MT, Sanderson C, Hartley R, Lovell BC. Sparse coding and dictionary learning for symmetric positive definite matrices:A kernel approach. In:Proc. of the European Conf. on Computer Vision. Berlin:Springer-Verlag, 2012. 216-229.[doi:10.1007/978-3-642-33709-3_16]
[12] Cherian A, Sra S. Riemannian sparse coding for positive definite matrices. In:Proc. of the European Conf. on Computer Vision. Berlin:Springer-Verlag, 2014. 299-314.[doi:10.1007/978-3-319-10578-9_20]
[13] Shakhnarovich G, Fisher JW, Darrell T. Face recognition from long-term observations. In:Proc. of the European Conf. on Computer Vision. Berlin:Springer-Verlag, 2002. 851-865.[doi:10.1007/3-540-47977-5_56]
[14] Arandjelovic O, Shakhnarovich G, Fisher J, Cipolla R, Darrell T. Face recognition with image sets using manifold density divergence. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2005. 581-588.[doi:10.1109/CVPR.2005.151]
[15] Kim TK, Kittler J, Cipolla R. Discriminative learning and recognition of image set classes using canonical correlations. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2007, 29(6): 1005–1018 . [doi:10.1109/TPAMI.2007.1037]
[16] Chen S, Sanderson C, Harandi MT, Lovell BC. Improved image set classification via joint sparse approximated nearest subspaces. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2012. 452-459.[doi:10.1109/CVPR.2013.65]
[17] Wang W, Wang R, Huang Z, Shan S, Chen X. Discriminant analysis on Riemannian manifold of Gaussian distributions for face recognition with image sets. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2015. 2048-2057.[doi:10.1109/CVPR.2015.7298816]
[18] Zhu P, Zuo W, Zhang L, Shiu SCK, Zhang D. Image set-based collaborative representation for face recognition. IEEE Trans. on Information Forensics and Security, 2014, 9(7): 1120–1132 . [doi:10.1109/TIFS.2014.2324277]
[19] Arsigny V, Fillard P, Pennec X, Ayache N. Geometric means in a novel vector space structure on symmetric positive-definite matrices. SIAM Journal on Matrix Analysis and Applications, 2007, 29(1): 328–347 . [doi:10.1137/050637996]
[20] Pennec X, Fillard P, Ayache N. A Riemannian framework for tensor computing. Int'l Journal of Computer Vision, 2006, 66(1): 41–66 . [doi:10.1007/s11263-005-3222-z]
[21] Harandi MT, Sanderson C, Shirazi S, Lovell BC. Graph embedding discriminant analysis on Grassmannian manifolds for improved image set matching. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2011. 2705-2712.[doi:10.1109/CVPR.2011.5995564]
[22] Huang Z, Wang R, Shan S, Chen X. Learning Euclidean-to-Riemannian metric for point-to-set classification. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2014. 1677-1684.[doi:10.1109/CVPR.2014.217]
[23] Zhu P, Zhang L, Zuo W, Zhang D. From point to set:Extend the learning of distance metrics. In:Proc. of the IEEE Int'l Conf. on Computer Vision. Piscataway:IEEE, 2013. 2664-2671.[doi:10.1109/ICCV.2013.331]
[24] Huang Z, Wang R, Shan S, Chen X. Projection metric learning on Grassmann manifold with application to video based face recognition. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2015. 140-149.[doi:10.1109/CVPR.2015.7298609]
[25] Lu J, Wang G, Deng W, Moulin P. Simultaneous feature and dictionary learning for image set based face recognition. In:Proc. of the European Conf. on Computer Vision. Berlin:Springer-Verlag, 2014. 65-280.[doi:10.1007/978-3-319-10590-1_18]
[26] Lu J, Wang G, Deng W, Moulin P, Zhou J. Multi-Manifold deep metric learning for image set classification. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2015. 1137-1145.[doi:10.1109/CVPR.2015.7298717]
[27] Ng AY, Jordan MI, Weiss Y. On spectral clustering:Analysis and an algorithm. In:Proc. of the Advances in Neural Information Processing Systems. Cambridge:MIT Press, 2002. 849-856.
[28] Boyd S, Parikh N, Chu E, Peleato B, Eckstein J. Distributed optimization and statistical learning via the alternating direction method of multipliers. Foundations and Trends® in Machine Learning, 2010, 3(1): 1–122 . [doi:10.1561/2200000016]
[29] Bach F, Jenatton R, Mairal J, Obozinski G. Structured sparsity through convex optimization. Statistical Science, 2012, 27(4): 450–468 . [doi:10.1214/12-STS394]
[30] Lin Z, Liu R, Su Z. Linearized alternating direction method with adaptive penalty for low-rank representation. In:Proc. of the Advances in Neural Information Processing Systems. Cambridge:MIT Press, 2011. 612-620.
[31] Elhamifar E, Vidal R. Sparse subspace clustering:Algorithm, theory, and applications. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2013, 35(11): 2765–2781 . [doi:10.1109/TPAMI.2013.57]
[32] Lee KC, Ho J, Yang MH, Kriegman D. Video-Based face recognition using probabilistic appearance manifolds. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2003. 313-320.[doi:10.1109/CVPR.2003.1211369]
[33] Gross R, Shi J. The CMU motion of body database. Technical Report, CMU-RI-TR-01-18, Pittsburgh:Robotics Institute, Carnegie Mellon University, 2001.[doi:10.1515/9781400843251-003]
[34] Wolf L, Hassner T, Maoz I. Face recognition in unconstrained videos with matched background similarity. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2011. 529-534.[doi:10.1109/CVPR.2011.5995566]
[35] Viola P, Jones MJ. Robust real-time face detection. Int'l Journal of Computer Vision, 2004, 57(2): 137–154 . [doi:10.1023/B:VISI.0000013087.49260.fb]
[36] Ojala T, Pietikäinen M, Mäenpää T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971–987 . [doi:10.1109/TPAMI.2002.1017623]
[37] Liu J, Luo J, Shah M. Recognizing realistic actions from videos in the wild. In:Proc. of the Conf. on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2009. 1996-2003.[doi:10.1109/CVPR.2009.5206744]
[38] Leibe B, Schiele B. Analyzing appearance and contour based methods for object categorization. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2003. 409-415.[doi:10.1109/CVPR.2003.1211497]
[39] Lai K, Bo L, Ren X, Fox D. A large-scale hierarchical multi-view RGB-D object dataset. In:Proc. of the Int'l Conf. on Robotics and Automation. Piscataway:IEEE, 2011. 1817-1824.[doi:10.1109/ICRA.2011.5980382]