软件学报  2017, Vol. 28 Issue (2): 292-309   PDF    
基于弱匹配概率典型相关性分析的图像自动标注
张博1, 郝杰4, 马刚2,3, 史忠植2     
1. 中国矿业大学 计算机科学与技术学院, 江苏 徐州 221116;
2. 中国科学院 计算技术研究所 智能信息处理重点实验室, 北京 100190;
3. 中国科学院大学, 北京 100049;
4. 徐州医科大学 医学信息学院, 江苏 徐州 221004
摘要: 针对弱匹配多模态数据的相关性建模问题,提出了一种弱匹配概率典型相关性分析模型(semi-paired probabilistic CCA,简称SemiPCCA).SemiPCCA模型关注于各模态内部的全局结构,模型参数的估计受到了未匹配样本的影响,而未匹配样本则揭示了各模态样本空间的全局结构.在人工弱匹配多模态数据集上的实验结果表明,SemiPCCA可以有效地解决传统CCA(canonical correlation analysis)和PCCA(probabilistic CCA)在匹配样本不足的情况下出现的过拟合问题,取得了较好的效果.提出了一种基于SemiPCCA的图像自动标注方法.该方法基于关联建模的思想,同时使用标注图像及其关键词和未标注图像学习视觉模态和文本模态之间的关联,从而能够更准确地对未知图像进行标注.
关键词: 典型相关性分析     概率典型相关性分析     弱匹配典型相关性分析     图像自动标注    
Automatic Image Annotation Based on Semi-Paired Probabilistic Canonical Correlation Analysis
ZHANG Bo1, HAO Jie4, MA Gang2,3, SHI Zhong-Zhi2     
1. School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China;
2. Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, The Chinese Academy of Sciences, Beijing 100190, China;
3. University of Chinese Academy of Sciences, Beijing 100049, China;
4. School of Medicine Information, Xuzhou Medical University, Xuzhou 221004, China
Foundation item: National Program on Key Basic Research Project of China (973) (2013CB329502); National Natural Science Foundation of China (61035003); National High-Tech R & D Program of China (863) (2012AA011003); National Key Technology R & D Program of China (2012BA107B02); Natural Science Foundation of Jiangsu Province (BK20160276)
Abstract: Canonical correlation analysis (CCA) is a statistical analysis tool for analyzing the correlation between two sets of random variables. CCA requires the data be rigorously paired or one-to-one correspondence among different views due to its correlation definition. However, such requirement is usually not satisfied in real-world applications due to various reasons. Often, only a few paired and a lot of unpaired multi-view data are given, because unpaired multi-view data are relatively easier to be collected and pairing them is difficult, time consuming and even expensive. Such data is referred as semi-paired multi-view data. When facing semi-paired multi-view data, CCA usually performs poorly. To tackle this problem, a semi-paired variant of CCA, named SemiPCCA, is proposed based on the probabilistic model for CCA. The actual meaning of "semi-" in SemiPCCA is "semi-paired" rather than "semi-supervised" as in popular semi-supervised learning literature. The estimation of SemiPCCA model parameters is affected by the unpaired multi-view data which reveal the global structure within each modality. By using artificially generated semi-paired multi-view data sets, the experiment shows that SemiPCCA effectively overcome the over-fitting problem of traditional CCA and PCCA (probabilistic CCA) under the condition of insufficient paired multi-view data and performs better than the original CCA and PCCA. In addition, an automatic image annotation method based on the SemiPCCA is presented. Through estimating the relevance between images and words by using the labelled and unlabeled images together, this method is shown to be more accurate than previous published methods.
Key words: canonical correlation analysis     probabilistic canonical correlation analysis     semi-paired canonical correlation analysis     automatic image annotation    

物联网、互联网等拥有丰富的文本、图像、视频和音频等多媒体信息资源, 这些信息资源是异构的, 很难直接发现它们之间的关联.目前, 典型相关性分析(canonical correlation analysis, 简称CCA)作为一种分析两组随机变量之间相关性的统计分析工具, 已被引入跨媒体的相关性建模中, 挖掘不同模态内容特征之间潜在的统计相关性[1, 2].通过特征子空间映射, 将各模态的数据从原始高维特征空间映射到低维特征空间, 既解决了不同类型数据间的异构性问题, 消除了多模态数据间的内容鸿沟, 最大程度地保持了初始的相关性不变, 将不同类型的多媒体数据在特征层面上关联起来, 同时也最大程度地保持初始的相关性不变.

典型相关性分析中两组相关的随机变量可以来自多种信息来源(如同一个人的声音和图像), 也可以是从同一来源的信息中抽取的不同特征(如图像的颜色特征和纹理特征), 但训练数据必须一对一严格匹配.很多原因造成这种严格匹配的训练数据难以获得, 如:(1)多传感器采集系统中传感器采样频率不同步或传感器故障, 会造成不同通道采集来的数据不同步或丢失某一通道数据; (2)单模态数据比较容易获得, 但人工匹配却非常费时、费力.实际中, 我们面对的多模态数据经常是只有少量一对一严格匹配, 其余大量数据未匹配.我们称其为弱匹配多模态数据.

面向弱匹配多模态数据的典型相关性分析有两种基本方法:(1)丢弃未匹配数据, 只使用典型相关性分析处理严格匹配的多模态数据; (2)根据特定准则, 匹配多模态数据.但这两种方法都不可能获得理想的结果.

本文的主要工作包括:(1)提出了一种全新的弱匹配概率典型相关性分析模型(semi-paired probabilistic CCA, 简称SemiPCCA).不同于以往的弱匹配典型相关性分析模型, SemiPCCA完全基于概率典型相关性分析模型(probabilistic CCA, 简称PCCA), 关注于各模态内部的全局结构, 模型参数的估计受到了未匹配样本的影响, 而未匹配样本则揭示了各领域样本空间的全局结构.(2)提出了一种基于SemiPCCA的图像自动标注方法.该方法同时使用标注图像及其关键词和未标注图像估计隐空间的分布, 学习视觉模态和文本模态之间的关联, 能够较好地对未知图像进行标注.

1 相关工作 1.1 典型相关性分析

传统的特征分析方法, 如PCA (principal component analysis), ICA (independent component analysis)和PLS (partial least squares), 大多用于单模态的特征分析, 实现主成分提取、去噪、维数约减和保持本征度量等目的, 不能同时分析不同类型的异构特征, 难以发现多种特征间的关联信息.典型相关性分析(canonical correlation analysis, CCA)是一种用来分析两组随机变量之间相关性的统计分析工具, 其相关性保持特征己经在理论上得到证明, 应用于经济学、气象和基因组数据分析等领域.CCA通过统计方法找到两组异构多模态特征之间的潜在关系, 从底层特征上用统一的模型将不同类型的多模态数据关联起来, 同时尽可能地发现和保持数据间潜在的相关性.

维度分别为pq的两组随机变量xy, 给定均值为0的成对观察样本集合$\left\{ ({{\boldsymbol{x}}_{i}},{{\boldsymbol{y}}_{i}}) \right\}_{i=\text{1}}^{n}\in {{R}^{p}}\times {{R}^{q}},$$\boldsymbol{\bar{x}}=\frac{\text{1}}{n}\underset{i=\text{1}}{\overset{n}{\mathop \sum }}\,{{\boldsymbol{x}}_{i}}=0,\boldsymbol{\bar{y}}=\frac{\text{1}}{n}\underset{i=\text{1}}{\overset{n}{\mathop \sum }}\,{{\boldsymbol{y}}_{i}}=0,$其中, $\left\{ {{\boldsymbol{x}}_{i}} \right\}_{i=1}^{n}$$\left\{ {{\boldsymbol{y}}_{i}} \right\}_{i=1}^{n}$是多种信息来源(如爆炸的声音和图像), 也可以是从同一来源的信息中抽取的不同特征(如图像的颜色特征和纹理特征).记$\boldsymbol{X}\in {{R}^{p\times n}},\boldsymbol{Y}\in {{R}^{q\times n}},$n表示样本数量.CCA的目标是寻找两组投影向量${{\boldsymbol{a}}_{x}}\in {{R}^{p}}$${{\boldsymbol{a}}_{y}}\in {{R}^{q}},$使线性组合$u=\boldsymbol{a}_{x}^{T}\boldsymbol{x}$$v=\boldsymbol{\alpha }_{y}^{T}\boldsymbol{y}$之间的相关系数达到最大, 即求解以下相关系数的最大值问题:

$ \rho =\underset{{{\boldsymbol{\alpha }}_{x}},{{\boldsymbol{\alpha }}_{y}}}{\mathop{\text{max}}}\,\frac{\boldsymbol{\alpha }_{x}^{T}{{\boldsymbol{C}}_{xy}}{{\boldsymbol{\alpha }}_{y}}}{\sqrt{\boldsymbol{\alpha }_{x}^{T}{{\boldsymbol{C}}_{xx}}{{\boldsymbol{\alpha }}_{x}}\boldsymbol{\alpha }_{y}^{T}{{\boldsymbol{C}}_{yy}}{{\boldsymbol{\alpha }}_{y}}}}, $

其中, Cxx=XXTRp×RpCyy=YYTRq×Rq表示集合内协方差矩阵(within-set covariance matrix); Cxy=XYTRp×Rq表示集合间协方差矩阵(between-set covariance matrix), 且Cyx=CxyT.

常将CCA问题等价地描述为以下特征值问题:

$ \left( \begin{matrix} {} & {{\boldsymbol{C}}_{xy}} \\ {{\boldsymbol{C}}_{yx}} & {} \\ \end{matrix} \right)\left( \begin{matrix} {{\boldsymbol{\alpha }}_{x}} \\ {{\boldsymbol{\alpha }}_{y}} \\ \end{matrix} \right)=\lambda \left( \begin{matrix} {{\boldsymbol{C}}_{xx}} & {} \\ {} & {{\boldsymbol{C}}_{yy}} \\ \end{matrix} \right)\left( \begin{matrix} {{\boldsymbol{\alpha }}_{x}} \\ {{\boldsymbol{\alpha }}_{y}} \\ \end{matrix} \right). $

CCA是一种线性数学模型, 这种线性模型不足以揭示真实世界中大量存在的非线性相关现象.当用这样的线性模型来学习非线性相关现象时, 将不可避免地出现欠拟合(underfitting)现象.解决这种问题目前主要有3种途径[3]:核方法、神经网络和局部化方法.将神经网络用于CCA计算是近年来非线性CCA的一个重要进展, 通过神经网络的非线性特征揭示数据之间存在的非线性相关关系.2013年, Andrew等人结合深度学习, 提出了Deep Canonical Correlation Analysis算法[4], 在处理非线性相关问题时获得了优于KCCA的整体相关度.

CCA对样本的类信息未予以充分利用.2008年, 孙廷凯等人引入样本的类信息, 并充分考虑了同类样本之间的相关与不同类样本之间的相关关系及其对分类的影响, 提出了一种新的有监督学习方法--判别型CCA (discriminative CCA, 简称DCCA)[5], 并运用核技巧, 将线性的DCCA推广到高维特征空间, 提出了核化的DCCA (kernelized DCCA, 简称KDCCA), 用来增强对线性不可分问题的分类能力.DCCA提取的特征能够实现同类样本特征之间相关最大化, 同时使得不同类样本特征之间相关最小化, 这将有利于模式的分类.2011年, Shin等人证明了DCCA(X, Y)等价于LDA(X, C)+LDA(Y, C), 并改进了DCCA算法, 使用K近邻计算类内散布矩阵[6].类似的方法还有:2011年Kursun等人提出了WCCA (within class coupling CCA)[7]; 孙权森等人提出的广义典型相关分析(generalized CCA, 简称GCCA)将最小化类内散布矩阵作为目标函数之一, 降低了特征的类内离散度, 提高了特征表示的鉴别能力.2012年, 周旭东等人提出了增强组合特征判别性的典型相关分析(CECCA)[8].CECCA是一种监督型降维方法, 在CCA基础上, 通过结合组合特征的判别分析, 实现对组合特征相关性与判别性的联合优化, 使所抽取特征更适合分类.

半监督学习是近年来机器学习领域的一个研究热点.在很多实际应用中, 获取大量的无标号样本已变得非常容易, 而获取有标号样本通常需要付出很大的代价.2008年, 彭岩等人在CCA的应用中加入了监督信息, 提出一种半监督典型相关分析(semi-CCA)算法[9].该方法中利用的监督信息为样本间的成对约束信息, 即已知两个样本属于同一类(称为正约束(must-link))或者不属于同一类(称为负约束(cannot-link)).在许多实际应用中, 成对约束信息比类标号更容易获得, 也更加实际.另外, 样本之间的成对约束可以从类别标号中直接获得, 反之则不可以.与Semi-CCA算法类似, 2010年Hou等人提出了MVSSDR算法.2010年, Kursun等人提出了Semi-supervised CCA (SCCA)[10].2012年, Chen等人提出了统一的半匹配半监督多视图数据降维框架S2GCA (semi-paired and semi-supervised generalized correlation analysis)[11].

1.2 概率典型相关性分析

2005年, Bach等人给出了CCA的概率解释[12], 并提出了概率典型相关性分析(probabilistic CCA, 简称PCCA).PCCA是一种线性高斯模型(linear Gaussian model), 可以看作是因子分析(factor analysis, 简称FA)的一个特例, 图模型如图 1所示.

Fig. 1 Graphical model for PCCA 图 1 概率典型相关性分析图模型

${{\boldsymbol{X}}_{\text{1}}}=\left\{ {{\boldsymbol{x}}_{\text{1}n}} \right\}_{n=\text{1}}^{N\text{ }\!\!~\!\!\text{ }}\in {{R}^{{{m}_{\text{1}}}\times N}}$表示m1维随机变量x1的观察样本集合, ${{\boldsymbol{X}}_{\text{2}}}=\left\{ {{\boldsymbol{x}}_{\text{2}n}} \right\}_{n=\text{1}}^{N\text{ }\!\!~\!\!\text{ }}\in {{R}^{{{m}_{\text{2}}}\times N}}$表示m2维随机变量x2的观察样本集合, N表示样本数量, z表示与随机变量x1, x2相关的d维隐藏变量, z的每个元素均服从独立标准正态分布.类似于因子分析, 可以定义以下线性高斯模型(linear Gaussian model), 即随机变量x1, x2可以由d维隐藏变量z经过线性变换并附加一个高斯噪声生成.

$\left\{ \begin{align} & \boldsymbol{z}\tilde{\ }N(0,{{\boldsymbol{I}}_{d}}),\text{ }\min ({{m}_{\text{1}}},{{m}_{\text{2}}})\ge d\ge \text{1} \\ & {{\boldsymbol{x}}_{\text{1}}}={{\boldsymbol{W}}_{\text{1}}}\boldsymbol{z}+{{\boldsymbol{\mu }}_{\text{1}}}+{{\boldsymbol{\varepsilon }}_{\text{1}}},\text{ }{{\boldsymbol{W}}_{\text{1}}}\in {{R}^{{{m}_{\text{1}}}\times d}},\text{ }{{\boldsymbol{\varepsilon }}_{\text{1}}}\tilde{\ }N(0,{{\boldsymbol{\psi }}_{\text{1}}}) \\ & {{\boldsymbol{x}}_{\text{2}}}={{\boldsymbol{W}}_{\text{2}}}\boldsymbol{z}+{{\boldsymbol{\mu }}_{\text{2}}}+{{\boldsymbol{\varepsilon }}_{\text{2}}},\text{ }{{\boldsymbol{W}}_{\text{2}}}\in {{R}^{{{m}_{\text{2}}}\times d}},\text{ }{{\boldsymbol{\varepsilon }}_{\text{2}}}\tilde{\ }N(0,{{\boldsymbol{\psi }}_{\text{2}}}) \\ \end{align} \right.$ (1)

其中, W1W2表示线性变换矩阵, ε1ε2表示高斯噪声.

Bach等人证明了存在使其似然函数最大化的参数W1, W2, μ1, μ2, ψ1, ψ2解析解, 即[12]

$\begin{gathered} {{\mathit{\boldsymbol{\hat \mu }}}_1} = {{\mathit{\boldsymbol{\tilde \mu }}}_1},{\rm{ }}{{\mathit{\boldsymbol{\hat W}}}_1} = {{\mathit{\boldsymbol{ \boldsymbol{\tilde \varSigma} }}}_{11}}{\mathit{\boldsymbol{U}}_{1d}}{\mathit{\boldsymbol{M}}_1},{\rm{ }}{{\mathit{\boldsymbol{\hat \psi }}}_1} = {{\mathit{\boldsymbol{ \boldsymbol{\tilde \varSigma} }}}_{11}} - {{\mathit{\boldsymbol{\hat W}}}_1}{{\mathit{\boldsymbol{\hat W}}}_1}^T, \hfill \\ {\rm{ }}{{\mathit{\boldsymbol{\hat \mu }}}_2} = {{\mathit{\boldsymbol{\tilde \mu }}}_2},{\rm{ }}{{\mathit{\boldsymbol{\hat W}}}_2} = {{\mathit{\boldsymbol{ \boldsymbol{\tilde \varSigma} }}}_{22}}{\mathit{\boldsymbol{U}}_{2d}}{\mathit{\boldsymbol{M}}_2},{\rm{ }}{{\mathit{\boldsymbol{\hat \psi }}}_2} = {{\mathit{\boldsymbol{ \boldsymbol{\tilde \varSigma} }}}_{22}} - {{\mathit{\boldsymbol{\hat W}}}_2}{{\mathit{\boldsymbol{\hat W}}}_2}^T \hfill \\ \end{gathered} $ (2)

其中, $\text{ }\!\!~\!\!\text{ }{{\boldsymbol{\tilde{\Sigma }}}_{\text{11}}},{{\boldsymbol{\tilde{\Sigma }}}_{\text{22}}},{{\boldsymbol{\tilde{\mu }}}_{\text{1}}}$${{\boldsymbol{\tilde{\mu }}}_{\text{2}}}$分别表示随机变量x1x2观察样本集合的协方差和均值, ${{\boldsymbol{U}}_{\text{1}d}}\in {{R}^{{{m}_{\text{1}}}\times d}},{{\boldsymbol{U}}_{\text{2}d}}\in {{R}^{{{m}_{\text{2}}}\times d}}$为观察样本集合的d组典型相关特征向量, Pd为相应特征值λ1, λ2, …, λd组成的对角矩阵, M1, M2为任意d×d矩阵, 且M1M2T=Pd.U1d, U2dPd对应传统CCA方法的结果.

降维是CCA的一种主要应用.PCCA给出了随机变量x1x2从数据空间降维到隐空间的概率解释, 即后验概率$P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }{{\boldsymbol{x}}_{\text{1}}} \right)\tilde{\ }N\left( {{\boldsymbol{M}}_{\text{1}}}^{T}{{\boldsymbol{U}}_{\text{1}d}}^{T}\left( {{\boldsymbol{x}}_{\text{1}}}-{{{\boldsymbol{\hat{\mu }}}}_{\text{1}}} \right),\boldsymbol{I}-{{\boldsymbol{M}}_{\text{1}}}{{\boldsymbol{M}}_{\text{1}}}^{T} \right)$$P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }{{\boldsymbol{x}}_{\text{2}}} \right)\tilde{\ }N\left( {{\boldsymbol{M}}_{\text{2}}}^{T}{{\boldsymbol{U}}_{\text{2}d}}^{T}\left( {{\boldsymbol{x}}_{\text{2}}}-{{{\boldsymbol{\hat{\mu }}}}_{\text{2}}} \right),\boldsymbol{I}-{{\boldsymbol{M}}_{\text{2}}}{{\boldsymbol{M}}_{\text{2}}}^{T} \right).$

为了便于降维后数据的可视化, 使用$E\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }{{\boldsymbol{x}}_{\text{1}}} \right)$, $E\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }{{\boldsymbol{x}}_{\text{2}}} \right)$代替$P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }{{\boldsymbol{x}}_{\text{1}}} \right)$, $P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }{{\boldsymbol{x}}_{\text{2}}} \right)$表示随机变量x1x2从数据空间降维到隐空间后的结果, 如图 2所示.$E\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }{{\boldsymbol{x}}_{\text{1}}} \right)$$E\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }{{\boldsymbol{x}}_{\text{2}}} \right)$分别构成了样本数据空间到PCCA隐空间的典型投影, 结果和CCA完全一致.

Fig. 2 Projection ofx1 and x2onto the mean of the posterior distribution of z in latent space of PCCA 图 2 x1x2投影到PCCA隐空间中z的后验概率期望

2006年, Leen等人应用非线性高斯过程给出了非线性典型相关性分析的概率模型[13].从概率密度估计的角度推导CCA会得到许多重要的优点, 其中最为显著的优点是可以混合多个局部PCCA概率模型.2015年, 张博等人在PCCA的基础上, 使用概率混合模型框架提出了混合概率典型相关性分析模型(mixture of probabilistic CCA, 简称MixPCCA)以及估计模型参数的2阶段期望最大化(expectation maximization, 简称EM)算法, 并给出了使用聚类融合确定局部线性模型数量的方法和MixPCCA模型应用于模式识别的理论框架[14].由于概率混合模型使用多个独立的概率分布, 它可以描述一个复杂的数据分布, 无论数据分布的结构如何复杂, 总可以通过增加成分的方式来描述数据分布的局部特性

2007年, Klami等人提出了Bayesian CCA (BCCA)[15].同年, Wang也将变分贝叶斯方法应用于概率典型相关性分析, 该方法不仅实现了模型参数的估计, 同时也实现了子空间维度的自动选择[16].2010年, Viinikanoja等人实现了典型相关性分析的混合变分贝叶斯概率模型[17].然而, 与因子分析和主成分分析的概率模型相比, PCCA中高斯噪声的完全方差ψ1, ψ2使得BCCA及其扩展模型难以有效地处理高维度小样本数据, 所以早期的BCCA仅仅用于10维以内的样本数据.Archambeau等人[18]以及Klami等人[19]分别于2009年和2010年通过引入额外的隐藏变量z1, z2来解决BCCA面临的高维样本建模问题, 其中, 随机变量x1, x2由隐藏变量z, z1, z2经过线性变换并附加一个高斯噪声生成.

$ \begin{matrix} \boldsymbol{z}\tilde{\ }N\left( \text{0},{{\boldsymbol{I}}_{d}} \right),\text{ }{{\boldsymbol{z}}_{1}}\tilde{\ }N\left( \text{0},{{\boldsymbol{I}}_{{{d}_{\text{ 1}}}}} \right),\text{ }{{\boldsymbol{z}}_{2}}\tilde{\ }N\left( \text{0},{{\boldsymbol{I}}_{{{d}_{2}}}} \right), \\ {{\boldsymbol{x}}_{\text{1}}}=N\left( {{\boldsymbol{W}}_{\text{1}}}\boldsymbol{z}+{{\boldsymbol{V}}_{\text{1}}}{{\boldsymbol{z}}_{1}},\sigma _{1}^{2}\boldsymbol{I} \right),\text{ }{{\boldsymbol{W}}_{\text{1}}}\in {{R}^{{{m}_{\text{1}}}\times d}},\text{ }{{\boldsymbol{V}}_{\text{1}}}\in {{R}^{{{m}_{\text{1}}}\times {{d}_{\text{1}}}}}, \\ {{\boldsymbol{x}}_{\text{2}}}=N\left( {{\boldsymbol{W}}_{\text{2}}}\boldsymbol{z}+{{\boldsymbol{V}}_{\text{2}}}{{\boldsymbol{z}}_{2}},\sigma _{2}^{2}\boldsymbol{I} \right),\text{ }{{\boldsymbol{W}}_{2}}\in {{R}^{{{m}_{2}}\times d}},\text{ }{{\boldsymbol{V}}_{2}}\in {{R}^{{{m}_{2}}\times {{d}_{2}}}}. \\ \end{matrix} $

隐藏变量z, z1, z2分别实现了随机变量之间相关的共性和随机变量自身特性的建模.但该方法在解决高维方差问题的同时也带来了新的计算问题, 如, 需要根据先验推理d, d1, d2.2011年, Virtanen等人[20]将组稀疏(group sparsity)假设引入BCCA的ARD (automatic relevance determination)先验, 只需指定dc=d+d1+d2的最大值即可实现d, d1, d2的自动选择, 2015年, Virtanen等人在前期工作[20, 21]的基础上, 进一步将组稀疏假设引入因子分析, 提出了组因子分析(group factor analysis, 简称GFA).

1.3 弱匹配典型相关性分析

定义1.弱匹配多模态数据:设$\boldsymbol{X}=\left\{ {{\boldsymbol{x}}_{n}} \right\}_{n=1}^{{{N}_{1}}\text{ }\!\!~\!\!\text{ }}\in {{R}^{{{m}_{1}}\times {{N}_{1}}}}$表示m1维随机变量x的观察样本集合, $\boldsymbol{Y}=\left\{ {{\boldsymbol{y}}_{n}} \right\}_{n=1}^{{{N}_{2}}\text{ }\!\!~\!\!\text{ }}\in {{R}^{{{m}_{2}}\times {{N}_{2}}}}$表示m2维随机变量y的观察样本集合, N1N2表示样本数量, 其中, $\left\{ \left( {{\boldsymbol{x}}_{n}},{{\boldsymbol{y}}_{n}} \right) \right\}_{n=1}^{{{N}_{p}}}$Np对匹配样本, 其余样本是否匹配未知.对于随机变量x, $\boldsymbol{\tilde{X}}=\left[ {{\boldsymbol{x}}_{1}},\ldots ,{{\boldsymbol{x}}_{{{N}_{p}}}} \right]\in {{R}^{{{m}_{1}}\times {{N}_{p}}}}$表示匹配样本集合.类似地可以定义$\boldsymbol{\tilde{Y}}.$

针对弱匹配跨媒体数据问题, Blaschko等人使用流形正则化技术改进核典型相关性分析(kernel canonical correlation analysis, 简称KCCA)方法, 提出了SemiLRKCCA算法[22], 构造了以下优化问题:

$ \underset{\boldsymbol{a},\boldsymbol{\beta }}{\mathop{\text{max}}}\,\frac{{{\boldsymbol{\alpha }}^{T}}{{\boldsymbol{K}}_{\boldsymbol{X\tilde{X}}}}{{\boldsymbol{K}}_{\boldsymbol{\tilde{Y}Y}}}\boldsymbol{\beta }}{\sqrt{{{\boldsymbol{\alpha }}^{T}}\left( {{\boldsymbol{K}}_{\boldsymbol{X\tilde{X}}}}{{\boldsymbol{K}}_{\boldsymbol{\tilde{X}X}}}+{{\boldsymbol{R}}_{\boldsymbol{X}}} \right)\boldsymbol{\alpha }\cdot {{\boldsymbol{\beta }}^{T}}\left( {{\boldsymbol{K}}_{\boldsymbol{Y\tilde{Y}}}}{{\boldsymbol{K}}_{\boldsymbol{\tilde{Y}Y}}}+{{\boldsymbol{R}}_{\boldsymbol{Y}}} \right)\boldsymbol{\beta }}}, $

其中, ${{\boldsymbol{R}}_{\boldsymbol{X}}}={{\varepsilon }_{\boldsymbol{X}}}{{\boldsymbol{K}}_{\boldsymbol{XX}}}+\frac{{{\gamma }_{\boldsymbol{X}}}}{{{N}_{1}}^{2}}{{\boldsymbol{K}}_{\boldsymbol{XX}}}{{\boldsymbol{L}}_{\boldsymbol{X}}}{{\boldsymbol{K}}_{\boldsymbol{XX}}},{{\boldsymbol{L}}_{\boldsymbol{X}}}={{\boldsymbol{D}}_{\boldsymbol{X}}}-{{\boldsymbol{W}}_{\boldsymbol{X}}}$为Laplacian矩阵[23], 该矩阵使用集合X中的全部N1个样本构造, $\text{ }\!\!~\!\!\text{ }{{\boldsymbol{W}}_{{{\boldsymbol{X}}_{ij}}}}$表示xixj之间边的权重, ${{\boldsymbol{D}}_{{{\boldsymbol{X}}_{ii}}}}=\underset{i=1}{\overset{{{N}_{1}}}{\mathop \sum }}\,{{\boldsymbol{W}}_{{{\boldsymbol{X}}_{ij}}}},$核矩阵${{\boldsymbol{K}}_{\boldsymbol{XX}}}={{\phi }_{\boldsymbol{X}}}{{\left( \boldsymbol{X} \right)}^{T}}{{\phi }_{\boldsymbol{X}}}\left( \boldsymbol{X} \right),{{\boldsymbol{K}}_{\boldsymbol{X\tilde{X}}}}={{\phi }_{\boldsymbol{X}}}{{\left( \boldsymbol{X} \right)}^{T}}{{\phi }_{\boldsymbol{X}}}\left( {\boldsymbol{\tilde{X}}} \right),{{\boldsymbol{K}}_{\boldsymbol{\tilde{X}X}}}=$ ${{\phi }_{\boldsymbol{X}}}{{\left( {\boldsymbol{\tilde{X}}} \right)}^{T}}{{\phi }_{\boldsymbol{X}}}\left( \boldsymbol{X} \right),{{\boldsymbol{K}}_{\boldsymbol{\tilde{X}\tilde{X}}}}={{\phi }_{\boldsymbol{X}}}{{\left( {\boldsymbol{\tilde{X}}} \right)}^{T}}{{\phi }_{\boldsymbol{X}}}\left( {\boldsymbol{\tilde{X}}} \right).$

SemiLRKCCA参数过多, 计算过程复杂.根据以下等式:

$ \begin{gathered} {\mathit{\boldsymbol{\alpha }}^\mathit{T}}{\mathit{\boldsymbol{K}}_{\mathit{X\tilde X}}}{\mathit{\boldsymbol{K}}_{\mathit{\tilde YY}}}\mathit{\boldsymbol{\beta }}\mathit{ = }{\mathit{\boldsymbol{\alpha }}^\mathit{T}}{\mathit{\boldsymbol{X}}^\mathit{T}}\mathit{\boldsymbol{\tilde X}}{{\mathit{\boldsymbol{\tilde Y}}}^\mathit{T}}\mathit{\boldsymbol{Y\beta }}\mathit{ = }\mathit{\boldsymbol{w}}_\mathit{x}^\mathit{T}\mathit{\boldsymbol{\tilde X}}{{\mathit{\boldsymbol{\tilde Y}}}^\mathit{T}}{\mathit{\boldsymbol{w}}_\mathit{y}}\mathit{, } \hfill \\ {\mathit{\boldsymbol{\alpha }}^\mathit{T}}{\mathit{\boldsymbol{K}}_{\mathit{X\tilde X}}}{\mathit{\boldsymbol{K}}_{\mathit{\tilde XX}}}\mathit{\boldsymbol{\alpha }}\mathit{ = }{\mathit{\boldsymbol{\alpha }}^\mathit{T}}{\mathit{\boldsymbol{X}}^\mathit{T}}\mathit{\boldsymbol{\tilde X}}{{\mathit{\boldsymbol{\tilde X}}}^\mathit{T}}\mathit{\boldsymbol{X\alpha }}\mathit{ = }\mathit{\boldsymbol{w}}_\mathit{x}^\mathit{T}\mathit{\boldsymbol{\tilde X}}{{\mathit{\boldsymbol{\tilde X}}}^\mathit{T}}{\mathit{\boldsymbol{w}}_\mathit{x}}, \hfill \\ \end{gathered} $

我们可以得到SemiLRKCCA的线性版, 并重命名为SemiLRCCA.SemiLRCCA的优化问题如下:

$ \underset{{{\boldsymbol{w}}_{\boldsymbol{x}}},{{\boldsymbol{w}}_{\boldsymbol{y}}}}{\mathop{\max }}\,\boldsymbol{w}_{\boldsymbol{x}}^{T}\boldsymbol{\tilde{X}}{{\boldsymbol{\tilde{Y}}}^{T}}{{\boldsymbol{w}}_{\boldsymbol{y}}}, $

s.t. $\boldsymbol{w}_{\boldsymbol{x}}^{T}\left( \boldsymbol{\tilde{X}}{{{\boldsymbol{\tilde{X}}}}^{T}}\boldsymbol{+}{{\varepsilon }_{\boldsymbol{X}}}\boldsymbol{I+}\frac{{{\gamma }_{\boldsymbol{X}}}}{{{N}_{1}}^{\text{2}}}\boldsymbol{X}{{\boldsymbol{L}}_{\boldsymbol{X}}}{{\boldsymbol{X}}^{T}} \right){{\boldsymbol{w}}_{\boldsymbol{x}}}=1,\text{ }\boldsymbol{w}_{\boldsymbol{y}}^{T}\left( \boldsymbol{\tilde{Y}}{{{\boldsymbol{\tilde{Y}}}}^{T}}\boldsymbol{+}{{\varepsilon }_{\boldsymbol{Y}}}\boldsymbol{I+}\frac{{{\gamma }_{\boldsymbol{Y}}}}{{{N}_{2}}^{\text{2}}}\boldsymbol{Y}{{\boldsymbol{L}}_{\boldsymbol{Y}}}{{\boldsymbol{Y}}^{T}} \right){{\boldsymbol{w}}_{\boldsymbol{y}}}\boldsymbol{=}\text{1}\text{.}$

为了解决由于一对一匹配数据过少而造成的CCA过拟合问题, 2010年, Kimura等人提出了SemiCCA算法[24], 给出了以下特征值问题:

$\begin{align} & \left( \begin{matrix} \left( \text{1}-\mu \right)\mathbf{X}{{\mathbf{X}}^{T}} & \mu \mathbf{\tilde{X}}{{{\mathbf{\tilde{Y}}}}^{T}} \\ \mu \mathbf{\tilde{Y}}{{{\mathbf{\tilde{X}}}}^{T}} & \left( \text{1}-\mu \right)\mathbf{Y}{{\mathbf{Y}}^{T}} \\ \end{matrix} \right)\left( \begin{matrix} {{\mathbf{W}}_{\mathbf{x}}} \\ {{\mathbf{W}}_{\mathbf{y}}} \\ \end{matrix} \right)\mathbf{=} \\ & \lambda \left( \begin{matrix} \mu \mathbf{\tilde{X}}{{{\mathbf{\tilde{X}}}}^{T}}\text{+}\left( \text{1}-\mu \right){{\mathbf{I}}_{p}} & {} \\ {} & \mu \mathbf{\tilde{Y}}{{{\mathbf{\tilde{Y}}}}^{T}}\text{+}\left( \text{1}-\mu \right){{\mathbf{I}}_{q}} \\ \end{matrix} \right)\left( \begin{matrix} {{\mathbf{W}}_{\mathbf{x}}} \\ {{\mathbf{W}}_{\mathbf{y}}} \\ \end{matrix} \right), \\ \end{align} $

其优化问题如下:

$ \underset{{{\boldsymbol{w}}_{\boldsymbol{x}}},{{\boldsymbol{w}}_{\boldsymbol{y}}}}{\mathop{\max }}\,\text{2}\mu \boldsymbol{w}_{\boldsymbol{x}}^{T}\boldsymbol{\tilde{X}}{{\boldsymbol{\tilde{Y}}}^{T}}{{\boldsymbol{w}}_{\boldsymbol{y}}}+\left( 1-\mu \right)\left( \boldsymbol{w}_{\boldsymbol{x}}^{T}\boldsymbol{X}{{\boldsymbol{X}}^{T}}{{\boldsymbol{w}}_{\boldsymbol{x}}}+\boldsymbol{w}_{\boldsymbol{y}}^{T}\boldsymbol{Y}{{\boldsymbol{Y}}^{T}}{{\boldsymbol{w}}_{\boldsymbol{y}}} \right), $

s.t. $\mu (\boldsymbol{w}_{\boldsymbol{x}}^{T}\boldsymbol{\tilde{X}}{{\boldsymbol{\tilde{X}}}^{T}}{{\boldsymbol{w}}_{\boldsymbol{x}}}\text{+}\boldsymbol{w}_{\boldsymbol{y}}^{T}\boldsymbol{\tilde{Y}}{{\boldsymbol{\tilde{Y}}}^{T}}{{\boldsymbol{w}}_{\boldsymbol{y}}})+\left( 1-\mu \right)\left( \boldsymbol{w}_{\boldsymbol{x}}^{T}{{\boldsymbol{w}}_{\boldsymbol{x}}}+\boldsymbol{w}_{\boldsymbol{y}}^{T}{{\boldsymbol{w}}_{\boldsymbol{y}}} \right)=1.$

显然, SemiCCA算法融合了CCA和PCA, 并通过参数μ调整两种方法的权重.CCA用于匹配样本集合$\boldsymbol{\tilde{X}}$$\boldsymbol{\tilde{Y}}$, 保证了沿wxwy方向投影后的匹配样本间相关性最大化, 同时将PCA用于全部样本XY, 学习样本XY的全局结构信息, 修正CCA的投影方向.

2011年, Gu等人针对无线传感器网定位问题中由传感器位置和信号强度构成的弱匹配跨媒体数据, 提出了PPLCA (partially paired locality correlation analysis)算法[25].PPLCA算法分别定义随机变量xy的匹配样本与全部样本的相似性矩阵, ${{\boldsymbol{S}}^{\boldsymbol{X}}}=\left\{ \boldsymbol{S}_{ij}^{\boldsymbol{X}} \right\}_{i,j=1}^{{{N}_{p}},{{N}_{1}}}$${{\boldsymbol{S}}^{\boldsymbol{Y}}}=\left\{ \boldsymbol{S}_{ij}^{\boldsymbol{Y}} \right\}_{i,j=1}^{{{N}_{p}},{{N}_{2}}}.$如果xixj邻接, 则$\boldsymbol{S}_{ij}^{\boldsymbol{X}}=\text{exp}\frac{-{{\left\| {{\boldsymbol{x}}_{i}}-{{\boldsymbol{x}}_{j}} \right\|}^{2}}}{\mathop{\sum }_{i=1}^{{{N}_{p}}}\mathop{\sum }_{j=1}^{{{N}_{1}}}{{\left\| {{\boldsymbol{x}}_{i}}-{{\boldsymbol{x}}_{j}} \right\|}^{2}}/{{N}_{p}}\left( {{N}_{1}}-1 \right)},$否则$\boldsymbol{S}_{ij}^{\boldsymbol{X}}=0.$

PPLCA算法使用近邻样本间的加权平均值$\left( \underset{j=1}{\overset{{{N}_{1}}}{\mathop \sum }}\,\boldsymbol{S}_{ij}^{\boldsymbol{X}}{{\boldsymbol{x}}_{j}},\underset{j=1}{\overset{{{N}_{2}}}{\mathop \sum }}\,\boldsymbol{S}_{ij}^{\boldsymbol{Y}}{{\boldsymbol{y}}_{j}} \right)$代替CCA算法中的样本均值$\left( \boldsymbol{\bar{x}},\boldsymbol{\bar{y}} \right)$获得以下优化问题:

$ \underset{{{\boldsymbol{w}}_{\boldsymbol{x}}},{{\boldsymbol{w}}_{\boldsymbol{y}}}}{\mathop{\max }}\,\boldsymbol{w}_{\boldsymbol{x}}^{T}\underset{i=1}{\overset{{{N}_{p}}}{\mathop \sum }}\,\left( {{\boldsymbol{x}}_{i}}-\underset{j=1}{\overset{{{N}_{1}}}{\mathop \sum }}\,\boldsymbol{S}_{ij}^{\boldsymbol{X}}{{\boldsymbol{x}}_{j}} \right){{\left( {{\boldsymbol{y}}_{i}}-\underset{j=1}{\overset{{{N}_{2}}}{\mathop \sum }}\,\boldsymbol{S}_{ij}^{\boldsymbol{Y}}{{\boldsymbol{y}}_{j}} \right)}^{T}}{{\boldsymbol{w}}_{\boldsymbol{y}}}, $

s.t. $\boldsymbol{w}_{\boldsymbol{x}}^{T}\underset{\text{i}=1}{\overset{{{N}_{p}}}{\mathop \sum }}\,\left( {{\boldsymbol{x}}_{i}}-\underset{j=1}{\overset{{{N}_{1}}}{\mathop \sum }}\,\boldsymbol{S}_{ij}^{\boldsymbol{X}}{{\boldsymbol{x}}_{j}} \right){{\left( {{\boldsymbol{x}}_{i}}-\underset{j=1}{\overset{{{N}_{1}}}{\mathop \sum }}\,\boldsymbol{S}_{ij}^{\boldsymbol{X}}{{\boldsymbol{x}}_{j}} \right)}^{T}}{{\boldsymbol{w}}_{\boldsymbol{x}}}=1, \\ \text{ }\boldsymbol{w}_{\boldsymbol{y}}^{T}\underset{\text{i}=1}{\overset{{{N}_{p}}}{\mathop \sum }}\,\left( {{\boldsymbol{y}}_{i}}-\underset{j=1}{\overset{{{N}_{2}}}{\mathop \sum }}\,\boldsymbol{S}_{ij}^{\boldsymbol{Y}}{{\boldsymbol{y}}_{j}} \right){{\left( {{\boldsymbol{y}}_{i}}-\underset{j=1}{\overset{{{N}_{2}}}{\mathop \sum }}\,\boldsymbol{S}_{ij}^{\boldsymbol{Y}}{{\boldsymbol{y}}_{j}} \right)}^{T}}{{\boldsymbol{w}}_{\boldsymbol{y}}}=1.$

与PPLCA算法使用近邻样本间相似性的思路类似, 2013年周旭东等人提出了近邻相关性分析算法(neighborhood correlation analysis, 简称NeCA)[26].

SemiCCA算法关注于各模态内部的全局结构, 而SemiLRKCCA算法与PPLCA算法均强调各模态内部的局部结构.与SemiLRKCCA算法相比, PPLCA算法在目标函数和约束条件中都嵌入了样本的局部结构信息.SemiLRKCCA算法和SemiCCA算法中的Semi不代表Semi-supervised, 而是指Semi-paired.

2 弱匹配概率典型相关性分析模型

给定数量为Np的成对观察样本集合$\boldsymbol{X}_{\text{1}}^{\left( P \right)}=\left\{ \left( \boldsymbol{x}_{1}^{i} \right) \right\}_{i=1}^{{{N}_{p}}}$$\boldsymbol{X}_{2}^{\left( P \right)}=\left\{ \left( \boldsymbol{x}_{2}^{i} \right) \right\}_{i=1}^{{{N}_{p}}},$其中, 每一个样本$\boldsymbol{x}_{1}^{i}$($\boldsymbol{x}_{2}^{i}$)代表一个m1(m2)维向量.在成对样本数量很小的情况下, CCA建立的相关性模型容易出现过拟合问题.下面, 我们给出未匹配样本集合$\boldsymbol{X}_{1}^{\left( U \right)}=\left\{ \left( \boldsymbol{x}_{1}^{j} \right) \right\}_{j={{N}_{p}}+1}^{{{N}_{1}}}$与/或$\boldsymbol{X}_{2}^{\left( U \right)}=\text{ }\!\!~\!\!\text{ }\left\{ \left( \boldsymbol{x}_{2}^{k} \right) \right\}_{k={{N}_{p}}+1}^{{{N}_{2}}},$其中, $\boldsymbol{X}_{1}^{\left( U \right)}$$\boldsymbol{X}_{2}^{\left( U \right)}$相互独立生成.

为了解决传统CCA和PCCA模型无法直接处理未匹配样本的弊端, 本文提出一种弱匹配概率典型相关性分析模型(semi-paired PCCA, 简称SemiPCCA).SemiPCCA充分利用未匹配样本解决过拟合问题.图 3给出了SemiPCCA的图模型.

Fig. 3 Graphical model for SemiPCCA 图 3 SemiPCCA的图模型

$\boldsymbol{D}=\left\{ \left( \boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i} \right) \right\}_{i=1}^{{{N}_{p}}}\bigcup \left\{ \left( \boldsymbol{x}_{1}^{j} \right) \right\}_{j={{N}_{p}}+1}^{{{N}_{1}}}\bigcup \left\{ \left( \boldsymbol{x}_{2}^{k} \right) \right\}_{k={{N}_{p}}+1}^{{{N}_{2}}}$表示完整的观察样本集合, 包含了匹配和未匹配样本.假设样

本之间相互独立, 其极大似然值如下:

$ L\left( \theta \right)=\underset{i=1}{\overset{{{N}_{p}}}{\mathop \prod }}\,P\left( \boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i};\theta \right)\underset{j={{N}_{p}}+1}{\overset{{{N}_{1}}}{\mathop \prod }}\,P\left( \boldsymbol{x}_{1}^{j};\theta \right)\underset{k={{N}_{p}}+1}{\overset{{{N}_{2}}}{\mathop \prod }}\,P\left( \boldsymbol{x}_{2}^{k};\theta \right). $

在SemiPCCA模型中, 对于成对样本$\left\{ \left( \boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i} \right) \right\}_{i=1}^{{{N}_{p}}},$$\boldsymbol{x}_{1}^{i}$$\boldsymbol{x}_{2}^{i}$由相同的隐变量${{\boldsymbol{z}}^{i}}$生成, 且$P\left( \boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i};\theta \right)$服从概率典型相关性分析(PCCA)模型, 即

$ P\left( \boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i};\theta \right)\tilde{\ }N\left( \left( \begin{matrix} {{\mu }_{1}} \\ {{\mu }_{2}} \\ \end{matrix} \right),\left( \begin{matrix} {{\boldsymbol{W}}_{1}}{{\boldsymbol{W}}_{1}}^{T}+{{\boldsymbol{\psi }}_{1}} & {{\boldsymbol{W}}_{1}}{{\boldsymbol{W}}_{2}}^{T} \\ {{\boldsymbol{W}}_{2}}{{\boldsymbol{W}}_{1}}^{T} & {{\boldsymbol{W}}_{2}}{{\boldsymbol{W}}_{2}}^{T}+{{\boldsymbol{\psi }}_{2}} \\ \end{matrix} \right) \right). $

对于未匹配样本集合$\boldsymbol{X}_{1}^{\left( U \right)}=\left\{ \left( \boldsymbol{x}_{1}^{j} \right) \right\}_{j={{N}_{p}}+1}^{{{N}_{1}}}$$\boldsymbol{X}_{2}^{\left( U \right)}=\text{ }\!\!~\!\!\text{ }\left\{ \left( \boldsymbol{x}_{2}^{k} \right) \right\}_{k={{N}_{p}}+1}^{{{N}_{2}}},$$\boldsymbol{x}_{1}^{j}$$\boldsymbol{x}_{2}^{k}$则分别由隐变量$\boldsymbol{z}_{1}^{j}$$\boldsymbol{z}_{2}^{k}$通过线性变换W1W2附加高斯噪声ε1ε2获得, 即

$ \begin{align} & P\left( \boldsymbol{x}_{1}^{j};\theta \right)=\mathop{\int }^{}P\left( \boldsymbol{x}_{1}^{j}\text{ }\!\!|\!\!\text{ }\boldsymbol{z}_{1}^{j} \right)P\left( \boldsymbol{z}_{1}^{j} \right)\text{d}\boldsymbol{z}_{1}^{j}\tilde{\ }N\left( {{\mu }_{1}},{{\boldsymbol{W}}_{1}}{{\boldsymbol{W}}_{1}}^{T}+{{\boldsymbol{\psi }}_{1}} \right), \\ & P\left( \boldsymbol{x}_{2}^{k};\theta \right)=\mathop{\int }^{}P\left( \boldsymbol{x}_{2}^{k}\text{ }\!\!|\!\!\text{ }\boldsymbol{z}_{2}^{k} \right)P\left( \boldsymbol{z}_{2}^{k} \right)\text{d}\boldsymbol{z}_{2}^{k}\tilde{\ }N\left( {{\mu }_{2}},{{\boldsymbol{W}}_{2}}{{\boldsymbol{W}}_{2}}^{T}+{{\boldsymbol{\psi }}_{2}} \right). \\ \end{align} $

SemiPCCA模型中, 成对样本$\left( \boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i} \right)$的投影方法类似PCCA模型, 即

$ \begin{align} & E\left( {{\boldsymbol{z}}^{i}}\text{ }\!\!|\!\!\text{ }\boldsymbol{x}_{1}^{i} \right)={{{\boldsymbol{\hat{W}}}}_{1}}^{T}{{\left( {{{\boldsymbol{\hat{W}}}}_{1}}{{{\boldsymbol{\hat{W}}}}_{1}}^{T}+{{{\boldsymbol{\hat{\psi }}}}_{1}} \right)}^{-1}}\left( \boldsymbol{x}_{1}^{i}-{{{\hat{\mu }}}_{1}} \right), \\ & E\left( {{\boldsymbol{z}}^{i}}\text{ }\!\!|\!\!\text{ }\boldsymbol{x}_{2}^{i} \right)={{{\boldsymbol{\hat{W}}}}_{2}}^{T}{{\left( {{{\boldsymbol{\hat{W}}}}_{2}}{{{\boldsymbol{\hat{W}}}}_{2}}^{T}+{{{\boldsymbol{\hat{\psi }}}}_{2}} \right)}^{-1}}\left( \boldsymbol{x}_{2}^{i}-{{{\hat{\mu }}}_{2}} \right). \\ \end{align} $

$E\left( {{\boldsymbol{z}}^{i}}\text{ }\!\!|\!\!\text{ }\boldsymbol{x}_{1}^{i} \right),E\left( {{\boldsymbol{z}}^{i}}\text{ }\!\!|\!\!\text{ }\boldsymbol{x}_{2}^{i} \right)$构成了样本空间到SemiPCCA隐空间的典型投影.虽然SemiPCCA模型投影的结果看似与PCCA模型相同, 但${{\boldsymbol{\hat{W}}}_{1}}$${{\boldsymbol{\hat{W}}}_{2}}$的计算却受到了未匹配样本的影响, 而未匹配样本则揭示了各领域样本空间的全局结构.同时, 为使相关度最大化, 不同样本空间的投影向量之间也会相互影响.

2.1 EM算法求解SemiPCCA

考虑到观察样本的极大似然函数L(q)由3部分构成, 因此E步骤, 我们需要分别处理.

对于匹配样本集合$\left\{ \left( \boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i} \right) \right\}_{i=1}^{{{N}_{p}}}$中的第i对样本$\left( \boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i} \right),$我们给出隐变量${{\boldsymbol{z}}^{i}}$的后验概率, 即

$ P\left( {{\boldsymbol{z}}^{i}}\text{ }\!\!|\!\!\text{ }\boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i};\theta \right)\tilde{\ }N\left( {{\boldsymbol{W}}^{T}}{{\left( \boldsymbol{W}{{\boldsymbol{W}}^{T}}+\boldsymbol{\psi } \right)}^{-1}}\left( \left( \begin{matrix} \boldsymbol{x}_{1}^{i} \\ \boldsymbol{x}_{2}^{i} \\ \end{matrix} \right)-\mu \right),\boldsymbol{I}-{{\boldsymbol{W}}^{T}}{{\left( \boldsymbol{W}{{\boldsymbol{W}}^{T}}+\boldsymbol{\psi } \right)}^{-1}}\boldsymbol{W} \right). $

根据该后验概率$P\left( {{\boldsymbol{z}}^{i}}\text{ }\!\!|\!\!\text{ }\boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i};\theta \right),$我们计算得到ziziziT的期望值:

$\left\langle {{\boldsymbol{z}}^{i}} \right\rangle ={{\boldsymbol{W}}^{T}}{{\left( \boldsymbol{W}{{\boldsymbol{W}}^{T}}+\boldsymbol{\psi } \right)}^{-1}}\left( \left( \begin{matrix} \boldsymbol{x}_{1}^{i} \\ \boldsymbol{x}_{2}^{i} \\ \end{matrix} \right)-\mu \right)$ (3)
$\left\langle {{\boldsymbol{z}}^{i}}{{\boldsymbol{z}}^{i}}^{T} \right\rangle =\left\langle {{\boldsymbol{z}}^{i}} \right\rangle {{\left\langle {{\boldsymbol{z}}^{i}} \right\rangle }^{T}}+\text{ }\!\!~\!\!\text{ }\boldsymbol{I}-{{\boldsymbol{W}}^{T}}{{\left( \boldsymbol{W}{{\boldsymbol{W}}^{T}}+\boldsymbol{\psi } \right)}^{-1}}W$ (4)

对于未匹配样本$\left\{ \left( \boldsymbol{x}_{1}^{j} \right) \right\}_{j={{N}_{p}}+1}^{{{N}_{1}}},$隐变量$\boldsymbol{z}_{1}^{j}$只受$\boldsymbol{z}_{1}^{j}\boldsymbol{z}{{_{1}^{j}}^{T}}$的影响, 其后验概率的计算如下所示:

$ P\left( \boldsymbol{z}_{1}^{j}\text{ }\!\!|\!\!\text{ }\boldsymbol{x}_{1}^{j};\theta \right)\tilde{\ }N\left( {{\boldsymbol{W}}_{1}}^{T}{{\left( {{\boldsymbol{W}}_{1}}{{\boldsymbol{W}}_{1}}^{T}+{{\boldsymbol{\psi }}_{1}} \right)}^{-1}}\left( \boldsymbol{x}_{1}^{j}-{{\mu }_{1}} \right),\boldsymbol{I}-{{\boldsymbol{W}}_{1}}^{T}{{\left( {{\boldsymbol{W}}_{1}}{{\boldsymbol{W}}_{1}}^{T}+{{\boldsymbol{\psi }}_{1}} \right)}^{-1}}{{\boldsymbol{W}}_{1}} \right) $

根据该后验概率$P\left( \boldsymbol{z}_{1}^{j}\text{ }\!\!|\!\!\text{ }\boldsymbol{x}_{1}^{j};\theta \right),$我们计算得到$\boldsymbol{z}_{1}^{j}$$\boldsymbol{z}_{1}^{j}\boldsymbol{z}{{_{1}^{j}}^{T}}$的期望值:

$\left\langle \boldsymbol{z}_{1}^{j} \right\rangle ={{\boldsymbol{W}}_{1}}^{T}{{\left( {{\boldsymbol{W}}_{1}}{{\boldsymbol{W}}_{1}}^{T}+{{\boldsymbol{\psi }}_{1}} \right)}^{-1}}\left( \boldsymbol{x}_{1}^{j}-{{\mu }_{1}} \right)$ (5)
$\left\langle \boldsymbol{z}_{1}^{j}\boldsymbol{z}{{_{1}^{j}}^{T}} \right\rangle =\left\langle \boldsymbol{z}_{1}^{j} \right\rangle {{\left\langle \boldsymbol{z}_{1}^{j} \right\rangle }^{T}}+\text{ }\!\!~\!\!\text{ }\boldsymbol{I}-{{\boldsymbol{W}}_{1}}^{T}{{\left( {{\boldsymbol{W}}_{1}}{{\boldsymbol{W}}_{1}}^{T}+{{\boldsymbol{\psi }}_{1}} \right)}^{-1}}{{\boldsymbol{W}}_{1}}$ (6)

对于未匹配样本$\left\{ \left( \boldsymbol{x}_{2}^{k} \right) \right\}_{k={{N}_{p}}+1}^{{{N}_{2}}},$隐变量$\boldsymbol{z}_{2}^{k}$只受$\boldsymbol{x}_{2}^{k}$的影响, 其后验概率的计算如下所示:

$ P\left( \boldsymbol{z}_{2}^{k}\text{ }\!\!|\!\!\text{ }\boldsymbol{x}_{2}^{k};\theta \right)\tilde{\ }N\left( {{\boldsymbol{W}}_{2}}^{T}{{\left( {{\boldsymbol{W}}_{2}}{{\boldsymbol{W}}_{2}}^{T}+{{\boldsymbol{\psi }}_{2}} \right)}^{-1}}\left( \boldsymbol{x}_{2}^{k}-{{\mu }_{2}} \right),\boldsymbol{I}-{{\boldsymbol{W}}_{2}}^{T}{{\left( {{\boldsymbol{W}}_{2}}{{\boldsymbol{W}}_{2}}^{T}+{{\boldsymbol{\psi }}_{2}} \right)}^{-1}}{{\boldsymbol{W}}_{2}} \right). $

根据该后验概率$P\left( \boldsymbol{z}_{2}^{k}\text{ }\!\!|\!\!\text{ }\boldsymbol{x}_{2}^{k};\theta \right),$我们计算得到$\boldsymbol{z}_{2}^{k}$$\boldsymbol{z}_{2}^{k}\boldsymbol{z}{{_{2}^{k}}^{T}}$的期望值:

$\left\langle \boldsymbol{z}_{2}^{k} \right\rangle ={{\boldsymbol{W}}_{2}}^{T}{{\left( {{\boldsymbol{W}}_{2}}{{\boldsymbol{W}}_{2}}^{T}+{{\boldsymbol{\psi }}_{2}} \right)}^{-1}}\left( \boldsymbol{x}_{2}^{k}-{{\mu }_{2}} \right)$ (7)
$\left\langle \boldsymbol{z}_{2}^{k}\boldsymbol{z}{{_{2}^{k}}^{T}} \right\rangle =\left\langle \boldsymbol{z}_{2}^{k} \right\rangle {{\left\langle \boldsymbol{z}_{2}^{k} \right\rangle }^{T}}+\text{ }\!\!~\!\!\text{ }\boldsymbol{I}-{{\boldsymbol{W}}_{2}}^{T}{{\left( {{\boldsymbol{W}}_{2}}{{\boldsymbol{W}}_{2}}^{T}+{{\boldsymbol{\psi }}_{2}} \right)}^{-1}}{{\boldsymbol{W}}_{2}}$ (8)

M步骤, 固定E步骤计算得到的$P\left( {{\boldsymbol{z}}^{i}}\text{ }\!\!|\!\!\text{ }\boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i};\theta \right),P\left( \boldsymbol{z}_{1}^{j}\text{ }\!\!|\!\!\text{ }\boldsymbol{x}_{1}^{j};\theta \right)$$P\left( \boldsymbol{z}_{2}^{k}\text{ }\!\!|\!\!\text{ }\boldsymbol{x}_{2}^{k};\theta \right),$通过偏导数计算似然L(θ)最大化时参数W1, ψ1, W2, ψ2, m1, m2的取值.

对于x1x2的均值μ1, μ2, 其取值如下:

${{\hat{\mu }}_{1}}={{\tilde{\mu }}_{1}}=\frac{1}{{{N}_{1}}}\underset{i=1}{\overset{{{N}_{1}}}{\mathop \sum }}\,\boldsymbol{x}_{1}^{i},\text{ }{{\hat{\mu }}_{2}}={{\tilde{\mu }}_{2}}=\frac{1}{{{N}_{2}}}\underset{i=1}{\overset{{{N}_{2}}}{\mathop \sum }}\,\boldsymbol{x}_{2}^{i}$ (9)

由于EM算法迭代过程中, ${{\tilde{\mu }}_{1}}$${{\tilde{\mu }}_{2}}$的取值不变, 所以可以通过中心化样本集合$\boldsymbol{X}_{1}^{\left( P \right)}\cup \boldsymbol{X}_{1}^{\left( U \right)},\boldsymbol{X}_{2}^{\left( P \right)}\cup \boldsymbol{X}_{2}^{\left( U \right)}$来避免学习过程中重复学习.为了简化描述, 下文中$\boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i},\boldsymbol{x}_{1}^{j}$$\boldsymbol{x}_{2}^{k}$均表示经过中心化的向量.

对于投影向量集合W1, W2, 我们获得以下更新公式:

${{\boldsymbol{\hat{W}}}_{1}}=\left[ \underset{i=1}{\overset{{{N}_{p}}}{\mathop \sum }}\,\boldsymbol{x}_{1}^{i}{{\left\langle {{\boldsymbol{z}}^{i}} \right\rangle }^{T}}+\underset{j={{N}_{p}}+1}{\overset{{{N}_{1}}}{\mathop \sum }}\,\boldsymbol{x}_{1}^{j}{{\left\langle \boldsymbol{z}_{1}^{j} \right\rangle }^{T}} \right]{{\left[ \underset{i=1}{\overset{{{N}_{p}}}{\mathop \sum }}\,\left\langle {{\boldsymbol{z}}^{i}}{{\boldsymbol{z}}^{i}}^{T} \right\rangle +\underset{j={{N}_{p}}+1}{\overset{{{N}_{1}}}{\mathop \sum }}\,\left\langle \boldsymbol{z}_{1}^{j}\boldsymbol{z}{{_{1}^{j}}^{T}} \right\rangle \right]}^{-1}}$ (10)
${{\boldsymbol{\hat{W}}}_{2}}=\left[ \underset{i=2}{\overset{{{N}_{p}}}{\mathop \sum }}\,\boldsymbol{x}_{2}^{i}{{\left\langle {{\boldsymbol{z}}^{i}} \right\rangle }^{T}}+\underset{k={{N}_{p}}+1}{\overset{{{N}_{2}}}{\mathop \sum }}\,\boldsymbol{x}_{2}^{k}{{\left\langle \boldsymbol{z}_{2}^{k} \right\rangle }^{T}} \right]{{\left[ \underset{i=1}{\overset{{{N}_{p}}}{\mathop \sum }}\,\left\langle {{\boldsymbol{z}}^{i}}{{\boldsymbol{z}}^{i}}^{T} \right\rangle +\underset{k={{N}_{p}}+1}{\overset{{{N}_{2}}}{\mathop \sum }}\,\left\langle \boldsymbol{z}_{2}^{k}\boldsymbol{z}{{_{2}^{k}}^{T}} \right\rangle \right]}^{-1}}$ (11)

对于高斯噪声的方差ψ1, ψ2, 我们获得以下更新公式:

${{\mathbf{\hat{\psi }}}_{1}}=\frac{1}{{{N}_{1}}}\left\{ \begin{align} & \underset{i=1}{\overset{{{N}_{p}}}{\mathop \sum }}\,\left( \mathbf{x}_{1}^{i}-{{{\mathbf{\hat{W}}}}_{1}}\left\langle {{\mathbf{z}}^{i}} \right\rangle \right){{\left( \mathbf{x}_{1}^{i}-{{{\mathbf{\hat{W}}}}_{1}}\left\langle {{\mathbf{z}}^{i}} \right\rangle \right)}^{T}}+ \\ & \underset{j={{N}_{p}}+1}{\overset{{{N}_{1}}}{\mathop \sum }}\,\left( \mathbf{x}_{1}^{j}-{{{\mathbf{\hat{W}}}}_{1}}\left\langle \mathbf{z}_{1}^{j} \right\rangle \right){{\left( \mathbf{x}_{1}^{j}-{{{\mathbf{\hat{W}}}}_{1}}\left\langle \mathbf{z}_{1}^{j} \right\rangle \right)}^{T}} \\ \end{align} \right\}$ (12)
${{\mathbf{\hat{\psi }}}_{2}}=\frac{1}{{{N}_{2}}}\left\{ \begin{align} & \underset{i=1}{\overset{{{N}_{p}}}{\mathop \sum }}\,\left( \mathbf{x}_{2}^{i}-{{{\mathbf{\hat{W}}}}_{2}}\left\langle {{\mathbf{z}}^{i}} \right\rangle \right){{\left( \mathbf{x}_{2}^{i}-{{{\mathbf{\hat{W}}}}_{2}}\left\langle {{\mathbf{z}}^{i}} \right\rangle \right)}^{T}}+ \\ & \underset{k={{N}_{p}}+1}{\overset{{{N}_{2}}}{\mathop \sum }}\,\left( \mathbf{x}_{2}^{k}-{{{\mathbf{\hat{W}}}}_{2}}\left\langle \mathbf{z}_{2}^{k} \right\rangle \right){{\left( \mathbf{x}_{2}^{k}-{{{\mathbf{\hat{W}}}}_{2}}\left\langle \mathbf{z}_{2}^{k} \right\rangle \right)}^{T}} \\ \end{align} \right\}$ (13)

求解SemiPCCA的完整EM算法如下.

输入:成对样本$\text{ }\!\!~\!\!\text{ }\left\{ \left( \boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i} \right) \right\}_{i=1}^{{{N}_{p}}},$未匹配样本$\left\{ \left( \boldsymbol{x}_{1}^{j} \right) \right\}_{j={{N}_{p}}+1}^{{{N}_{1}}}$$\left\{ \left( \boldsymbol{x}_{2}^{k} \right) \right\}_{k={{N}_{p}}+1}^{{{N}_{2}}}\text{,}$隐变量维度d.

1:初始化模型参数$\theta =\{{{\boldsymbol{W}}_{1}},{{\boldsymbol{W}}_{2}},{{\boldsymbol{\psi }}_{1}},{{\boldsymbol{\psi }}_{2}}\}.$

2:使用公式(9)计算样本均值, 并中心化样本集合$\boldsymbol{X}_{1}^{\left( P \right)}\bigcup \text{ }\!\!~\!\!\text{ }\boldsymbol{X}_{1}^{\left( U \right)},\boldsymbol{X}_{2}^{\left( P \right)}\bigcup \boldsymbol{X}_{2}^{\left( U \right)}.$

3: repeat

{E步骤}

4:   for i=1 to Np do

5:     对于成对样本$(\boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i}),$计算公式(3)和公式(4);

6:   end for

7:   for j=Np+1 to N1 do

8:     对于未匹配样本, 计算公式(5)和公式(6);

9:   end for

10:   for k=Np+1 to N2 do

11:     对于未匹配样本$\text{(}\boldsymbol{x}_{2}^{k}\text{),}$计算公式(7)和公式(8);

12:   end for

{M步骤}

13:   使用公式(10)和公式(11)更新参数W1W2;

14:   使用公式(12)和公式(13)更新参数ψ1ψ2;

15: until参数θ的变化小于指定阈值.

输出:模型参数θ和投影向量${{\boldsymbol{z}}^{i}}\left( i=1\text{,}\ldots \text{,}{{N}_{p}} \right)$.

2.2 Toy problem实验

为了验证SemiPCCA模型的有效性, 我们构造以下人工数据集合:样本集合$\left\{ {{\boldsymbol{z}}^{i}} \right\}_{i=1}^{N}$服从$N\left( 0,{{\boldsymbol{I}}_{d}} \right),$其中维度d=2, 样本数量N=300, 完整的匹配样本集合$\left\{ \left( \boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i} \right) \right\}_{i=1}^{N}$通过以下方式构造获得:

$ {{\boldsymbol{x}}_{1}}={{\boldsymbol{T}}_{1}}\boldsymbol{z}+{{\varepsilon }_{1}},{{\boldsymbol{T}}_{1}}\in {{R}^{{{m}_{1}}\times d}},{{\boldsymbol{x}}_{2}}={{\boldsymbol{T}}_{2}}\boldsymbol{z}+{{\varepsilon }_{2}},{{\boldsymbol{T}}_{2}}\in {{R}^{{{m}_{2}}\times d}}, $

其中, $P\left( {{\varepsilon }_{1}} \right)\tilde{\ }N\left( 0,\left[ \begin{matrix} 0.75 & 0.5 \\ 0.5 & 0.75 \\ \end{matrix} \right] \right),P\left( {{\varepsilon }_{2}} \right)\tilde{\ }N\left( 0,\left[ \begin{matrix} 1 & 1 \\ 1 & 1 \\ \end{matrix} \right] \right),{{\boldsymbol{T}}_{1}}=\left[ \begin{matrix} 0.6 & {-1}/{\sqrt{2}}\; \\ 0.8 & {-1}/{\sqrt{2}}\; \\ \end{matrix} \right],{{\boldsymbol{T}}_{2}}=\left[ \begin{matrix} 0.3 & -0.7 \\ 0.4 & 0.7 \\ \end{matrix} \right],$样本维度分别设置为m1=2, m2=2.

为了获得弱匹配的样本集合, 我们构造一个判别函数$f\left( {{\boldsymbol{x}}_{2}} \right)={{\boldsymbol{a}}^{T}}{{\boldsymbol{x}}_{2}}-\theta ,$其中$\boldsymbol{a}={{\left( {{a}_{1}},\ldots ,{{a}_{{{m}_{2}}}} \right)}^{T}},$θ表示判别阈值.对于样本$\left( \boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i} \right),$如果其判别函数值$f\left( \boldsymbol{x}_{2}^{i} \right)<0,$则从$\left\{ \boldsymbol{x}_{2}^{i} \right\}_{i=1}^{N}$中移除样本.可见, θ越大, 移除的样本就越多.

在比较SemiPCCA与传统CCA和PCCA时, 我们选择了以下加权余弦距离[24]:

$ C\left( {{\boldsymbol{W}}_{x}},\boldsymbol{W}_{x}^{\text{*}},{{\boldsymbol{\Lambda }}^{\text{*}}} \right)=\underset{i=1}{\overset{d}{\mathop \sum }}\,\lambda _{i}^{\text{*}}\frac{\boldsymbol{w}_{x,i}^{T}\boldsymbol{w}_{x,i}^{\text{*}}}{\left\| {{\boldsymbol{w}}_{x,i}} \right\|\cdot \left\| \boldsymbol{w}_{x,i}^{\text{*}} \right\|}, $

其中, $\boldsymbol{W}_{x}^{\text{*}}={{\left( \boldsymbol{w}_{x,1}^{\text{*}},\boldsymbol{w}_{x,2}^{\text{*}},...,\boldsymbol{w}_{x,d}^{\text{*}} \right)}^{T}}$${{\boldsymbol{\Lambda }}^{\text{*}}}=diag\left( \lambda _{1}^{\text{*}},\lambda _{2}^{\text{*}},...,\lambda _{d}^{\text{*}} \right)$分别表示完整的匹配样本集合$\left\{ \left( \boldsymbol{x}_{1}^{i},x_{2}^{i} \right) \right\}_{i=1}^{N}$通过CCA分析后, 获得的“真正”d组典型投影向量和相关系数.使用加权余弦距离可以定量地比较投影向量偏移的程度.该加权余弦距离越大, 说明相应算法求得的投影向量越接近“真正”的典型投影向量, 之间的夹角越小.图 4给出了判别阈值θ在-2~5的取值范围内, 经过1 000次独立实验获得的加权余弦距离平均值.图中, 横坐标表示判别阈值θ, 纵坐标表示加权余弦距离.实验结果表明, 随着判别阈值θ的提高, 匹配样本逐渐减少, CCA和PCCA求得的投影向量与“真正”的典型投影向量之间的夹角在不断加大, 即出现了过拟合问题.而SemiPCCA由于同时使用了弱匹配样本集合中的匹配样本和未匹配样本, 其性能明显好于传统CCA和PCCA, 解决了过拟合问题, 投影向量间的余弦距离相对稳定, 没有随着匹配样本的减少而大幅变化.

Fig. 4 Weighted sum of cosine distances 图 4 加权余弦距离

图 5图 6分别描述了当θ=-2和θ=4时, 匹配样本(蓝色方形)、未匹配样本(红色圆形)的分布情况, 以及分别由CCA, PCCA和SemiPCCA获得的3组典型投影向量, 其中,

Fig. 5 Distribution of canonical vectors of CCA, PCCA and SemiPCCA (a=(3, -2)T, θ=-2) 图 5 CCA, PCCA和SemiPCCA获得的典型投影向量(a=(3, -2)T, θ=-2)

Fig. 6 Distribution of canonical vectors of CCA, PCCA and SemiPCCA (a=(3, -2)T, θ=4) 图 6 CCA, PCCA和SemiPCCA获得的典型投影向量(a=(3, -2)T, θ=4)

(1)红色投影向量:基于完整的匹配样本集合$\left\{ \left( \boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i} \right) \right\}_{i=1}^{N},$通过CCA或PCCA分析后获得的典型向量, 图中以红色箭头表示.该向量是测试基准, 是“真正”的典型向量.

(2)蓝色投影向量:只考虑弱匹配样本集合中匹配样本, 通过CCA或PCCA获得的典型向量, 图中以蓝色箭头表示.

(3)黑色投影向量:综合考虑了弱匹配样本集合中匹配和未匹配样本, 由SemiPCCA获得的典型向量, 图中以黑色箭头表示.

实验结果表明:

(1)由于只使用了弱匹配样本集合中剩余的成对样本, 所以蓝色投影向量严重偏离了红色箭头代表的“真正”的投影向量, 即CCA和PCCA由于成对样本过少出现了过拟合问题.

(2) SemiPCCA在参数估计的过程中, 同时使用了弱匹配样本集合中的匹配样本和未匹配样本, 所以相对于蓝色投影向量, 其获得的黑色投影向量更加接近测试基准.

3 在图像语义标注领域的应用

图像检索技术包括两种主流解决方案:基于文本的图像检索和基于内容的图像检索.基于文本的图像检索利用人工对图像进行标注, 并在此基础上利用传统的文本搜索引擎查询图像, 这种查询方式比较直观, 但是, 人工标注费时、费力, 使得这种检索技术不能推广到大规模的图像数据库.基于内容的图像检索采用特征提取和高维索引技术进行图像检索, 它为每幅图像提取底层视觉特征, 以高维形式存入数据库, 通过比较这些特征的相似度来获得检索结果.这种技术在人脸识别、商标识别等某些特殊领域得到了很好的应用, 但由于存在语义鸿沟, 视觉特征相似的图像很可能在语义上是不相关的.为了获得语义相关的检索结果, 同时避免大量的手工标注, 图像自动标注成为当前关键的具有挑战性的课题[27].

图像标注方法可分为有监督的分类算法和关联建模.有监督的分类算法是一种最直接的图像标注方法.有监督的分类算法将各个语义类别(一个关键词或关键词集合)看作独立的概念, 通过训练一组经过语义标注的样本图像, 为每个语义类别建立各不相同的二类分类器, 然后利用分类器将未标注或未归类的图像归并到某一语义类, 如图 7(a)所示.最常用的有监督学习技术有贝叶斯分类器和支持向量机(support vector machine, 简称SVM).贝叶斯分类器首先选择一个图像训练集, 由具有目标概念或不具有目标概念的图像组成, 利用这个图像集训练一个二类贝叶斯分类器, 然后将这个分类器应用到数据库中所有的图像, 判断图像是否具有目标概念.Carneiro等人对贝叶斯分类器进行改进, 采用基于最小错误率的优化准则和统计分类的思想, 提出一种监督多类标注算法(supervised multiclass labeling, 简称SML)[28].另一类广泛使用的分类技术是SVM, 它具有很强的理论基础, SVM最初设计为二类分类器, 在图像检索中得到了较好的应用.为了利用SVM学习多个语义概念, 需要对每个概念单独进行训练.例如, Cusano等人[29]将SVM进行推广, 选择7类语义关键词(天空、大地、雪、建筑物等)进行实验, 利用训练得到的多类SVM分类器对图像区域进行分类, 从而产生图像的语义标注.

Fig. 7 Approaches to the image annotation problem 图 7 图像标注方法

关联建模的方法从文本领域的研究得到启发.这类方法利用现有的标注好的图像数据集, 在无监督的基础上学习图像的视觉特征和文本关键词之间的关联, 然后通过统计推理的方法将这种关联应用到未标注的图像.关联建模的基本思想是引入随机变量对客观世界的隐藏状态L进行编码, 随机变量的各个状态定义了语义关键词和图像特征的联合分布.不同的标注方法对于隐藏状态给出了不同的定义[27].

有些方法将图像或图像聚类与隐藏状态相联系, 如机器翻译模型(translation-mode, 简称TM)[30], 如图 7(b)所示.Duygulu等人提出的机器翻译模型TM将图像分割为任意形状的区域, 然后依据区域特征将图像区域聚类为Blob, 同时对标注关键词进行聚类, 并假设图像的Blob与某个关键词聚类之间存在某种隐含的一一对应关系, 采用EM算法估计图像的Blob和关键词的联合概率分布.借助机器翻译的概念, 该模型将Blob和关键词看作两种对等的“语言”, 标注的过程可以看作是一个将Blob翻译为关键词的过程.类似地, 还有跨媒体相关模型(cross-media relevance model, 简称CMRM)[31]、连续空间相关模型(continuous-space relevance model, 简称CRM)[32]、多贝努里相关模型(multiple bernoulli relevance model, 简称MBRM)[33].

还有方法同时使用图像和关键词估计隐藏变量的分布, 实现某些模型的高层次分组(如主题)与隐藏状态相联系, 如图 7(c)所示.Blei等人使用更复杂的关联LDA (CORR-LDA)模型为关键词和图像创建一个基于语言的关联, 并在此基础上产生图像的语义标注[34].Monay等人使用PLSA对跨媒体数据进行建模, 并提出不对称的PLSA学习算法PLSA-WORDS[35].李志欣等人在概率潜语义分析的基础上提出了融合语义主题的图像自动标注方法PLSA-FUSION[36].李志欣等人也对传统PLSA模型进行改进, 提出了连续PLSA模型处理连续量, 在此基础上提出了建模连续视觉特征的图像语义标注模型GM-PLSA[37, 38].

3.1 学习与标注

类似于图 7(c)所示的关联建模方法, Harada等人提出了基于PCCA的图像标注方法[39].对于已标注样本(x1, x2), 隐空间中随机变量z的后验概率P(z|x1, x2)服从以下均值${{\boldsymbol{\hat{z}}}_{12}}$、方差${{\boldsymbol{\Psi }}_{12}}$的高斯分布.

${{\boldsymbol{\hat{z}}}_{12}}=E\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }{{\boldsymbol{x}}_{1}},{{\boldsymbol{x}}_{2}} \right)={{\left( \begin{matrix} {{\boldsymbol{M}}_{1}} \\ {{\boldsymbol{M}}_{2}} \\ \end{matrix} \right)}^{T}}\left( \begin{matrix} {{\left( \boldsymbol{I}-{{\boldsymbol{P}}_{d}}^{2} \right)}^{-1}} & -{{\left( \boldsymbol{I}-{{\boldsymbol{P}}_{d}}^{2} \right)}^{-1}}{{\boldsymbol{P}}_{d}} \\ -{{\left( \boldsymbol{I}-{{\boldsymbol{P}}_{d}}^{2} \right)}^{-1}}{{\boldsymbol{P}}_{d}} & {{\left( \boldsymbol{I}-{{\boldsymbol{P}}_{d}}^{2} \right)}^{-1}} \\ \end{matrix} \right)\left( \begin{matrix} {{\boldsymbol{U}}_{1d}}^{T}\left( {{\boldsymbol{x}}_{1}}-{{{\hat{\mu }}}_{1}} \right) \\ {{\boldsymbol{U}}_{2d}}^{T}\left( {{\boldsymbol{x}}_{2}}-{{{\hat{\mu }}}_{2}} \right) \\ \end{matrix} \right)$ (14)
${{\boldsymbol{\Psi }}_{12}}=var\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }{{\boldsymbol{x}}_{1}},{{\boldsymbol{x}}_{2}} \right)=\boldsymbol{I}-{{\left( \begin{matrix} {{\boldsymbol{M}}_{1}} \\ {{\boldsymbol{M}}_{2}} \\ \end{matrix} \right)}^{T}}\left( \begin{matrix} {{\left( \boldsymbol{I}-{{\boldsymbol{P}}_{d}}^{2} \right)}^{-1}} & -{{\left( \boldsymbol{I}-{{\boldsymbol{P}}_{d}}^{2} \right)}^{-1}}{{\boldsymbol{P}}_{d}} \\ -{{\left( \boldsymbol{I}-{{\boldsymbol{P}}_{d}}^{2} \right)}^{-1}}{{\boldsymbol{P}}_{d}} & {{\left( \boldsymbol{I}-{{\boldsymbol{P}}_{d}}^{2} \right)}^{-1}} \\ \end{matrix} \right)\left( \begin{matrix} {{\boldsymbol{M}}_{1}} \\ {{\boldsymbol{M}}_{2}} \\ \end{matrix} \right)$ (15)

类似地, 对于未标注的样本, 隐空间中随机变量z在只给定样本图像特征x1的情况下, 其后验概率P(z|x1)服从以下均值${{\boldsymbol{\hat{z}}}_{1}}$、方差${{\boldsymbol{\Psi }}_{1}}$的高斯分布.

${{\boldsymbol{\hat{z}}}_{1}}=E\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }{{\boldsymbol{x}}_{1}} \right)={{\boldsymbol{M}}_{1}}^{T}{{\boldsymbol{U}}_{1d}}^{T}\left( {{\boldsymbol{x}}_{1}}-{{{\hat{\mu }}}_{1}} \right)$ (16)
${{\boldsymbol{\Psi }}_{1}}=var\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }{{\boldsymbol{x}}_{1}} \right)=\boldsymbol{I}-{{\boldsymbol{M}}_{1}}{{\boldsymbol{M}}_{1}}^{T}$ (17)

根据上述结论, 对于已标注图像和未标注图像, 隐空间中随机变量z的分布情况如图 8所示.由图 8我们不难发现, 已标注图像和未标注图像的相似性可以通过随机变量z的后验概率P(z|x1, x2)与P(z|x1)之间的KL距离来衡量, 进而实现图像的标注.

Fig. 8 Posterior distribution of labelled image and unlabeled image in latent space of PCCA 图 8 在PCCA隐空间中标注图像和未标注图像的后验概率分布

$\left\{ \boldsymbol{T}_{i}^{\left( P \right)}=\left( \boldsymbol{x}_{1}^{i},\boldsymbol{x}_{2}^{i} \right) \right\}_{i=1}^{{{N}_{p}}}$表示已标注图像的图像特征和文本关键词集合, $\left\{ \boldsymbol{Q}_{j}^{\left( U \right)}=\left( \boldsymbol{x}_{1}^{j} \right) \right\}_{j={{N}_{p}}+1}^{N}$表示未标注图像的图像特征集合.Nakayam等人[39-41]提出了一种基于PCCA的图像标注方法.对于给定的未标注图像$\boldsymbol{Q}_{j}^{\left( U \right)},$标注文本关键词w的后验概率如式(18)所示.

$P\left( w\text{ }\!\!|\!\!\text{ }\boldsymbol{Q}_{j}^{\left( U \right)} \right)\text{=}\underset{i=1}{\overset{{{N}_{p}}}{\mathop \sum }}\,P\left( w\text{ }\!\!|\!\!\text{ }\boldsymbol{T}_{i}^{\left( P \right)} \right)P\left( \boldsymbol{T}_{i}^{\left( P \right)}\text{ }\!\!|\!\!\text{ }\boldsymbol{Q}_{j}^{\left( U \right)} \right)$ (18)

其中, $P\left( \boldsymbol{T}_{i}^{\left( P \right)}\text{ }\!\!|\!\!\text{ }\boldsymbol{Q}_{j}^{\left( U \right)} \right)=\frac{\text{exp}\left( -\frac{1}{8}{{D}_{\text{KL}}}\left( P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }\boldsymbol{T}_{i}^{\left( P \right)} \right),P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }\boldsymbol{Q}_{j}^{\left( U \right)} \right) \right) \right)}{\sum\limits_{k=1}^{{{N}_{p}}}{\exp \left( -\frac{1}{8}{{D}_{\text{KL}}}\left( P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }\boldsymbol{T}_{k}^{\left( P \right)} \right),P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }\boldsymbol{Q}_{j}^{\left( U \right)} \right) \right) \right)}},$

${{D}_{\text{KL}}}\left( P\left( z\text{ }\!\!|\!\!\text{ }T_{i}^{\left( P \right)} \right),P\left( z\text{ }\!\!|\!\!\text{ }Q_{j}^{\left( U \right)} \right) \right)$表示分布$P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }\boldsymbol{T}_{i}^{\left( P \right)} \right)$$P\left( z\text{ }\!\!|\!\!\text{ }Q_{j}^{\left( U \right)} \right)$在隐空间中的KL距离之和, 即

$ \begin{align} & {{D}_{\text{KL}}}\left( P\left( \mathbf{z}\text{ }\!\!|\!\!\text{ }\mathbf{T}_{i}^{\left( P \right)} \right),P\left( \mathbf{z}\text{ }\!\!|\!\!\text{ }\mathbf{Q}_{j}^{\left( U \right)} \right) \right)= \\ & \text{KL}\left( P\left( \mathbf{z}\text{ }\!\!|\!\!\text{ }\mathbf{T}_{i}^{\left( P \right)} \right),P\left( \mathbf{z}\text{ }\!\!|\!\!\text{ }\mathbf{Q}_{j}^{\left( U \right)} \right) \right)+\text{KL}\left( P\left( \mathbf{z}\text{ }\!\!|\!\!\text{ }\mathbf{Q}_{j}^{\left( U \right)} \right),P\left( \mathbf{z}\text{ }\!\!|\!\!\text{ }\mathbf{T}_{i}^{\left( P \right)} \right) \right). \\ \end{align}$

根据多维高斯分布间KL距离的计算公式, 可得:

$ \text{KL}\left( P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }T_{i}^{\left( P \right)} \right),P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }\boldsymbol{Q}_{j}^{\left( U \right)} \right) \right)=\frac{1}{2}\left[ \text{tr}\left( {{\boldsymbol{\psi }}_{1}}^{-1}{{\boldsymbol{\psi }}_{12}} \right)-d-\log \left( \frac{\left| {{\boldsymbol{\psi }}_{1}} \right|}{\left| {{\boldsymbol{\psi }}_{12}} \right|} \right)+{{\left( {{{\boldsymbol{\hat{z}}}}_{q}}-{{{\boldsymbol{\hat{z}}}}_{t}} \right)}^{T}}{{\boldsymbol{\psi }}_{1}}^{-1}\left( {{{\boldsymbol{\hat{z}}}}_{q}}-{{{\boldsymbol{\hat{z}}}}_{t}} \right) \right]. $

对于不同的样本, 上式的前3项是常数, 所以可以将以上KL距离简化为

$\text{KL}\left( P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }T_{i}^{\left( P \right)} \right),P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }\boldsymbol{Q}_{j}^{\left( U \right)} \right) \right)=\frac{1}{2}{{\left( {{{\boldsymbol{\hat{z}}}}_{q}}-{{{\boldsymbol{\hat{z}}}}_{t}} \right)}^{T}}{{\boldsymbol{\psi }}_{1}}^{-1}\left( {{{\boldsymbol{\hat{z}}}}_{q}}-{{{\boldsymbol{\hat{z}}}}_{t}} \right)$ (19)

同理,

$\text{KL}\left( P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }\boldsymbol{Q}_{j}^{\left( U \right)} \right),P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }T_{i}^{\left( P \right)} \right) \right)=\frac{1}{2}{{\left( {{{\boldsymbol{\hat{z}}}}_{q}}-{{{\boldsymbol{\hat{z}}}}_{t}} \right)}^{T}}{{\boldsymbol{\psi }}_{12}}^{-1}\left( {{{\boldsymbol{\hat{z}}}}_{q}}-{{{\boldsymbol{\hat{z}}}}_{t}} \right)$ (20)

$P\left( w\text{ }\!\!|\!\!\text{ }\boldsymbol{T}_{i}^{\left( P \right)} \right)$定义如下:

$P\left( w\text{ }\!\!|\!\!\text{ }\boldsymbol{T}_{i}^{\left( P \right)} \right)=\mu {{\delta }_{w,\boldsymbol{T}_{i}^{\left( P \right)}}}+\left( 1-\mu \right)\frac{{{N}_{w}}}{NW}$ (21)

其中, Nw表示标注图像集合中包含语义关键字w的图像数量, NW表示语义关键字的数量.${{\delta }_{w,\boldsymbol{T}_{i}^{\left( P \right)}}}=1$表示标注样本$\boldsymbol{T}_{i}^{\left( P \right)}$包含语义关键字w; 否则, ${{\delta }_{w,\boldsymbol{T}_{i}^{\left( P \right)}}}=0,$参数$0<\mu <1$(取m=0.99).

在SemiPCCA的基础上, 我们改进了上述基于PCCA的图像标注方法, 其建模和标注过程如下.

训练阶段, 首先提取训练集中每幅图像(包括标注图像和未标注图像)的视觉特征x1, 即将一幅图像的视觉信息表示为一个连续特征向量.然后, 基于标注图像的文本关键词信息x2, 拟合一个SemiPCCA模型.由于在图像标注问题中只存在未标注的图像集合$\boldsymbol{X}_{1}^{\left( U \right)},$而不存在未匹配的文本标注集合$\boldsymbol{X}_{2}^{\left( U \right)},$所以EM算法求解SemiPCCA模型的过程中需要使用以下更新公式估计模型参数W1, W2, ψ1, ψ2.

${{\boldsymbol{\hat{W}}}_{1}}=\left[ \underset{i=1}{\overset{{{N}_{p}}}{\mathop \sum }}\,\boldsymbol{x}_{1}^{i}{{\left\langle {{\boldsymbol{z}}^{i}} \right\rangle }^{T}}+\underset{j={{N}_{p}}+1}{\overset{N}{\mathop \sum }}\,\boldsymbol{x}_{1}^{j}{{\left\langle \boldsymbol{z}_{1}^{j} \right\rangle }^{T}} \right]{{\left[ \underset{i=1}{\overset{{{N}_{p}}}{\mathop \sum }}\,\left\langle {{\boldsymbol{z}}^{i}}{{\boldsymbol{z}}^{i}}^{T} \right\rangle +\underset{j={{N}_{p}}+1}{\overset{N}{\mathop \sum }}\,\left\langle \boldsymbol{z}_{1}^{j}\boldsymbol{z}{{_{1}^{j}}^{T}} \right\rangle \right]}^{-1}}$ (22)
${{\boldsymbol{\hat{W}}}_{2}}=\left[ \underset{i=1}{\overset{{{N}_{p}}}{\mathop \sum }}\,\boldsymbol{x}_{2}^{i}{{\left\langle {{\boldsymbol{z}}^{i}} \right\rangle }^{T}} \right]{{\left[ \underset{i=1}{\overset{{{N}_{p}}}{\mathop \sum }}\,\left\langle {{\boldsymbol{z}}^{i}}{{\boldsymbol{z}}^{i}}^{T} \right\rangle \right]}^{-1}}$ (23)
${{\mathbf{\hat{\psi }}}_{1}}=\frac{1}{{{N}_{1}}}\left\{ \begin{align} & \underset{i=1}{\overset{{{N}_{p}}}{\mathop \sum }}\,\left( \mathbf{x}_{1}^{i}-{{{\mathbf{\hat{W}}}}_{1}}\left\langle {{\mathbf{z}}^{i}} \right\rangle \right){{\left( \mathbf{x}_{1}^{i}-{{{\mathbf{\hat{W}}}}_{1}}\left\langle {{\mathbf{z}}^{i}} \right\rangle \right)}^{T}} \\ & +\underset{j={{N}_{p}}+1}{\overset{N}{\mathop \sum }}\,\left( \mathbf{x}_{1}^{j}-{{{\mathbf{\hat{W}}}}_{1}}\left\langle {{\mathbf{z}}^{j}} \right\rangle \right){{\left( \mathbf{x}_{1}^{j}-{{{\mathbf{\hat{W}}}}_{1}}\left\langle {{\mathbf{z}}^{j}} \right\rangle \right)}^{T}} \\ \end{align} \right\}$ (24)
${{\boldsymbol{\hat{\psi }}}_{2}}=\frac{1}{{{N}_{p}}}\left\{ \underset{i=1}{\overset{{{N}_{p}}}{\mathop \sum }}\,\left( \boldsymbol{x}_{2}^{i}-{{{\boldsymbol{\hat{W}}}}_{2}}\left\langle {{\boldsymbol{z}}^{i}} \right\rangle \right){{\left( \boldsymbol{x}_{2}^{i}-{{{\boldsymbol{\hat{W}}}}_{2}}\left\langle {{\boldsymbol{z}}^{i}} \right\rangle \right)}^{T}} \right\}$ (25)

根据得到的模型参数, 可以得到隐空间中随机变量z在给定已标注图像(x1, x2)时的后验概率P(z|x1, x2), 以及随机变量z在只给定未标注图像x1时的后验概率P(z|x1), 即

$P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }{{\boldsymbol{x}}_{1}},{{\boldsymbol{x}}_{2}};\theta \right)\tilde{\ }\left( {{\boldsymbol{W}}^{\boldsymbol{T}}}{{\left( \boldsymbol{W}{{\boldsymbol{W}}^{\boldsymbol{T}}}+\boldsymbol{\psi } \right)}^{-1}}\left( \left( \begin{matrix} {{\boldsymbol{x}}_{1}} \\ {{\boldsymbol{x}}_{2}} \\ \end{matrix} \right)-\text{ }\!\!\mu\!\!\text{ } \right),\boldsymbol{I}-{{\boldsymbol{W}}^{\boldsymbol{T}}}{{\left( \boldsymbol{W}{{\boldsymbol{W}}^{\boldsymbol{T}}}+\boldsymbol{\psi } \right)}^{-1}}\boldsymbol{W} \right)$ (26)
$P\left( \boldsymbol{z}\text{ }\!\!|\!\!\text{ }{{\boldsymbol{x}}_{1}};\theta \right)\tilde{\ }\left( {{\boldsymbol{W}}_{1}}^{\boldsymbol{T}}{{\left( {{\boldsymbol{W}}_{1}}{{\boldsymbol{W}}_{1}}^{\boldsymbol{T}}+{{\boldsymbol{\psi }}_{1}} \right)}^{-1}}\left( {{\boldsymbol{x}}_{1}}-{{\boldsymbol{\mu }}_{1}} \right),\boldsymbol{I}-{{\boldsymbol{W}}_{1}}^{\boldsymbol{T}}{{\left( {{\boldsymbol{W}}_{1}}{{\boldsymbol{W}}_{1}}^{\boldsymbol{T}}+{{\boldsymbol{\psi }}_{1}} \right)}^{-1}}{{\boldsymbol{W}}_{1}} \right)$ (27)

标注阶段, 对于每幅未标注测试图像, 提取图像视觉特征x1后, 可以根据公式(27)计算其投影到隐空间后随机变量z的后验概率P(z|x1), 每个文本关键词的后验概率可以通过公式(18)计算获得.与其他典型的标注模型类似, SemiPCCA为每幅图像选取5个具有最大后验概率的关键词作为其语义标注.

3.2 实验过程和结果

3.2.1实验数据

我们采用文献[30]使用的Corel5K数据集和文献[28]使用的Corel30K数据集进行实验.Corel5K数据集包含5 000幅图像, 来自50个Corel库存图像CD, 每张CD包含同样语义内容的100幅图像, 每幅图像标注1个~5个关键词.Corel5k共有371个关键词, 将至少标注了8幅图像的关键词选入词汇表, 合计260个关键词.整个数据集分为两部分:4 500幅标注图像作为训练集, 500幅图像作为测试集.Corel30K数据集与Corel5K类似, 但包含31 695幅图像和5 587个关键词, 将至少标注了10幅图像的关键词选入词汇表, 合计950个关键词.

实验中使用Corel5K测试集的500幅图像作为测试图像, 从Corel5K训练集中的分别选择1 500幅、2 250幅和4 500幅图像作为标注图像, 其余图像与Corel30K数据集中的31 695幅图像作为未标注图像, 参与SemiPCCA模型的学习.

3.2.2图像特征

本实验中采用基于图像颜色的高阶局部自相关特征(color higher order local auto-correlation, 简称Color-HLAC).HLAC使用模板匹配的方法快速计算二值图像相邻像素点的自相关特征, 能够很好地提取图像的局部信息, 描述空间上的相关关系[42].m-th HLAC表示m阶HLAC特征.随着阶数的增加, HLAC特征的表示能力增强, 但同时计算量也在增加, 所以通常使用一阶HLAC特征(1st HLAC)或二阶HLAC特征(2nd HLAC特征).HLAC已经被广泛地用于图像识别.Color-HLAC特征是HLAC特征在RGB图像上的扩展, 分别计算RGB各层的HLAC特征, 然后“串行融合”.一阶Color-HLAC特征为45维.二阶Color-HLAC特征为714维.

$\boldsymbol{x}=\left\{ {{\boldsymbol{x}}_{1}},{{\boldsymbol{x}}_{1/2}},{{{\boldsymbol{{x}'}}}_{1}},{{{\boldsymbol{{x}'}}}_{1/2}} \right\}$表示图像特征, 其中, x1表示原始图像的二阶Color-HLAC特征, x1/2表示原始图像缩小一半后的二阶Color-HLAC特征, ${{\boldsymbol{{x}'}}_{1}}$${{\boldsymbol{{x}'}}_{1/2}}$分别表示上述图像的RGB层经过式(28)中的sigmoid函数二值化后的二阶Color-HLAC特征.

${{v}_{\text{new}}}=\frac{255}{1+\text{exp}\left( -k\times \left( v-{{f}_{t}} \right) \right)}$ (28)

二阶Color-HLAC特征经PCA降维后各保留80维, 最终得到的图像特征共320维.

3.2.3图像自动标注结果

本节中, 使用平均精度和平均召回率比较若干图像自动标注方法的性能, 包括机器翻译模型(translation-mode, 简称TM)[30]、跨媒体相关模型CMRM[31]、连续空间相关模型CRM[32]、多贝努里相关模型MBRM[33]、PLSA-WORDS[35]、GM-PLSA[37, 38]、PCCA[39]和本文的方法.SemiPCCA中, 隐变量z的维度d=50, 平滑参数k=0.3, 阈值ft=80.

图像标注的性能通过比较测试集的图像自动标注结果与原始标注进行评价.类似于文献[32], 本文只取前5个后验概率最大的关键词作为每幅图像的标注结果, 并计算测试集中每个关键字的精度(也称查准率)、召回率(也称查全率)及其综合评价指标F1值.对于一个关键词w, 精度p=B/A, 召回率R=B/C, 综合评价指标F1=2×P×R/(P+R), 其中, A表示所有自动标注了w的图像个数, B表示正确标注w的图像个数, 即这些图像的原始标注和自动标注都包含w, C表示原始标注中包含w的图像个数.计算精度和召回率的平均值可用来评价系统的标注性能.此外, 本文也考虑了召回率大于0的关键词个数, 这个值可以代表系统能够有效学习的关键词个数.

表 1给出了PCCA和SemiPCCA在Corel图像库的标注性能比较, 包括性能最佳的49个关键词的平均召回率和平均精度, 以及全部260个关键词的平均召回率和平均精度, 训练集分别选择Corel5k中的1 500幅、2 250幅和4 500幅标注图像.从表 1中数据可以看出, 随着标注图像的减少, PCCA标注图像的性能快速降低, 而SemiPCCA的性能却相对稳定, 并持续优于PCCA.

Table 1 Performance comparison of PCCA and SemiPCCA on Corel5k dataset 表 1 PCCA, SemiPCCA在Corel5k图像库上的图像自动标注性能比较

表 2给出了TM, CMRM, CRM, MBRM, PLSA-WORDS, GM-PLSA和本文提出的SemiPCCA的标注性能对比.为了与过去的模型进行比较, 训练集采用Corel5k中的4 500幅标注图像, 其中同样报告了两种标注结果:性能最佳的49个关键词的平均召回率和平均精度与全部260个关键词的平均召回率和平均精度.从表 2中数据可以看出, SemiPCCA的性能大幅度优于TM, CMRM, CRM和PLSA-WORDS, 也稍优于MBRM和GM-PLSA.

Table 2 Performance comparison of SemiPCCA and other automatic image annotation models on Corel5k dataset 表 2 SemiPCCA与其他模型在Corel5k图像库上的图像自动标注性能比较

4 总结

针对弱匹配多模态数据的相关性建模问题, 本文提出了一种全新的弱匹配概率典型相关性分析模型(SemiPCCA).不同于以往的弱匹配典型相关性分析模型, SemiPCCA完全基于概率典型相关性分析模型(PCCA), 关注于各模态内部的全局结构, 模型参数的估计受到了未匹配样本的影响, 而未匹配样本则揭示了各模态样本空间的全局结构.在人工弱匹配多模态数据集上的实验结果表明, SemiPCCA可以有效地解决传统CCA和PCCA在匹配样本不足的情况下出现的过拟合问题, 取得了很好的效果.接着, 本文提出了一种基于SemiPCCA的图像自动标注方法.该方法基于关联建模的思想, 同时使用标注图像及其关键词和未标注图像估计隐空间的分布, 学习视觉模态和文本模态之间的关联, 从而能够较好地对未知图像进行标注.在Corel数据集上进行的实验结果表明, SemiPCCA比几种典型的图像标注方法具有更高的标注精度和更好的检索效果.

致谢 在此, 我们向对本文工作予以支持和建议的老师和同学表示感谢, 并向对本文工作不足之处提出评审意见的老师表示衷心的感谢.
参考文献
[1] Zhang H, Wu F, Zhuang YT, Chen JX. Cross-Media retrieval method based on content correlations. Chinese Journal of Computers, 2008, 31(5): 820–826 (in Chinese with English abstract). http://www.cnki.com.cn/Article/CJFDTOTAL-JSJX200805012.htm
[2] Rasiwasia N, Pereira JC, Coviello E, Doyle G, Lanckriet GRG, Levy R, Vasconcelos N. A new approach to cross-modal multimedia retrieval. In:Proc. of the 18th ACM Int'l Conf. on Multimedia (MM 2010). New York:ACM, 2010. 251-260.[doi:10. 1145/1873951.1873987].
[3] Sun TK. Research on enhanced canonical correlation analysis with applications[Ph.D. Thesis]. Nanjing:Nanjing University of Aeronautics and Astronautics, 2006(in Chinese with English abstract).
[4] Andrew G, Arora R, Bilmes J, Livescu K. Deep canonical correlation analysis. In:Dasgupta S, McAllester D, eds. Proc. of the 30th Int'l Conf. on Machine Learning (ICML 2013). Atlanta:IMLS, 2013. 1247-1255.
[5] Sun TK, Chen SC, Yang JY, Shi PF. A novel method of combined feature extraction for recognition. In:Proc. of the 8th IEEE Int'l Conf. on Data Mining (ICDM 2008). Los Alamitos:IEEE Press, 2008. 1043-1048.[doi:10.1109/ICDM.2008.28].
[6] Shin YJ, Park CH. Analysis of correlation based dimension reduction methods. Int'l Journal of Applied Mathematics and Computer Science, 2011, 21(3): 549–558 . [doi:10.2478/v10006-011-0043-9]
[7] Kursun O, Alpaydin E, Favorov OV. Canonical correlation analysis using within-class coupling. Pattern Recognition Letters, 2011, 32(2): 134–144 . [doi:10.1016/j.patrec.2010.09.025]
[8] Zhou XD, Chen XH, Chen SC. Combined-Feature-Discriminability enhanced canonical correlation analysis. Pattern Recognition and Aitificial Intelligence, 2012, 25(2): 285–291 (in Chinese with English abstract). http://www.cnki.com.cn/Article/CJFDTOTAL-MSSB201202016.htm
[9] Peng Y, Zhang DQ. Semi-Supervised canonical correlation analysis algorithm. Ruan Jian Xue Bao/Journal of Software, 2008, 19(11): 2822–2832 (in Chinese with English abstract). http://www.jos.org.cn/ch/reader/view_abstract.aspx?file_no=20081105&flag=1 [doi:10.3724/SP.J.1001.2008.02822]
[10] Kursun O, Alpaydin E. Canonical correlation analysis for multiview semi-supervised feature extraction. In:Rutkowski L, Scherer R, Tadeusiewicz R, Zadeh L, Zurada JM, eds. Proc. of the 10th Int'l Conf. on Artificial Intelligence and Soft Computing (ICAISC 2010). Heidelberg:Springer-Verlag, 2010. 430-436.[doi:10.1007/978-3-642-13208-7_54].
[11] Chen XH, Chen SC, Xue H, Zhou XD. A unified dimensionality reduction framework for semi-paired and semi-supervised multi-view data. Pattern Recognition, 2012, 45(5): 2005–2018 . [doi:10.1016/j.patcog.2011.11.008]
[12] Bach FR, Jordan MI. A probability interpretation of canonical correlation analysis. Technical Report, 688, Berkeley:Department of Statistics, University of California, Berkeley, 2005.
[13] Leen G, Fyfe C. A Gaussian process latent variable model formulation of canonical correlation analysis. In:Proc. of the 14th European Symp. on Artificial Neural Networks (ESANN 2006). 2006. 413-418.
[14] Zhang B, Hao J, Ma G, Yue JP, Zhang JH, Shi ZZ. Mixture of probabilistic canonical correlation analysis. Journal of Computer Research and Development, 2015, 52(7): 1463–1476 (in Chinese with English abstract). http://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201507001.htm
[15] Klami A, Kaski S. Local dependent components. In:Proc. of the 24th Int'l Conf. on Machine Learning (ICML 2007). New York:ACM, 2007. 425-432.[doi:10.1145/1273496.1273550].
[16] Wang C. Variational Bayesian approach to canonical correlation analysis. IEEE Trans. on Neural Networks, 2007, 18(3): 905–910 . [doi:10.1109/TNN.2007.891186]
[17] Viinikanoja J, Klami A, Kaski S. Variational Bayesian mixture of robust CCA models. In:Proc. of the 2010 European Conf. on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML PKDD 2010). Heidelberg:Springer-Verlag, 2010. 370-385.[doi:10.1007/978-3-642-15939-8_24].
[18] Archambeau C, Bach FR. Sparse probabilistic projections. In:Advances in Neural Information Processing Systems 21(NIPS 2008). Vancouver:MIT Press, 2009. 73-80.
[19] Klami A, Virtanen S, Kaski S. Bayesian exponential family projections for coupled data sources. In:Proc. of the 26th Conf. on Uncertainty in Artificial Intelligence (UAI 2010). Corvallis:AUAI Press, 2010. 286-293.
[20] Virtanen S, Klami A, Kaski S. Bayesian CCA via group sparsity. In:Proc. of the 28th Int'l Conf. on Machine Learning (ICML 2011). Bellevue:IMLS, 2011. 457-464.
[21] Virtanen S, Klami A, Khan S, Kaski S. Bayesian group factor analysis. In:Proc. of the 15th Int'l Conf. on Artificial Intelligence and Statistics (AISTATS 2012). La Palma:JMLR, 2012. 1269-1277.
[22] Blaschko M, Lampert C, Gretton A. Semi-Supervised Laplacian regularization of kernel canonical correlation analysis. In:Proc. of the 2008 European Conf. on Machine Learning and Knowledge Discovery in Databases (ECML PKDD 2008). Heidelberg:Springer-Verlag, 2008. 133-145.[doi:10.1007/978-3-540-87479-9_27].
[23] Belkin M, Niyogi P, Sindhwani V. Manifold regularization:A geometric framework for learning from labeled and unlabeled examples. Journal of Machine Learning Research, 2006, 7: 2399–2434 . http://www.doc88.com/p-982701740747.html
[24] Kimura A, Kameoka H, Sugiyama M, Nakano T. SemiCCA:Efficient semi-supervised learning of canonical correlations. In:Proc. of the 20th Int'l Conf. on Pattern Recognition (ICPR 2010). Los Alamitos:IEEE Press, 2010. 2933-2936.[doi:10.1109/ICPR.2010.719].
[25] Gu JJ, Chen SC, Sun TK. Localization with incompletely paired data in complex wireless sensor network. IEEE Trans. on Wireless Communications, 2011, 10(9):2841-2849.[doi:10.1109/TWC.2011.070511.100270].
[26] Zhou XD, Chen XH, Chen SC. Neighborhood correlation analysis for semi-paired two-view data. Neural Process Letter, 2013, 37(3): 335–354 . [doi:10.1007/s11063-012-9251-z]
[27] Li ZX. Research on semantic image annotation and retrieval[Ph.D. Thesis]. Beijing:Graduate University, The Chinese Academy of Sciences, 2010(in Chinese with English abstract).
[28] Carneiro G, Chan AB, Moreno PJ, Vasconcelos N. Supervised learning of semantic classes for image annotation and retrieval. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2007, 29(3): 394–410 . [doi:10.1109/TPAMI.2007.61]
[29] Cusano C, Ciocca G, Schettini R. Image annotation using SVM. In:Proc. of the SPIE, Vol.5304. San Jose:SPIE, 2003. 330-338.[doi:10.1117/12.526746].
[30] Duygulu P, Barnard K, de Freitas JFG, Forsyth D. Object recognition as machine translation:Learning a lexicon for a fixed image vocabulary. In:Proc. of the 7th European Conf. on Computer Vision (ECCV 2002). Heidelberg:Springer-Verlag, 2002. 97-112.[doi:10.1007/3-540-47979-1_7].
[31] Jeon J, Lavrenko V, Manmatha R. Automatic image annotation and retrieval using cross-media relevance models. In:Proc. of the 26th Annual Int'l ACM SIGIR Conf. on Research and Development in Information Retrieval (SIGIR 2003). New York:ACM, 2003. 119-126.[doi:10.1145/860435.860459].
[32] Lavrenko V, Manmatha R, Jeon J. A model for learning the semantics of pictures. In:Advances in Neural Information Processing Systems 16(NIPS 2003). Vancouver, Whistler:MIT Press, 2003. 553-560.
[33] Feng SL, Manmatha R, Lavrenko V. Multiple Bernoulli relevance models for image and video annotation. In:Proc. of the 2004 IEEE Computer Society Conf. on Computer Vision and Pattern Recognition (CVPR 2004). Los Alamitos:IEEE Press, 2004. 1002-1009.[doi:10.1109/CVPR.2004.1315274].
[34] Blei DM, Jordan MI. Modeling annotated data. In:Proc. of the 26th Annual Int'l ACM SIGIR Conf. on Research and Development in Information Retrieval (SIGIR 2003). New York:ACM, 2003. 127-134.[doi:10.1145/860435.860460].
[35] Monay F, Gatica-Perez D. Modeling semantic aspects for cross-media image indexing. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2007, 29(10): 1802–1817 . [doi:10.1109/TPAMI.2007.1097]
[36] Li ZX, Shi ZP, Liu X, Li ZQ, Shi ZZ. Fusing semantic aspects for image annotation and retrieval. Journal of Visual Communication and Image Representation, 2010, 21(8): 798–805 . [doi:10.1016/j.jvcir.2010.06.004]
[37] Li ZX, Shi ZP, Liu X, Shi ZZ. Modeling continuous visual features for semantic image annotation and retrieval. Pattern Recognition Letters, 2011, 32(3): 516–523 . [doi:10.1016/j.patrec.2010.11.015]
[38] Li ZX, Shi ZP, Liu X, Shi ZZ. Semantic image annotation by modeling continuous visual features. Journal of Computer-Aided Design & Computer Graphics, 2010, 22(8): 1412–1420 (in Chinese with English abstract). http://www.cnki.com.cn/Article/CJFDTOTAL-JSJF201008026.htm
[39] Harada T, Nakayama H, Kuniyoshi Y. Image annotation and retrieval based on efficient learning of contextual latent space. In:Proc. of the 2009 IEEE Int'l Conf. on Multimedia and Expo (ICME 2009). Los Alamitos:IEEE Press, 2009. 858-861.[doi:10.1109/ICME.2009.5202630].
[40] Nakayama H, Harada T, Kuniyoshi Y. Canonical contextual distance for large-scale image annotation and retrieval. In:Proc. of the 1st ACM Workshop on Large-Scale Multimedia Retrieval and Mining (LS-MMRM 2009). New York:ACM, 2009. 3-10.[doi:10.1145/1631058.1631062].
[41] Nakayama H, Harada T, Kuniyoshi Y. Evaluation of dimensionality reduction methods for image auto-annotation. In:Proc. of the 21st British Machine Vision Conf. (BMVC 2010). British Machine Vision Association (BMVA), 2010. 1-12.[doi:10.5244/C.24.94].
[42] Nakayama H, Harada T, Kuniyoshi Y, Otsu N. High-Performance image annotation and retrieval for weakly labeled images using latent space learning. In:Proc. of the 9th Pacific Rim Conf. on Multimedia (PCM 2008). Heidelberg:Springer-Verlag, 2008. 601-610.[doi:10.1007/978-3-540-89796-5_62].
[1] 张鸿, 吴飞, 庄越挺, 陈建勋. 一种基于内容相关性的跨媒体检索方法. 计算机学报, 2008 , 31(5) : 820 –826. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJX200805012.htm
[3] 孙廷凯.增强型典型相关分析研究与应用[博士学位论文].南京:南京航空航天大学, 2006.
[8] 周旭东, 陈晓红, 陈松灿. 增强组合特征判别性的典型相关分析. 模式识别与人工智能, 2012 , 25(2) : 285 –291. http://www.cnki.com.cn/Article/CJFDTOTAL-MSSB201202016.htm
[9] 彭岩, 张道强. 半监督典型相关分析算法. 软件学报, 2008 , 19(11) : 2822 –2832. http://www.jos.org.cn/ch/reader/view_abstract.aspx?file_no=20081105&flag=1 [doi:10.3724/SP.J.1001.2008.02822]
[14] 张博, 郝杰, 马刚, 岳金朋, 张建华, 史忠植. 混合概率典型相关性分析. 计算机研究与发展, 2015 , 52(7) : 1463 –1476. http://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201507001.htm
[27] 李志欣.图像语义标注和检索的研究[博士学位论文].北京:中国科学院研究生院, 2010.
[38] 李志欣, 施智平, 刘曦, 史忠植. 建模连续视觉特征的图像语义标注方法. 计算机辅助设计与图形学学报, 2010 , 22(8) : 1412 –1420. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJF201008026.htm