软件学报  2018, Vol. 29 Issue (4): 945-956   PDF    
多视角数据缺失补全
杨旭1,2, 朱振峰1,2, 徐美香1,2, 张幸幸1,2     
1. 北京交通大学 计算机科学与信息技术学院, 北京 100044;
2. 现代信息科学与网络技术北京市重点实验室(北京交通大学), 北京 100044
摘要: 随着信息技术的快速发展,现实生活中不断涌现出大量的多视角数据,由此应运而生的多视角学习已成为机器学习领域的研究热点.然而,在数据获取过程中,由于收集的难度、高额成本或设备故障等问题,往往导致收集到的多视角数据出现视角缺失,这使得一些多视角学习方法无法有效进行.为此,提出一种基于视角相容性的多视角数据缺失补全方法.通过监督的共享子空间学习,获得与每类多视角数据相对应的共享子空间,从而建立视角相容性判别模型.与此同时,基于共享子空间重构误差等同分布的假设,提出了针对视角缺失的多视角数据的共享表征获取方法,实现多视角缺失数据的预补全.在此基础上,进一步通过多元线性回归实现缺失视角的精确补全.此外,还把所提出的视角补全方法拓展到解决含有噪声的多视角数据的降噪问题.在UCI、COIL-20以及人工合成数据集上的实验结果验证了所提算法的有效性.
关键词: 多视角学习     缺失数据补全     共享子空间学习     视角相容性     跨媒体计算    
Missing View Completion for Multi-View Data
YANG Xu1,2, ZHU Zhen-Feng1,2, XU Mei-Xiang1,2, ZHANG Xing-Xing1,2     
1. School of Computer Science and Information Technology, Beijing Jiaotong University, Beijing 100044, China;
2. Beijing Key Laboratory of Advanced Information Science and Network Technology(Beijing Jiaotong University), Beijing 100044, China
Foundation item: National Natural Science Foundation of China (61572068, 61532005); Fundamental Research Funds for the Central Universities (2015JBM039)
Abstract: With the rapid development of information technology, massive amounts of multi-view data are constantly emerging in people's daily life. To cope with such situation, multi-view learning has received much attention in the field of machine learning to promote the ability of data understanding. However, due to the difficulties such as high cost and equipment failure in multi-view data collection, part or all of observed values from one view can't be available, which prevents some traditional multi-view learning algorithms from working effectively as expected. This paper focuses on the missing view completion for multi-view data and proposes a view compatibility based completion method. For each class of multi-view data, a corresponding shared subspace is built by means of supervised learning. With the multiple shared subspaces, a view compatibility discrimination model is developed. Meanwhile, assuming that the reconstruction error of each of view of multi-view data in the shared subspace takes the independent identical distribution, an approach is put forward to seek the shared representation of multi-view data with missing view. Thus, the preliminary completion of missing view can be performed. In addition, the multiple linear regression technique is implemented to obtain a more accurate completion. Furthermore, the proposed missing view completion method is enhanced to deal with the case of the denoising of noise-polluted multi-view data. The experimental results on some datasets including UCI and Coil-20 have demonstrated the effectiveness of the proposed missing view completion method for multi-view data.
Key words: multi-view-learning     missing data completion     shared subspace learning     view compability     cross-media computing    

随着信息技术的迅猛发展, 数据的产生和收集呈现出多态性、多描述性和多源性的特点, 这些数据统称为多视角数据[1].例如:来自网页的消息, 既可以由文本信息描述, 也可由视频、音频、图片等信息加以描述; 而在医学诊疗过程中, 可以利用核磁共振(MRI)、正电子成像技术(PET)或其他生物标记(如CSF)对阿兹海默病(Alzheimer)进行综合诊断、对数字图像利用不同技术手段提取多种特征等等.研究如何合理地利用针对同一对象广泛存在的多个视角信息, 实现对由多视角所刻画的对象的深度分析与理解, 已成为当前机器学习领域的研究热点[1-4].这类以面向多视角数据为研究对象的机器学习方法目前已被普遍接受为一种新的学习方式, 即多视角学习(multi-view-learning, 简称MVL).

然而, 在现实环境中, 由于数据收集的困难性、高额成本或设备故障等, 使得收集到的多视角数据中的某一视角的部分或全部属性出现缺失.多视角数据的缺失使得对由多视角所刻画的对象进行深度分析与理解变得更加困难[5].而在一些现实问题中, 则会造成对未来的天气情况无法精确预测、病人的病情无法精确诊断等.如图 1所示, 在天气预报中, 往往需要对连续收集到的某一地区不同地理位置气象观测数据进行融合, 以提高对该地区天气变化预测的可靠性.然而, 由于受到台风或设备故障的影响, 导致某一地理位置气象观测系统上的传感器在某些时刻非正常工作, 从而导致如气压、温度等部分数据缺失.在现实的生物医学诊断中(如阿兹海默病), 也经常面临着数据缺失问题.图 1中, ◇表示地理位置2在n+1时刻由于气温计等非正常工作, 导致温度等特征数据缺失.图 2为一些针对阿兹海默病的诊断方法.其中, 脑脊液(CSF)会对病人产生某种不利影响或攻击性, 使得病人往往拒绝该项检查, 造成对病人某一项诊断数据的完全缺失.图 2中, ◇表示第n+1个病人的CSF诊断数据全部缺失.

Fig. 1 Illustration of the observed data from different geographic positions 图 1 不同地理位置的气象观测数据示意图

Fig. 2 Illustration of different diagnoses on Alzheimer's disease patients 图 2 阿兹海默病病人的不同诊断技术图

多视角数据的缺失使得以面向多视角数据为研究对象的多视角学习方法无法有效进行, 如典型相关性分析(canonical correlation analysis, 简称CCA)[6]、协同训练(co-training)[7]、多核学习(multiple kernel learning, 简称MKL)[8]等均要求来自不同视角数据的描述能够完整呈现.数据缺失使得这些多视角学习方法无法有效进行.针对多视角数据缺失问题, 直观的方法是丢弃有视角数据缺失的样本, 这将使得学习过程中可用于训练的样本数量减少, 从而会导致泛化性能的降低.如何有效地补全缺失数据, 提升对基于多视角描述所刻画的对象的深度分析与理解是目前多视角数据分析方面值得研究的课题.

近年来, 补全缺失数据的方法主要针对单视角缺失数据[9, 10], 如矩阵填充[11, 12], 假设待填充矩阵是低秩矩阵, 对于一个秩为r的矩阵, 至少需要采样数大于2nrr2个观测值, 才有可能恢复出这个矩阵.期望极大化(expectation maximization, 简称EM)算法[13]假设缺失特征与非缺失特征之间存在依赖关系, 利用这种依赖关系对缺失特征进行迭代估计, 进行补全.但收敛速度慢、效率低是该方法的主要问题.

相比于单视角数据缺失补全, 针对多视角数据缺失补全的研究并未引起广泛的关注.对于该问题, 一种方式是可直接利用现有的矩阵补全方法直接对每一视角构成的缺失数据矩阵进行补全, 但是, 由于此类方法并没有充分利用异构的多视角间的语义互补性, 使得补全性能难以令人满意.另外一种直观的方法是可利用多视角数据视角间的近邻关系的传递性, 通过使用简单的"近邻"法实现缺失数据补全, 但是, 由于没有充分利用多视角数据间各自所蕴含信息的互补性, 同时, 近邻关系传递性在异构的多视角间很难得到满足, 使得补全后的数据与真实值有较大偏差.通过利用多视角间的相关性, Van de Velden等人提出了基于广义典型相关性分析的缺失数据补全方法(generalized canonical correlation analysis with missing values)[14], 通过迭代恢复多视角缺失数据的共享表征, 但其并未实现视角缺失数据的补全.最近, Li等人提出了基于深度学习的图像数据补全方法(deep learning based imaging data completion, 简称DLIDC)[15].由于DLIDC采用卷积神经网络方法实现缺失数据的补全, 因而需要大量样本数据训练网络, 而对于小样本数据则易出现过拟合现象.

多视角数据的存在, 体现了对同一语义对象的不同描述方式.挖掘多视角数据间的相容互补性, 有利于提升对多视角涵盖的语义对象的理解与分析.针对多视角数据的缺失问题, 本文提出了一种基于视角间相容性的多视角缺失数据补全方法.通过监督的共享子空间学习, 获得与每类多视角数据相对应的共享子空间, 从而建立视角相容性判别模型.与此同时, 基于共享子空间重构误差等同分布的假设, 提出了针对视角缺失的多视角数据的共享表征获取方法, 实现多视角缺失数据的预补全.在此基础上, 进一步通过多元线性回归实现精确补全.

本文第1节简要介绍所提出的基于视角相容性的多视角缺失数据补全框架.第2节介绍针对多视角数据的视角相容性判决模型, 并在此基础上实现缺失视角的预补全.第3节介绍通过多元线性回归实现缺失视角的精确补全.第4节阐述如何把所提出的缺失视角补全方法拓展到解决含有噪声的多视角数据的降噪.第5节给出实验结果与分析.最后给出本文结论.

1 基于视角相容性的多视角缺失数据补全框架 1.1 符号说明

为便于阐述, 首先对一些符号进行说明.令$ \left\{ {x, y|x \in {R^{s \times 1}}, y \in {R^{t \times 1}}} \right\} $表示来自视角X与视角Y的多视角数据(不失一般性, 本文只考虑两个视角); $ X = \left[{{X_1}, {X_2}, ..., {X_C}} \right] \in {R^{s \times n}} $$ Y = \left[{{Y_1}, {Y_2}, ..., {Y_C}} \right] \in {R^{t \times n}} $表示具有C类的多视角数据集合, 其中, $ {X_i} = \left[{x_i^{(1)}, x_i^{(2)}, ..., x_i^{({n_i})}} \right] \in {R^{s \times {n_i}}} $$ {Y_i} = \left[{y_i^{(1)}, y_i^{(2)}, ..., y_i^{({n_i})}} \right] \in {R^{t \times {n_i}}} $表示第i类多视角数据, $ i = 1, 2, ..., C $, ni表示第i类多视角数据的样本数目.假设{xc, y}是一个视角缺失的多视角数据, 令其视角y完整, xc为对应的来自X视角的完整数据.不失一般性, 对于xc采用如下表示方式:

$ {x^c} = {x^a} + {x^m} $ (1)

式中, $ {x^a} = {\left[{{{\left( {{x^c}\left[{1:l} \right]} \right)}^T}, \overbrace {0, ..., 0}^{s -l}} \right]^T} \in {R^{s \times 1}} $$ {x^m} = {\left[{\overbrace {0, ..., 0}^l, \left( {{x^c}{{\left[{l + 1:s} \right]}^T}} \right)} \right]^T} \in {R^{s \times 1}} $分别表示xc的未缺失与缺失部分; 不难看出, 当l=0时, 则表示视角xc完全缺失.这里, 缺失视角数据补全的目的是通过视角间的相关性获得xm的近似$ {\hat x^m} $.

1.2 算法框架

图 3所示为本文提出的基于视角相容性的多视角缺失数据补全框架图.其主要由两部分组成:(1)离线的多视角相容性判决模型学习; (2)在线多视角缺失数据回归补全.

Fig. 3 Multi-View missing data completion framework based on view compatibility 图 3 基于视角相容性的多视角缺失数据补全框架图

离线多视角相容性判决模型学习.针对每类多视角训练样本Xi$ {Y_i}, i = 1, ..., C $, 分别通过共享子空间学习, 获得多视角数据的共享表征Ui以及相应视角的载入矩阵(loading matrix)AiBi.在此基础上, 通过所构建的多个共享子空间, 建立基于视角相容性判决模型(详见第2节).

在线多视角缺失数据补全.针对多视角缺失数据$ \left\{ {{x^a}, y} \right\} $基于上述离线所建立的视角相容性判决模型, 获取其共享表征$ {\hat u^c} $并实现多视角缺失数据的预补全.在此基础上, 进一步通过多元线性回归实现缺失视角的精确补全(详见第4节).

2 视角相容性判决模型 2.1 基于MORP的共享子空间学习

如上所述, 在离线多视角相容性判决模型学习中, 需利用共享子空间方法建立多视角数据视角间的关联并获得共享表征.为此, 在本文中, 采用多输出正则投影(multi-output regularized feature projection, 简称MORP)[16]方法建立视角间的关联, 将多视角数据映射到共享子空间, 以此获得相应多视角数据的共享表征.MORP的基本原理是通过因子分解将X视角数据和Y视角数据映射到共享子空间, 其优化模型为

$ \left. \begin{array}{l} \mathop {\min }\limits_{A, B, U} f(A, B, U|X, Y) = (1 - \beta )\left\| {{X^T} - U \cdot A} \right\|_F^2 + \beta \left\| {{Y^T} - U \cdot B} \right\|_F^2\\ {\rm{s}}{\rm{.t}}.{\rm{ }}{U^T} \cdot U = I \end{array} \right\} $ (2)

其中, $ A \in {R^{p \times s}} $$ B \in {R^{p \times t}} $分别是视角X和视角Y的载入矩阵, $ U \in {R^{n \times p}} $为在由载入矩阵{A, B}所确定的p维共享子空间中的共享表征, $ \beta (0 < \beta < 1) $为权重系数.

针对在线多视角数据$ \left\{ {{x^c}, y} \right\} $, MORP模型并没有给出获取其共享表征的有效求解方法.一般情况下, 需要重新求解式(2), 当n较大时, 其计算复杂度将非常高.为此, 在我们先前的工作中提出了一种高效的在线样本扩展方法[17].设A, B为训练样本经过MORP共享子空间学习获得的相应视角载入矩阵, 则对于在线的多视角数据$ \left\{ {{x^c}, y} \right\} $, 其在共享子空间的共享表征uc可通过下式给出:

$ \mathop {\min }\limits_{{u^c}} f({u^c}\left| {A, B} \right., {x^c}, y) = \left( {1 - \beta } \right)\left\| {{{\left( {{x^c}} \right)}^T} - {u^c} \cdot A} \right\|_F^2 + \beta \left\| {{y^T} - {u^c} \cdot B} \right\|_F^2{\rm{ }} $ (3)

从而有:

$ {u^c} = \left[{(1-\beta ){{\left( {{x^c}} \right)}^T} \cdot {A^T} + \beta {y^T} \cdot {B^T}} \right] \cdot {\left[{(1-\beta )A \cdot A_{}^T + \beta B \cdot B_{}^T} \right]^{ - 1}} $ (4)
2.2 视角相容性

对于多视角数据$ \left\{ {{x^c}, y} \right\} $, 由公式(4)求得的其在共享子空间的共享表征uc实际上是对多视角间共享信息的表达.而由共享表征uc所反映的共享子空间的重构误差来反映信息的共享程度, 本文称其为"视角相容性".

为对视角相容性给出定量评价, 可利用公式(3)中基于共享子空间的多视角总体重构误差函数f(uc|A, B, xc, y)作为相容性判据.重构误差值越小, 表明多视角描述间的相容性越强.与此同时, 在具有类标签信息的监督学习情况下, 来自不同类的样本在由某载入矩阵{A, B}所确定的共享子空间中的相容性将存在很大差异.特别地, 对于由第i类样本{Xi, Yi}所构成的共享子空间, 我们将有如下直观的观察:

$ {f_i}{(u_i^c\left| {{A_i}, {B_i}} \right., x_{}^c, y)_{\{ {x^c}, y\} \in \{ {X_i}, {Y_i}\} }} < {f_i}{(u_i^c\left| {{A_i}, {B_i}} \right., x_{}^c, y)_{\{ {x^c}, y\} \notin \{ {X_i}, {Y_i}\} }}. $

为此, 基于相容性判据f(uc|A, B, xc, y), 可获得多视角数据$ \left\{ {{x^c}, y} \right\} $的类属判别输出:

$ z = \mathop {\arg \min }\limits_{j \in \left\{ {1, ..., C} \right\}} {f_j}\left( {u_j^c|{A_j}, {B_j}, {x^c}, y} \right) $ (5)
2.3 视角缺失的多视角相容性判据

针对多视角数据, 公式(5)给出了基于视角相容性的类判决模型.然而, 对于具有视角缺失的多视角数据$ \left\{ {{x^c}, y} \right\} $, 公式(5)将不再适用.引入矩阵$ A_{}^a = \left[{A\left[{:, 1:l} \right], \overbrace {0, ...., 0}^{s -l}} \right] \in {R^{p \times s}} $$ {A^m} = \left[{\overbrace {0, ..., 0}^l, A\left[{:, l + 1:s} \right]} \right] \in {R^{p \times s}} $, 其中, 0=[0, 0, …, 0]TRp×1为全零向量, 则公式(3)中的相容性判据f(uc|A, B, xc, y)将变为

$ f({u^c}\left| {A, B, {x^c}, y} \right.) = \left( {1 - \beta } \right)\left\| {{{\left( {x_{}^a + x_{}^m} \right)}^T} - {u^c} \cdot \left( {A_{}^a + A_{}^m} \right)} \right\|_F^2 + \beta \left\| {{y^T} - {u^c} \cdot B} \right\|_F^2. $

通过简单的变换可得:

$ f({u^c}\left| {A, B, {x^c}, y} \right.){\rm{ = }}(1 - \beta )\left\| {{{\left( {x_{}^a} \right)}^T} - {u^c} \cdot A_{}^a} \right\|_F^2 + (1 - \beta )\left\| {{{\left( {x_{}^m} \right)}^T} - {u^c} \cdot A_{}^m} \right\|_F^2 + \beta \left\| {{y^T} - {u^c} \cdot B} \right\|_F^2 $ (6)

此时, 由于xm未知, 故无法通过最小化公式(6)获得与$ \left\{ {{x^c}, y} \right\} $对应的共享表征uc, 进而无法利用公式(6)作为多视角的相容性判据.

对于多视角数据, 假设来自每一视角局部邻域范围内的数据在共享子空间中基于共享表征的重构误差服从高斯分布, 即当用$ {e_{{x^c}}} = {\left( {{x^c}} \right)^T} - {u^c} \cdot A $$ {e_y}{\rm{ = }}{y^T} - {u^c} \cdot B $分别表示在共享子空间中基于共享表证ucxy进行重构的重构误差时, 即有$ e_{{x^c}}^{} \sim G({\bar e_{{x^c}}}, {\sigma _{{x^c}}}), e_y^{} \sim G({\bar e_y}, {\sigma _y}) $, 其中, $ {\bar e_{{x^c}}}, {\bar e_y} $分别表示X视角和Y视角重构误差的统计均值向量, $ {\sigma _{{x^c}}}, {\sigma _y} $分别表示X视角和Y视角重构误差的统计协方差.为此, 对于具有视角缺失的多视角数据$ \left\{ {{x^a}, y} \right\} $, 为获得视角相容性判据, 基于上述假设, 本文对公式(6)做出修正, 并有:

$ f({u^c}\left| {{e_{{x^a}}}, {e_y}, {{\bar e}_{{x^a}}}, {{\bar e}_y}} \right.){\rm{ = }}(1 - \beta )\left\| {{e_{{x^a}}} - {{\bar e}_{{x^a}}}} \right\|_F^2 + \beta \left\| {{e_y} - {{\bar e}_y}} \right\|_F^2 $ (7)

其中,

$ {e_{{x^a}}} = {\left( {{x^a}} \right)^T} - {u^c} \cdot {A^a}, $

$ {\bar e_{{x^a}}} = \frac{1}{k}\sum\limits_{j = 1}^k {{{\left( {\left[{{{\left( {x_{(j)}^c\left[{1:l} \right]} \right)}^T}{\rm{, }}\overbrace {0, ..., 0}^{s -l}} \right] - u_{\left( j \right)}^c \cdot {A^a}} \right)}_{x_{(j)}^c\left[{1:l} \right] \in {N_k}\left( {{x^c}\left[{1:l} \right]} \right)}}} $$ {\bar e_y} = \frac{1}{k}\sum\limits_{j = 1}^k {{{\left( {{{\left( {{y_{\left( j \right)}}} \right)}^T} - {u_{\left( j \right)}} \cdot B} \right)}_{{y_{\left( j \right)}} \in {N_k}\left( y \right)}}} $分别表示$ {x^c}\left[{1:l} \right] $yk个近邻在共享子空间基于共享表征进行重构的平均重构误差, Nk(·)表示k近邻集合.

对比公式(6)和公式(7), 我们不难发现, 由于存在视角缺失(即xm未知), 公式(6)中的第2项没有出现在公式(7)中.此外, 公式(7)利用了局部邻域样本在共享子空间中重构误差具有同分布的假设, 而非直接对重构误差最小化.这样有利于在视角缺失情况下, 获得共享表征的最佳逼近.

进一步地, 通过最小化公式(7)可得uc的逼近:

$ {\hat u^c} = \left[{(1-\beta )\left( {{{\left( {{x^a}} \right)}^T}-\bar e_{{x^a}}^{}} \right) \cdot {{\left( {A_{}^a} \right)}^T} + \beta \left( {{y^T}-\bar e_y^{}} \right) \cdot {B^T}} \right] \cdot {\left[{(1-\beta )A_{}^a \cdot {{\left( {A_{}^a} \right)}^T} + \beta B \cdot B_{}^T} \right]^{ - 1}} $ (8)

与此同时, 基于公式(7)和公式(8), 进一步可得:

$ {u^c} \cdot A = {u^c} \cdot {A^a} + {u^c} \cdot {A^m} \approx {\hat u^c} \cdot {A^a} + {\bar e_{{x^a}}} + {\hat u^c} \cdot {A^m} + {\bar e_{{x^m}}}{\rm{ = }}{\hat u^c} \cdot A + {\bar e_{{x^c}}} $ (9)

式中, $ {\bar e_{{x^c}}} = {\bar e_{{x^a}}} + {\bar e_{{x^m}}}, {\bar e_{{x^m}}} = \frac{1}{k}{\sum\limits_{j = 1}^k {\left( {\left[{\overbrace {0, ..., 0}^l{\rm{, }}{{\left( {x_{(j)}^c\left[{l + 1:s} \right]} \right)}^T}{\rm{ }}} \right] - u_{\left( j \right)}^c \cdot {A^m}} \right)} _{x_{\left( j \right)}^c\left[{l + 1:s} \right] \in {N_k}\left( {{x^c}\left[{l + 1:s} \right]} \right)}} $.

3 多元线性回归补全

如前所述, 由公式(2)确定的优化模型实际上是最小化两个视角数据在共享子空间的总体重构误差, 并由b平衡两个视角的重构误差.不难看出, 所获得的最优共享表征uc对于单一视角的重构并不是最优的.显然, 式(2)中的XTU·A仍呈一定的线性关系, 因此可进一步通过回归实现缺失视角的精确补全:

$ \mathop {\min }\limits_W g\left( W \right) = \left\| {{X^T} - \left[{U \cdot A{\rm{ }}{\bf{1}}} \right] \cdot W} \right\|_F^2 + \lambda \left\| W \right\|_F^2, $

其中, $ {\bf{1}} = {\left[{1, 1, ..., 1} \right]^T} \in {R^{{n_z} \times 1}} $为全1列向量, $ \lambda $为正则参数, $ W \in {R^{\left( {s + 1} \right) \times s}} $为回归系数, 则联合式(9)可进一步实现缺失数据的精确补全:

$ {\left( {{{\hat x}^m}} \right)^T} = \left[{{{\hat u}^c} \cdot A + {{\bar e}_{{x^c}}}{\rm{ }}1} \right] \cdot {W^m} $ (10)

其中, $ W_{}^m{\rm{ = }}\left[{\overbrace {{\bf{0}}, ..., {\bf{0}}}^l, W\left[{:, l + 1:s} \right]} \right] \in {R^{(s + 1) \times s}} $.

4 多视角噪声数据的降噪

对于多视角数据$ \left\{ {{x^c}, y} \right\} $在其采集过程中, 除了由于视角缺失问题以外, 噪声也是造成多视角数据低质的重要原因.而从某种意义上来说, 噪声数据也可看作是一种视角缺失的数据(即视角真实值的缺失).为此, 本文提出的视角缺失补全思想可扩展到解决含有噪声的多视角数据的降噪问题.假设多视角数据$ \left\{ {{x^c}, y} \right\} $xc为含有噪声的视角, 为实现对xc的去噪, 首先可根据公式(4)获得多视角噪声数据$ \left\{ {{x^c}, y} \right\} $的共享表征uc, 并可进一步直接利用回归方法获得降噪后的$ {\hat x^c} $:

$ {\left( {{{\hat x}^c}} \right)^T} = \left[{{u^c} \cdot A\;\;1} \right] \cdot W $ (11)
5 实验结果与分析 5.1 数据集说明及评价标准 5.1.1 数据集

A.UCI多特征手写体数据集[18].

该数据集包含0~9共10个数字的多特征数据集, 每类有200个样本, 对每个二值化手写体数字图像抽取出6个视角特征见表 1.

Table 1 UCI hand-written dataset with multiple features 表 1 UCI多特征手写数据集

B.COIL-20数据集[19].

该数据集共包括20个如图 4所示的物体.对于每个物体, 每隔5°进行拍照, 共获得72张图像.在本实验中, 每幅图像下采样至大小为64x64.为构造多视角数据集合, 对每个物体的72张图像, 以间隔30°为基准, 构造36对多视角数据集.如图 5所示, {0°, 30°}组成一组多视角数据对, 以此类推, 本文用COIL-20-30°表示该数据集.此外, 基于同样方法, 本文还另外构造了COIL-20-60°多视角数据集.

Fig. 4 COIL-20 dataset 图 4 COIL-20数据集

Fig. 5 COIL-20-30° multiview dataset 图 5 COIL-20-30°多视角数据集

C.人工合成数据集.

在上述数据集的基础上, 本文还在一个人工合成的多视角数据集上进行了验证.该数据集包括10类, 每类200个样本, 记为$ {\left\{ {{X_i}, {Y_i}} \right\}_{i = 1, ..., 10}} $, 并有$ X_i^T = {U^T} \cdot {A_i} + \delta + {\varepsilon _{i, x}}, Y_i^T = U_i^T \cdot {B_i} + \eta + {\varepsilon _{i, y}} $, 其中, $ {X_i} \in {R^{80 \times 200}}, {Y_i} \in {R^{100 \times 200}}, {U_i} \in {R^{50 \times 200}} $为由随机函数生成的潜在共享表征矩阵. $ {A_i} \in {R^{50 \times 80}}, {B^i} \in {R^{50 \times 100}} $为随机生成的载入矩阵, δ, η为数据分布偏移常量矩阵, $ {\varepsilon _{i, x}} \to G(0, {I_\varepsilon }), {\varepsilon _{i, y}} \to G(0, {I_\varepsilon }) $为随机扰动矩阵.重复上述过程, 本文构造了5组人工合成的多视角数据集, 以此验证本文算法的鲁棒性.

5.1.2 评价标准

本文采用标准化均方根误差NRMSE[20, 21]作为补全数据的评价标准:

$ NRMSE = \sqrt {\frac{{\sum\limits_{d = 1}^N {\frac{{{{\left( {x[d] - \hat x[d]} \right)}^2}}}{{{{\left( {{x^{\max }}[d] - {x^{\min }}[d]} \right)}^2}}}} }}{N}} \times 100\%, $

其中, x[d]表示第d维变量的真实值, $ \hat x\left[d \right] $表示x[d]的估计值, xmax[d]、xmin[d]分别表示第d维变量的最大值和最小值, N为缺失属性的个数.此外, 本文针对图像数据还采用了峰值信噪比(PSNR)作为图像补全、图像降噪增强的客观评价标准.

5.2 实验结果分析 5.2.1 基于视角相容性的多视角数据类属判别

为了验证基于视角相容性的多视角数据类属判别性能, 本文选用UCI多特征手写数据集进行实验.针对该数据集, 任选两个视角数据集分别作为XY, 这样, 共有C62=15种组合方式.对于每种组合, 从每类样本中随机选择90%构成训练集, 其余10%作为测试样本.

图 6所示为组合(zer, kar)的视角相容性混淆矩阵C=[Ci, j]图中的Ci, j表示第j类测试样本在第i类共享子空间中的相容性平均值(×103), 即$ {C_{i, j}} = \sum\limits_j {{f_i}{{(u_i^c\left| {{A_i}, {B_i}} \right., x_{}^c, y)}_{\{ {x^c}, y\} \in \{ {X_j}, {Y_j}\} }}} $, 颜色越深, 表示相容性越强, 反之则越弱.不难看出, 基于视角相容性, 可以对多视角数据类属进行很好的判别.

Fig. 6 View compatibility based confusion matrix of group (zer, kar) 图 6 UCI多特征手写体数据集中组合(zer, kar)的视角相容性混淆矩阵C=[Ci, j]

在UCI多特征数据集上不同算法的分类性能比较见表 2.表 2中的X_knn、Y_knn、XY_knn分别表示基于X视角、Y视角以及X视角和Y视角的串联利用最近邻分类器的分类性能, U_knn为基于共享表征的最近邻分类性能, 而VCMC表示本文提出的基于视角相容性(view compatibility based multi-view classification, 简称VCMC)进行分类的分类性能, 每种算法的参数均由算法性能取得最优时的值来确定.从表中可以看出, 与其他方法相比, 本文提出的VCMC方法表现出了明显的优势.这也间接表明, 多视角数据间具有较强的共享信息, 利用视角相容性所构造的判据可以有效地提高分类性能.同时, 本文算法也克服了最近邻分类器的度量选取问题.

Table 2 Classification comparisons of different methods on UCI dataset 表 2 不同算法在UCI数据集上的分类性能对比

5.2.2 多视角缺失数据补全性能分析

为了验证基于视角相容性的多视角数据缺失补全性能, 本文分别在UCI多特征手写数据集、COIL-20数据集和人工合成数据集上进行了实验.

A.UCI数据集上的视角缺失补全性能分析.

为验证补全性能, 针对该数据集的每种组合, 测试样本的缺失视角缺失部分的比例分别设为(s-l)/s=20%, 40%.表 3给出了不同算法在缺失比例(s-l)/s=20%与(s-l)/s=40%下针对UCI数据的补全性能对比.表中的KNN表示利用多视角数据视角间的近邻关系的传递性, 通过使用简单的"近邻"样本均值实现补全的性能; LRC表示直接建立视角间属性回归(linear regression completion, 简称LRC)模型实现补全的性能.可以看出, 与其他算法相比, 本文算法具有更好的补全性能, 也表明利用共享子空间建立的视角相容性判别模型可显著提高视角缺失的补全性能.

Table 3 Performance comparisons of differnet completion methods on UCI dataset with (s-l)/s=20%, 40% 表 3 针对UCI数据集, 不同算法在(s-l)/s=20%, 40%下的补全性能对比(NRMSE)

B.COIL-20数据集上的视角缺失补全性能分析.

在COIL-20-30°及COIL-20-60°数据集上, 不同算法在缺失视角缺失部分的比例分别为(s-l)/s=20%, 60%的补全性能对比见表 4.通过本实验可进一步说明利用多视角数据间的相容互补性有助于视角缺失数据的补全.此外, 为从视觉上更为直观地观察视角缺失的补全效果, 图 7给出了本文算法和KNN在COIL-20-30°数据集上针对视角完全缺失((sl)/s=100%)情况下进行补全后的结果.图中的第1行为基准图像(即完全缺失的视角), 第2行与第3行分别为基于本文算法与KNN方法进行补全后的结果.

Table 4 Performance comparisons of different completion methods on COIL-20 dataset with (s-l)/s=20%, 60% 表 4 针对COIL-20数据集, 不同算法在(s-l)/s=20%, 60%下的补全性能对比(NRMSE)

Fig. 7 Performance comparisons of different completion methods on COIL-20-30° dataset with (s-l)/s=100% 图 7 对于COIL-20-30°数据集, 不同算法在(s-l)/s=100%情况下的补全性能的对比情况

C.人工数据集上的视角缺失补全性能分析.

为了验证本文算法的有效性, 本文还在人工合成的多视角数据集上进行了实验.在人工合成数据集上对于(s-l)/s=20%, 60%的情况, 不同算法的补全性能对比见表 5.通过在人工合成的数据集上进行实验, 充分验证了本文提出的补全算法的有效性.

Table 5 Performance comparisons of different completion methods on synthetic dataset with (s-l)/s=20%, 60% 表 5 针对人工合成数据, 不同算法在在(s-l)/s=20%, 60%下的补全性能比较(NRMSE)

从上述针对UCI数据集、COIL-20数据集以及人工合成数据集视角缺失补全的实验可以看出, 本文算法明显优于其他算法的补全性能.由于多视角数据间的异构性, 使得多视角数据间的k近邻不具有可逆性, 以及视角间不再存在简单的线性映射关系, 导致基于KNN和LRC补全方法的性能较差.这也表明, 本文算法引入共享子空间建立视角相容性判据是必要的.同时, 也间接表明, 本文算法更好地反映了多视角数据间具有较强的相容互补性.

5.2.3 含有噪声的多视角数据的去噪性能分析

为验证第4节中提出的基于视角缺失补全思想的含有噪声多视角数据的降噪性能, 本实验针对COIL-20-30°以及COIL-20-60°两个多视角数据集, 从每类样本中随机选择90%构成无噪声训练集用于训练由公式(3)给出的多视角相容性模型, 而剩余的10%作为测试集.此外, 对于测试集中的X视角数据(图像)添加幅度为0.02的高斯噪声, 以形成含有噪声的多视角数据.表 6给出了在COIL-20-30°以及COIL-20-60°两个多视角数据集上的降噪性能比较.从表中可以看出, 本文算法具有很好的去噪能力.

Table 6 PSNR (dB) based denoising performance comparisons of different completion methods on COIL-20 dataset 表 6 不同算法在COIL-20数据集上去噪性能对比PSNR(dB)

为观察噪声图像经过去噪后的视觉效果, 图 8给出了不同算法在COIL-20-30°数据集上的去噪性能对比情况.从图中可以直观地看出本文算法在图像增强方面的优势.在本实验中, 中值滤波、高斯滤波均是基于邻域像素值处理的去噪方法, 而本文算法通过利用视角间相容互补性更好地增强了图像质量.这也进一步表明, 多视角数据间的相容互补性有助于提高图像质量.

Fig. 8 De-Noising performance comparisons of different completion methods on COIL-20-30° dataset 图 8 不同算法在COIL-20-30°数据集上的去噪性能对比

6 结束语

针对多视角数据缺失问题, 本文提出一种基于视角相容性的补全方法, 该方法通过共享子空间的监督学习, 建立视角相容性判别模型.基于共享子空间重构误差等同分布假设, 提出了针对视角缺失的多视角数据的共享表征方法, 在此基础上, 通过进一步的多元线性回归, 实现多视角数据缺失的精确补全.

参考文献
[1]
Xu C, Tao D, Xu C. A survey on multi-view learning. arXiv:1304.5634v1, 2013. https://arxiv.org/abs/1304.5634
[2]
Sun S. A survey of multi-view machine learning. Neural Computing and Applications, 2013, 23(7-8): 2031–2038. [doi:10.1007/s00521-013-1362-6]
[3]
Huang QM, Chen XL. From multimedia to cross-media. Communications of China Computer Federation, 2014, 10(7): 6–7(in Chinese with English abstract).
[4]
Wei YC, Zhao Y, Lu CY, Wei SK, Liu LQ, Zhu ZF, Yan SC. Cross-Modal retrieval with CNN visual features:A new baseline. IEEE Trans. on Cybernetics, 2017, 47(2): 449–460. [doi:10.1109/TCYB.2016.2519449]
[5]
Zhu X. Editorial:Special issue on mining low-quality data. Knowledge and Information Systems, 2007, 11(2): 131–136. [doi:10.1007/s10115-006-0058-y]
[6]
Hardoon DR, Szedmak S, Shawe-Taylor J. Canonical correlation analysis:An overview with application to learning methods. Neural Computation, 2004, 16(12): 2639–2664. [doi:10.1162/0899766042321814]
[7]
Blum A, Mitchell T. Combining labeled and unlabeled data with co-training. In: Proc. of the 11th Annual Conf. on Computational Learning Theory. 1998. 92-100. [doi: 10.1145/279943.279962]
[8]
Lanckriet GRG, Cristianini N, Bartlett P. Learning the kernel matrix with semidefinite programming. Journal of Machine Learning Research, 2004, 5(1): 27–72. http://dl.acm.org/citation.cfm?id=1005334&dl=ACM&coll=DL
[9]
Little RJA, Rubin DB. Statistical Analysis with Missing Data. New York: John Wiley & Sons, 2014.
[10]
Ghahramani Z, Jordan MI. Learning from incomplete data. 1997. https://www.researchgate.net/publication/2353392_Learning_From_Incomplete_Data
[11]
Candès EJ, Recht B. Exact matrix completion via convex optimization. Foundations of Computational Mathematics, 2009, 9(6): 717–772. [doi:10.1007/s10208-009-9045-5]
[12]
Cai JF, Candès EJ, Shen Z. A singular value thresholding algorithm for matrix completion. SIAM Journal on Optimization, 2010, 20(4): 1956–1982. [doi:10.1137/080738970]
[13]
Dempster AP, Laird NM, Rubin DB. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society. Methodological (Series B), 1977, 39(1): 1–38. https://ci.nii.ac.jp/naid/10020992841
[14]
Van de Velden M, Takane Y. Generalized canonical correlationanalysis with missing values. Computational Statistics, 2012, 27(3): 551–571. [doi:10.1007/s00180-011-0276-y]
[15]
Li RJ, Zhang WL, Suk HI, Wang L, Shen DG, Ji SW. Deep Learning Based Imaging Data Completion for Improved Brain Disease Diagnosis. Springer Int'l Publishing, 2014: 305–312. [doi:10.1007/978-3-319-10443-0_39]
[16]
Yu SP, Yu K, Tresp V. Multi-Output regularized feature projection. IEEE Trans. on Knowledge and Data Engineering, 2006, 18(12): 1600–1613. [doi:10.1109/TKDE.2006.194]
[17]
Du LL, Zhu ZF, Duan HS. LSPSA:Local structure preserves shared-subspace analysis. Computer Science, 2014, 41(10): 67–71(in Chinese with English abstract). [doi:10.11896/j.issn.1002-137X.2014.10.015]
[18]
Xu L, Krzyzak A, Suen CY. Methods of combining multiple classifiers and their applications tohandwriting recognition. IEEE Trans. on Cybernetics, 1992, 22(3): 418–435. [doi:10.1109/21.155943]
[19]
Nene SA, Nayar SK, Murase H. Columbia object image library (COIL-20). Technical Report, CUCS-005-96, Columbia University, 1996. http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php
[20]
Troyanskaya O, Cantor M, Sherlock G, Brown P, Hastie T, Tibshiran R, Botstein D, Altman RB. Missing value estimation methods for DNA microarrays. Bioinformatics, 2001, 17(6): 520–525. [doi:10.1093/bioinformatics/17.6.520]
[21]
Oba S, Sato M, Takemasa I. A Bayesian missing valueestimation method for gene expression profile data. Bioinformatics, 2003, 19(16): 2088–2096. [doi:10.1093/bioinformatics/btg287]
[3]
黄庆明, 陈熙霖. 从多媒体到跨媒体. 计算机学会通讯, 2014, 10(7): 6–7.
[17]
杜琳琳, 朱振峰, 段红帅. LSPSA:基于局部结构保持的共享子空间分析. 计算机科学, 2014, 41(10): 67–71. [doi:10.11896/j.issn.1002-137X.2014.10.015]