软件学报  2019, Vol. 30 Issue (4): 1002-1014   PDF    
用于阿尔茨海默病诊断的权值分布特征学习
程波1, 丁毅2, 张道强2     
1. 重庆三峡学院 智能信息处理与控制重点实验室, 重庆 404020;
2. 南京航空航天大学 计算机科学与技术学院, 江苏 南京 210016
摘要: 针对当前基于机器学习的早期阿尔茨海默病(AD)诊断中有标记训练样本不足的问题,提出一种基于多模态特征数据的权值分布稀疏特征学习方法,并将其应用于早期阿尔茨海默病的诊断.具体来说,该诊断方法主要包括两大模块:基于权值分布的Lasso特征选择模型(WDL)和大间隔分布分类机模型(LDM).首先,为了获取多模态特征之间的数据分布信息,对传统Lasso模型进行改进,引入权值分布正则化项,从而构建出基于权值分布的Lasso特征选择模型;然后,为了有效地利用多模态特征之间的数据分布信息,以保持多模态特征之间的互补性,直接采用大间隔分布学习算法训练分类器.选取国际阿尔茨海默症数据库(ADNI)中202个多模态特征的被试者样本进行实验,分类AD最高平均精度为97.5%,分类轻度认知功能障碍(MCI)最高平均精度为83.1%,分类轻度认知功能障碍转化为AD(pMCI)最高平均精度为84.8%.实验结果表明,所提WDL特征学习方法可从串联的多模态特征学到性能更优的特征子集,并能根据权值分布获取多模态特征之间的数据分布信息,从而提高早期阿尔茨海默病诊断的性能.
关键词: 权值分布     多模态     阿尔茨海默病     稀疏特征学习     大间隔分布学习    
Feature Learning of Weight-distribution for Diagnosis of Alzheimer's Disease
CHENG Bo1, DING Yi2, ZHANG Dao-Qiang2     
1. Key Laboratory of Intelligent Information Processing and Control of Chongqing Municipal Institutions of Higher Education, Chongqing Three Gorges University, Chongqing 404020, China;
2. College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China
Foundation item: National Natural Science Foundation of China (61602072, 61422204, 61473149, 61732006, 61573023); Chongqing Cutting-edge and Applied Foundation Research Program (cstc2016jcyjA0063, cstc2018jcyjAX0502, cstc2014jcyjA40035, cstc2014jcyjA1316, cstc2016jcyjA0521); Scientific and Technological Research Program of Chongqing Municipal Education Commission (KJ1501014, KJ1601003, KJ1710248, KJ1401010, KJ1601015); Chongqing Municipal Key Laboratory of Institutions of Higher Education ([2017]3)
Abstract: In the field of medical imaging analysis using machine learning, the challenge is lack of training sample. In order to solve the problem, a weight-distribution based Lasso (Least absolute shrinkage and selection operator) feature learning model is proposed and applied to early diagnosis of Alzheimer's Disease (AD). Specifically, the proposed diagnosis method is consisted of two components:weight-distribution based Lasso feature selection (WDL) and large margin distribution machine (LDM) for classification. Firstly, in order to capture data distribution information among multimodal features, the WDL feature selection model was built, to improve on the conventional Lasso model via adding a regularization item of weight-distribution. Secondly, in order to achieve better generalization and accuracy on classification, and also to keep complementary information among multimodal features, the LDM algorithm is used for the training of the classifier. To evaluate the effectiveness of the proposed learning model, 202 subjects from the Alzheimer's Disease Neuroimaging Initiative (ADNI) database with multimodal features were employed. Experimental results on the ADNI database show that it can recognize AD from Normal Controls (NC) with 97.5% accuracy, recognize Mild Cognitive Impairment (MCI) from NC with 83.1% accuracy, and recognize progressive MCI (pMCI) patients from stable MCI (sMCI) ones with 84.8% accuracy, which demonstrate that it can significantly improve the performance of early AD diagnosis and achieve feature ranking in terms of discrimination via optimized weight vector.
Key words: weight-distribution     multimodal     Alzheimer's disease (AD)     sparse feature learning     large margin distribution learning    

阿尔茨海默病(Alzheimer’s disease, 简称AD), 又称为老年痴呆症, 是当前危害老年人健康的重要疾病之一.根据阿尔茨海默病的病理, 尽早发现并治疗能有效延缓疾病发展进程.在医学上, 通常将阿尔茨海默病的病程划分成3个阶段:首先是症状前AD, 然后发展为轻度认知功能障碍(mild cognitive impairment, 简称MCI), 最后逐步发展成AD.因此, 对早期阿尔茨海默病(MCI或者症状前AD阶段)做出诊断将十分有助于治疗或延缓AD的发展进程.近年来, 基于机器学习的脑图像分析方法与技术被越来越多地应用于早期阿尔茨海默病的诊断中[1-12].这些脑图像通常有结构磁共振成像(magnetic resonance imaging, 简称MRI)、正电子发射型计算机断层成像(positron emission tomography, 简称PET)等等.除了脑图像, 生物标志物检测对早期阿尔茨海默病的诊断也具有较高的灵敏度和特异性, 其中, 典型的生物标志物有脑脊液(cerebrospinal fluid, 简称CSF)中的生化标记物水平检测.研究认为, 综合使用脑图像与生物标志物能够有效提高早期阿尔茨海默病诊断的准确度与敏感度.所以, 越来越多的多模态机器学习方法被应用于早期阿尔茨海默病的诊断中[4, 5, 7, 9, 11-16].

在医学实践中, 收集大量脑图像来训练机器学习算法是一件费时且代价昂贵的任务.所以, 通常情况下只有少量训练样本可以使用, 但是, 为了获得较好的诊断性能, 很多研究采用了多模态脑图像与生物标志物来提高学习算法的性能[4, 5, 7, 9, 11, 12, 14, 16], 然而这样又增加了特征维数.面对高维小样本的多模态学习问题, 大量研究设计了特征选择来避免过学习[4, 5, 7, 9, 13].其中, 有一些研究采用稀疏学习来设计多模态特征选择模型.例如, Zhang等人[14]根据多模态脑图像与生物标志物特征之间对AD诊断具有互补性原理, 提出一种多模态多任务学习方法, 能从分类与回归学习任务中学习出共同的最优特征子集; Jie等人[4]提出一种半监督多模态稀疏学习方法, 可从标记和未标记的MRI与PET图像上学习出共同的最优特征子集; Zhu等人[9]提出一种基于矩阵相似性度量的多任务学习方法, 可同时从多模态多任务训练集中学习出最优特征子集.此外, Ye等人[13]提出一种基于Lasso (least absolute shrinkage and selection operator)模型的稳定特征选择算法, 可从串联的多模态脑图像与生物标志物上学习出稳定的最优特征子集.虽然以上研究都能获得判别性较好的特征子集, 并能完成较好的分类性能, 但是这些研究并未深入挖掘多模态特征之间的数据分布信息.

在当前基于神经图像的早期AD诊断中, 现存很多研究通过设计稀疏特征学习模型以获取最优特征子集, 其中有不少研究利用Lasso模型进行特征选择[4, 5, 10, 13, 14, 16], 其原理是根据Lasso模型优化学到的权值进行特征筛选, 大多数研究都是选择非零权值对应的特征, 而无法获取多模态特征之间的数据分布信息.由于传统Lasso模型只包含权值的L1范数正则化项, 而它通常用于选择那些能降低分类器泛化误差的特征, 无法获取多模态特征的数据分布信息.实际上, 针对分类问题, Lasso模型中的权值可以理解为调整特征贡献度的权重值, 若对传统Lasso模型进行改进, 便可获取特征的数据分布信息.此外, 一些研究认为, 多模态脑图像与生物标志物特征之间对AD的诊断具有互补性[4, 5, 7, 9, 11, 12, 14, 16].获取多模态特征的数据分布信息, 就是为了保持从多模态特征中选出的特征子集仍具有良好的互补性.

传统支持向量机(support vector machine, 简称SVM)以其优良的分类性能, 被广泛应用于基于神经图像的早期AD诊断中[12, 14, 16, 17], 其核心思想是最大化“最小间隔”, 以解决机器学习中“过学习”问题.然而现有一些研究表明, 相比于最小间隔, “间隔分布”能够更好地降低分类器的泛化误差[18-20].因此, 大间隔分布学习机(large margin distribution machine, 简称LDM)受此启发, 提出通过同时最大化间隔均值并最小化间隔方差来优化间隔分布.另一方面, Lasso模型中的“权值”与SVM中的“间隔”对学习器的泛化性能起着相似的作用.此外, 充分利用数据分布或变量分布先验信息能够有效提高学习算法的性能, 比如Geng提出的标记分布学习[21]能够解决除了单标记与多标记学习之外更多标记学习问题.因此, 为了保持多模态特征之间的互补性, 应充分利用多模态特征之间的分布信息.为了从多模态特征获得泛化性能更好的特征子集, 受大间隔分布学习[18-20]与标记分布学习[21]的共同启发, 对传统Lasso模型进行改进, 通过增加同时最小化权值均值并最大化权值方差来优化权值分布, 以获取多模态特征之间的分布信息, 提出了基于权值分布的Lasso特征选择模型(weight-distribution based Lasso, 简称WDL).

此外, 由于多模态脑图像与生物标志物特征之间对AD诊断具有互补性, 设计权值分布Lasso特征选择方法就是为了使选出的最优特征子集不但具有良好的泛化性与可分性, 还要尽量保持多模态特征之间的互补性.相比于支持向量机SVM, 大间隔分布学习机LDM能够利用样本数据分布的先验信息, 所以能够更有效地利用多模态特征之间的互补性.因此, LDM更适合基于多模态特征的早期AD诊断.综合以上研究动机, 本文提出了基于权值分布的稀疏特征学习框架, 由于该框架结合了WDL特征选择模型和LDM分类器, 因此将该分类学习模型表示为WDL-LDM.为了验证本文提出的学习框架用于早期阿尔茨海默病诊断的有效性, 采用国际老年痴呆症数据库(Alzheimer’s disease neuroimaging initiative, 简称ADNI)上的MRI、PET和CSF多模态特征数据, 并与一些相关方法进行比较.实验结果表明, WDL-LDM方法能够有效地提高分类性能.

1 方法概述

为了获得泛化性较好且分类精度较高的分类模型, 本文根据Lasso特征选择模型以及大间隔分布学习模型, 提出了基于权值分布稀疏特征学习的早期阿尔茨海默病诊断框架.图 1给出了该学习框架用于早期阿尔茨海默病诊断流程图.具体来说, 使用该学习框架进行早期阿尔茨海默病诊断包括以下3个步骤.

Fig. 1 The system diagram of weight-distribution based sparse feature learning framework for early diagnosis of AD 图 1 基于权值分布稀疏特征学习的早期阿尔茨海默病诊断框架示意图

(1) 首先, 分别对采集的MRI和PET脑图像进行预处理, 其中, 预处理方法采用文献[12]中的方法.通过预处理, 分别从MRI和PET图像上提取了93维感兴趣区域体积(volume)特征;

(2) 将提取的MRI、PET特征以及CSF检测值串联成183维的多模态特征矩阵X, 再结合类别标记向量y, 设计出基于权值分布的Lasso特征选择模型, 用于从多模态特征中寻找最优特征子集以解决高维小样本学习问题;

(3) 将第(2)步求解的最优特征子集训练数据以及类别标记向量y输入到大间隔分布分类器.

2 基于权值分布稀疏特征学习的早期AD诊断方法 2.1 脑图像预处理

对来自ADNI数据库上的MRI和PET脑图像采用文献[12]中的预处理方法进行预处理.具体过程为:首先采用N3算法[22]对所有图像进行前连合与后连合校正, 再使用BSE(brain extraction tool)工具包[23]将颅骨剥离, 去除小脑.然后使用FSL工具[24]把MRI图像分割成3个不同的组织:灰质、白质、脑脊髓液.然后使用HAMMER算法[25]对所有MRI和PET图像进行配准, 并标注出所有图像的93个感兴趣区域.接着, 再计算每个被试者MRI图像的93个感兴趣区域的灰质体积(volume)值.而对PET图像计算各个感兴趣区域的图像平均强度值.经过预处理后得到的特征是:来自MRI图像的93个特征、来自PET图像的93个特征和来自非图像数据CSF的3个特征(分别是CSF Aβ42、CSF t-tau和CSF p-tau水平检测值).

2.2 基于权值分布的Lasso特征学习模型

在基于机器学习的多模态阿尔茨海默病诊断领域里, 通常面临着高维小样本学习问题.为了克服高维小样本容易导致的“过学习”问题, 本文采用权值L1范数来限制模型复杂性以获得稀疏特征子集.另外, 为了充分利用多模态脑图像与生物标志物特征之间对AD诊断的互补性, 本文通过获取多模态特征的数据分布信息来加以实现.大间隔分布学习通过增加“间隔分布”正则化项, 深入挖掘出支持向量机中间隔分布方面先验信息, 可有效降低支持向量机的泛化误差.而传统Lasso模型中的权值与特征存在——对应关系, 获取多模态特征的数据分布信息, 可以通过获取权值分布信息来实现.综合以上动机, 本文提出基于权值分布的Lasso特征学习模型WDL.实际上, WDL就是在传统Lasso模型中同时增加最小化权值均值与最大化权值方差正则化项.由于在本文中大间隔分布学习一方面作为引出基于权值分布的Lasso特征学习模型的铺垫, 另一方面也直接作为分类的分类器, 所以在第2.2.1节中将加以介绍.

2.2.1 大间隔分布学习机

在基于神经图像的阿尔茨海默病辅助诊断领域里, 大量研究采用支持向量机(SVM)作为分类器, 且能获得较好的分类性能, 其核心思想是通过最大化“最小间隔”来优化模型复杂度, 以获得泛化误差较小的分类模型.实际上, 间隔理论不仅在支持向量机中起着重要作用, 还可以用于解释其他优秀学习算法的推广性能, 例如boosting集成学习[18].此外, 根据间隔学习原理, 近年来发展出代价敏感大间隔分布学习[20]与大间隔分布学习[19].其中的大间隔分布学习机(LDM)[19]是近年来发展起来的学习模型, 该模型认为优化“间隔分布”比优化“最小间隔”更加重要, 提出同时增加最大化间隔均值并最小化间隔方差正则化项, 以降低分类器的泛化误差.通过引入间隔分布正则化项, 研究结果显示, LDM能够获得优于SVM的分类性能与推广性能[19].

给定一组训练样本集S={(x1, y1), (x2, y2), …, (xn, yn)}, 其中, n为训练样本的数量.为了解决线性不可分的问题, 支持向量机SVM需要将原始特征空间的任意一个训练样本xi通过ϕ映射到高维空间.此外, 支持向量机是传统的大间隔学习方法, 核心思想是最大化“最小间隔”以降低分类器的泛化误差.其中, 支持向量机y=ωTϕ(x)中样本(xi, yi)的间隔定义为[26]

$ {\gamma _i} = {y_i}{\omega ^T}\phi \left( {{x_i}} \right), \forall i = 1, 2, \ldots , n $ (1)

其中, 最小间隔是所有训练样本中样本间隔的最小值.

大间隔分布学习机LDM通过同时最大化间隔均值并最小化间隔方差来优化间隔分布, 以进一步降低分类器的泛化误差.那么最能表示间隔分布的统计量就是间隔均值和间隔方差了.为了方便公式表达和推导, 设$\mathit{\boldsymbol{X}} = \left[{\phi \left({{x_1}} \right), \phi \left({{x_2}} \right), \ldots, \phi \left({{x_n}} \right)} \right], \mathit{\boldsymbol{y}} = {\left[{{y_1}, {y_2}, \ldots, {y_n}} \right]^T}$.这样, 根据式(1)则可以计算得到间隔均值γ与方差${\hat \gamma }$分别为

$ \left. {\begin{array}{*{20}{c}} {\bar \gamma = \frac{1}{n}\sum\limits_{i = 1}^n {{y_i}{\omega ^T}\phi \left( {{x_i}} \right)} = \frac{1}{n}{{\left( {\mathit{\boldsymbol{Xy}}} \right)}^T}\omega , }\\ {\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\frown$}} \over \gamma } = \frac{1}{{{n^2}}}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {{{\left( {{y_i}{\omega ^T}\phi \left( {{x_i}} \right) - {y_j}{\omega ^T}\phi \left( {{x_j}} \right)} \right)}^2} = \frac{2}{{{n^2}}}\left( {n{\omega ^T}\mathit{\boldsymbol{X}}{\mathit{\boldsymbol{X}}^T}\omega - {\omega ^T}\mathit{\boldsymbol{Xy}}{\mathit{\boldsymbol{y}}^T}{\mathit{\boldsymbol{X}}^T}\omega } \right)} } } \end{array}} \right\} $ (2)

实际上, LDM就是在原SVM优化问题基础之上增加了间隔均值γ和间隔方差${\hat \gamma }$正则化项, 其形式化目标函数[19]

$ \left. {\begin{array}{*{20}{c}} {\mathop {\min }\limits_{\omega , \xi } \frac{1}{2}{\omega ^T}\omega + {\beta _1}\hat \gamma - {\beta _2}\bar \gamma + C\sum\limits_{i = 1}^N {{\xi _i}} , }\\ {{\rm{s}}{\rm{.t}}{\rm{.}}\;\;{y_i}{\omega ^T}\phi \left( {{x_i}} \right) \ge 1 - {\xi _i}, }\\ {{\xi _i} \ge 0, \;i = 1, \ldots , n} \end{array}} \right\} $ (3)

其中, β1≥0和β2≥0分别是用于调节模型复杂度与间隔方差和间隔均值的正则化参数, 惩罚参数C > 0用于调节分类模型的误差.式(3)的优化问题通过文献[19]提出的平均随机梯度下降(average stochastic gradient descent, 简称ASGD)算法进行求解.

2.2.2 基于权值分布的Lasso特征选择模型

为了从串联的183维多模态特征向量中寻找泛化性能更好的特征子集, 并获取特征分布信息以保持多模态特征之间的互补性, 受大间隔分布学习启发, 本文提出了基于权值分布的Lasso特征选择模型.与传统Lasso特征选择模型不同的是, 基于权值分布的Lasso模型增加了权值分布正则化项, 亦即权值均值和权值方差.与大间隔分布学习不同的是, 一方面通过最小化权值均值使优化的权值向量更稀疏, 另一方面最大化权值方差可以使判别性好的特征具有较大权重, 从而更有利于从高维小样本上学习最优特征子集.

给定一组训练样本集$\left\{ {\left({{x_i}, {y_i}} \right)} \right\}_{i = 1}^n$, 设$X = \left\{ {{x_i}} \right\}_{i = 1}^n, y = \left\{ {{y_i}} \right\}_{i = 1}^n$, 向量xiRf为训练集X中任意一个样本, yi∈{+1, –1}为训练样本对应的类别标记, 其中, f表示训练样本特征维数, n表示训练集样本的数量.另外, wRf表示要优化的权值向量, 其任意一个分量wj表示第j特征对应的权值系数.那么, 基于权值分布的Lasso(weight-distribution based Lasso, 简称WDL)模型的目标函数J(w)为

$ \mathop {\min }\limits_w \frac{1}{2}\left\| {Xw - y} \right\|_2^2 + {\lambda _1}{\left\| w \right\|_1} + {\lambda _2}\bar w - {\lambda _3}\hat w $ (4)

式(4)中, $\left\| {Xw - y} \right\|_2^2$为最小平方损失函数, 其作用是调整权值向量w, 使训练集上学到的类别标记向量y'(y'=Xw)更逼近真实类别标记向量y, 亦即最小平方误差最小化; ||w||1为权值向量wL1范数, 其作用是使权值向量w中部分分量wj的值为0, 从而用于筛选最优特征子集; w为权值向量w的均值, ${\hat w}$为权值向量w的方差, 权值向量w的均值和方差合称为权值分布正则化项, 其作用是保持最优特征具有较大权重, 排除无关的特征以及判别性较差的特征具有较小的权重, 也能实现最优特征的排序; λ1λ2λ3 > 0为正则化参数, 用以调节式(4)中各项的贡献度.

对式(4)目标函数的优化问题, 可以采用近端梯度下降(PGD)法[27, 28]进行求解.具体来说, 式(4)的目标函数J(w)可以分成两个部分:平滑可求导部分G(w)和不可求导部分H(w), 它们分别为

$ G\left( w \right) = \frac{1}{2}\left\| {Xw - y} \right\|_2^2 + {\lambda _2}\bar w - {\lambda _3}\hat w $ (5)
$ H\left( w \right) = {\lambda _1}{\left\| w \right\|_1} $ (6)

则式(4)的目标函数J(w)又可表示为

$ J\left( w \right) = \mathop {\min }\limits_w G\left( w \right) + {\lambda _1}{\left\| w \right\|_1} $ (7)

由于H(w)不可导, 因此不能采用传统梯度下降法进行求解, 但是根据文献[27, 28], 可以采用式(4)目标函数的近邻梯度来求解.由于G(w)可导, 若G(w)梯度函数▽G(w)满足Lipschitz条件, 即存在常数L > 0, 又根据泰勒公式对进行G(w)展开, 使得式(4)目标函数J(w)在wk上基于近邻梯度迭代的求解等式为

$ {w_{k + 1}} = \arg \mathop {\min }\limits_w \frac{1}{L}\left\| {w - \left( {{w_k} - \frac{1}{L}\nabla G\left( {{w_k}} \right)} \right)} \right\|_2^2 + {\lambda _1}{\left\| w \right\|_1} $ (8)

对式(8), 可先计算${t = {w_k} - \frac{1}{L}\nabla G\left({{w_k}} \right)}$然后求解:

$ {w_{k + 1}} = \arg \mathop {\min }\limits_w \frac{1}{L}\left\| {w - t} \right\|_2^2 + {\lambda _1}{\left\| w \right\|_1} $ (9)

wj表示w的第j个分量, 其中, w的各分量互不影响, 于是式(9)有闭式解:

$ w_{k + 1}^j = \left\{ \begin{array}{l} {t^j} - {\lambda _1}/L, \;{\lambda _1}/L < {t^j}\\ 0, \;\;\;\;\;\;\;\;\;\;\;\;\;\left| {{t^j}} \right| \le {\lambda _1}/L\\ {t^j} + {\lambda _1}/L, \;{t^j} < - {\lambda _1}/L \end{array} \right. $ (10)

其中, $w_{k + 1}^j$tj分别表示wk+1t的第j个分量.因此, 通过近端梯度下降法可以快速求解基于权值分布的Lasso特征选择模型.

3 实验分析 3.1 ADNI数据库

本文实验数据均来自于国际阿尔茨海默病(ADNI)数据库(http://adni.loni.usc.edu/).ADNI由国际老年研究所(National Institute on Aging, 简称NIA)、生物医学成像和生物工程研究所(National Institute of Biomedical Imaging and Bioengineering, 简称NIBIB)、美国食品和药物管理局(Food and Drug Administration, 简称FDA)、民营医药企业和非营利组织在2003年启动建立, 其主要目标是测试能否通过组合MRI、PET、其他生物标志物以及临床神经心理学评估来测定MCI和早期AD的进展(progression).该数据库包含的数据模态有:基于时间序列的MRI图像数据、PET图像数据以及其他类型生物标记值, 例如:CSF, 还包括一些临床的神经心理学评估评分值, 例如:简易精神状态检查量表(mini-mental state examination, 简称MMSE)和老年痴呆症评定量表(Alzheimer’s disease assessment scale-cognitive, 简称ADAS-Cog).这些数据类别主要为:早期阿尔茨海默病患者(AD)、轻度认知障碍患者(MCI)和认知正常对照组(NC).ADNI数据库的被试者从横跨美国与加拿大50个网站招募而来.他们的最初目标是招募800个成年志愿者, 年龄段是55岁~90岁; 其中有200人是连续3年跟踪测试认知正常的老人, 有400人是连续3年跟踪测试的轻度认知障碍患者, 还有200人是连续2年跟踪测试的阿尔茨海默病患者.这些被试者的个人基本信息可从ADNI官网上获得.

本文同时选择了具有MRI、PET和CSF模态的被试者样本数据进行实验, 并只选择这些被试者的基准时间点采集的数据.在国际阿尔茨海默病数据库中, 同时具有以上3个模态数据的被试者为202个, 更多详情请参考文献[12].表 1列出这些被试者的人口统计资料信息.

Table 1 Subject information (mean±std) 表 1 被试者样本信息(均值±标准差)

3.2 实验设置

为了测试分布学习模型性能, 本文采用10折交叉验证策略来评价算法的分类性能.具体来说, 将样本集平均划分成10份, 逐一地选择其中1份作为测试集, 剩余9份作为训练集.计算这10次实验的平均精度(ACCuracy)、敏感度(SENsitivity)、特异度(SPEcificity)、受试者工作特征(receiver operating characteristic, 简称ROC)曲线下面积(area under curve, 简称AUC)值, 以作为1次划分的实验结果.然后随机地交换样本排列顺序, 再进行1次10折交叉验证的划分, 并计算平均精度、敏感度、特异度、AUC值.重复10次划分, 并计算这10次划分的平均精度ACC、敏感度SEN、特异度SPE和AUC值.

另外, 传统支持向量机SVM以及其他需要采用支持向量机分类的比较方法, 均采用LIBSVM(a Library for Support Vector Machine, 简称LIBSVM)工具箱[29]仿真实现.其中, 所有使用SVM分类的方法都采用线性核, 其他参数均采用系统缺省值.在基于权值分布的Lasso特征选择步骤中, 正则化参数λ1, λ2, λ3通过网格搜索方法进行优化, 其搜索范围为0~1, 步长为0.01.在采用大间隔分布学习机进行分类的步骤中, 采用文献[19]中提出的大间隔分布学习机工具包(http://lamda.nju.edu.cn/code_LDM.ashx), 参数β1, β2, C也通过网格搜索方法进行优化, 其搜索范围为0~100, 步长为1.Lasso特征选择模型采用Zhou等人提出的MALSAR工具包(http://www.yelab.net/software/MALSAR/), 正则化参数同样也通过网格搜索方法进行优化, 其搜索范围为0~1, 步长为0.01.值得注意的是, 本文所有方法的参数优化都是在训练集上通过内嵌的10折交叉验证优化得到的.此外, 采用文献[12]中的归一化方法进行数据归一化.

3.3 实验结果 3.3.1 不同方法分类性能比较

为了验证本文提出的分布学习模型(WDL-LDM)用于早期阿尔茨海默病诊断的性能, 分别和与之相关性较强的4种分类方法进行比较.这4种分类方法分别是:传统支持向量机(SVM)、大间隔分布分类机(LDM)、基于t-检验(t-test)的特征选择方法结合支持向量机分类器以及基于Lasso特征选择方法结合支持向量机分类器.表 2给出了WDL-LDM方法与其他4种方法在串联的多模态数据上分别分类AD/NC、MCI/NC、pMCI/sMCI的性能比较实验结果.在表 2中, SVM表示只采用SVM分类模型进行分类实验; LDM表示只采用LDM分类模型进行分类实验; t-test表示先采用t-检验进行特征选择, 再使用SVM分类模型进行分类实验; Lasso表示先采用Lasso模型进行特征选择, 再使用SVM分类模型进行分类实验; SLasso-LDM表示先采用文献[30, 31]提出的Lasso-path方法进行特征选择, 再使用LDM分类模型进行分类实验.其中, 表 2中列出的所有实验结果都是通过10次10折交叉验证划分的平均值.此外, 为了进一步比较各种分类方法的性能, 图 2绘制了表 2中所有方法对应的ROC曲线.

Fig. 2 ROC curves of different methods for three binary classification problems (AD/NC, MCI/NC, and pMCI/sMCI) 图 2 不同方法在多模态数据上分别分类AD/NC、MCI/NC、pMCI/sMCI的ROC曲线

Table 2 For three binary classification problems (AD/NC, MCI/NC, and pMCI/sMCI), our proposed method (WDL-LDM) compare with other state-of-the-art methods (SVM, Lasso, LDM, SLasso-LDM and t-test) using multimodal data 表 2 不同方法在多模态数据上分别分类AD/NC、MCI/NC、pMCI/sMCI的性能比较

表 2图 2的实验结果表明, 采用特征选择步骤能够改进分类模型诊断早期阿尔茨海默病的性能.其中, 在AD/NC分类实验中, 采用本文提出的基于权值分布的Lasso(WDL)特征选择方法能够明显提高仅采用LDM分类器的分类性能.然而, 相比于仅采用SVM分类器, 采用t-test和Lasso特征选择方法只是轻微提高了分类精度、敏感度和特异度, 而AUC值并未改变, 这表明, 采用以上两种特征选择方法不能有效改进分类模型的性能.其次, 在MCI/NC分类实验中, 采用特征选择步骤能够较明显地改进分类模型的性能.其中, 采用本文提出的WDL特征选择方法能够显著提高LDM分类器的分类性能; 采用t-test和Lasso特征选择方法也能改进一些SVM分类器的分类性能; 而仅采用LDM分类器的性能不如仅采用SVM分类器的性能.最后, 在pMCI/sMCI分类实验中, 采用特征选择步骤能够显著改进分类模型的性能.其中, 采用t-test特征选择方法只能轻微提高分类性能, 然而分别采用WDL和Lasso特征选择方法能够显著改进LDM与SVM分类器的分类性能; 尤其是WDL特征选择方法能够十分显著地改进LDM分类器性能; 此外, 仅采用LDM分类器的性能也明显优于仅采用SVM分类器的性能.同时, 为了进一步验证WDL-LDM的性能, 实验中也采用文献[30, 31]提出的Lasso-path方法来替换WDL-LDM中的WDL特征选择方法, 亦即表 2中的SLasso-LDM方法; 实验结果显示, 在3组分类实验中, WDL仍优于Lasso-path方法.综合以上表 2图 2的实验分析结果可以得出以下结论:本文提出的WDL特征选择方法能够有效地改进分类器性能, 其中, 对pMCI/sMCI分类性能的改进尤其显著, 并结合LDM分类器能够完成较高的分类性能, 因此本文提出的WDL-LDM方法能够很好地应用于早期阿尔茨海默病的诊断.

3.3.2 多模态与单模态数据上的分类性能比较

为了验证本文提出的分布学习模型(WDL-LDM)在多模态与单模态数据上的分类性能, 分别将多模态特征数据(MRI+PET+CSF, 简称MPC)和单模态特征数据(MRI、PET、CSF)输入到WDL-LDM.表 3就是WDL-LDM方法分别运行在多模态特征和单模态特征数据上分类AD/NC、MCI/NC、pMCI/sMCI的实验结果.为了更直观、更全面地比较这些方法的差异性, 图 3绘制了表 3中所有方法对应的ROC曲线.表 3图 3的实验结果表明, 采用多模态特征数据能够获得更好的分类性能, 这是因为, 这些多模态特征数据之间存在互补性的诊断信息.这也说明, WDL-LDM方法能够有效融合多模态特征数据.在3组都采用单模态特征数据的分类实验中, 采用MRI模态特征能够获得最好的分类性能, 这表明, 早期阿尔茨海默病患者在脑组织的结构形态上逐渐发生了萎缩.此外, 除了使用MRI, 采用PET或CSF模态特征也能获得不错的诊断性能, 这说明, 早期阿尔茨海默病患者不仅在脑组织结构上出现了变化, 也在脑组织功能上出现了变化.然而, 单独使用某一种模态特征都无法获得同时使用这些多模态特征的分类性能, 这也再次验证了WDL-LDM方法能从多模态特征中找到那些具有互补性的特征子集, 从而避免多模态特征易引起的过学习问题, 达到有效提高分类模型性能的目的.

Fig. 3 ROC curves of the WDL-LDM method with multi-modality and single-modality data, respectively 图 3 WDL-LDM分别在多模态数据与单模态上分类AD/NC、MCI/NC、pMCI/sMCI的ROC曲线

Table 3 Comparison of performances that the WDL-LDM method performs on multimodal and single modality data 表 3 分布学习模型分别在多模态数据与单模态上分类性能的比较

3.3.3 判别性脑区检测

为了验证本文提出的分布学习模型(WDL-LDM)用于特征选择与排序的有效性, 表 4~表 6列出了在3组分类实验中WDL方法选出的稳定特征子集, 然后根据选出特征对应的平均权值进行了排序, 最后为了验证这个排序的准确性, 表中列出了这些特征在不同分类实验中的P值.表 4~表 6中稳定特征就是在10次10折交叉验证实验中都被WDL方法选中的特征, 这些特征具有很好的泛化性和判别性.类似地, 平均权值也就是10次10折交叉验证实验权值的均值.本文提出的WDL特征选择方法与传统Lasso最大的区别就是可利用权值分布信息进行多模态特征选择, 这归因于最小化权值向量均值与L1范数保证特征的稀疏性, 同时最大化权值向量方差保持最优特征子集的有序性.表 4~表 6中根据权值进行的稳定特征排序与P值排序保持一致, 这证实了WDL方法进行最优特征子集排序的有效性.此外, 在表 4~表 6中, 从MRI模态上选出的稳定脑区特征均多于PET和CSF模态, 这也表明, 单独MRI模态在早期阿尔茨海默病的诊断性能优于单独采用PET或CSF模态.在表 4~表 6的3组分类实验中, 选出的稳定特征子集均包含了3个模态的特征, 这验证了多模态脑图像与生物标志物特征对AD诊断具有互补性.表 4~表 6中还有一个值得注意的现象, 就是除了那些P值小于0.05的特征被选出以外, 还有一些P值大于0.05的特征也被选中, 这表明, t-test方法采用P值进行特征选择的局限性, 也解释了表 2中WDL-LDM方法分类性能明显优于t-test方法的原因.WDL方法选出的稳定脑区在其他相关文献中都有报道[4, 12-14, 32, 33], 例如:hippocampal、amygdala、temporal lobe、precuneus、insula等等, 这些脑区在医学上被证实与早期阿尔茨海默病的诊断密切相关.

Table 4 Selected stable features ranking using the WDL-LDM method on AD/NC classification 表 4 在AD/NC分类实验中WDL-LDM选出的稳定特征排序

Table 5 Selected stable features ranking using the WDL-LDM method on MCI/NC classification 表 5 在MCI /NC分类实验中WDL-LDM选出的稳定特征排序

Table 6 Selected stable features ranking using the WDL-LDM method on pMCI/sMCI classification 表 6 在pMCI/sMCI分类实验中WDL-LDM选出的稳定特征排序

3.3.4 正则化参数对分类性能的影响

表 2的实验结果表明, 增加WDL特征选择步骤能够明显改进LDM的分类性能, 这也验证了本文提出WDL特征选择方法的有效性.在WDL特征选择模型中, 通过添加权重分布正则化项到传统Lasso模型中以提高模型泛化性能, 这是由于权重分布对应于特征分布, 然而传统Lasso模型没有考虑特征分布信息, 所以本文提出在传统Lasso模型引入权重分布先验信息, 亦即最小化权值均值并最大化权值方差.为了验证这个假设的有效性, 在WDL-LDM模型中通过对WDL进行不同正则化参数设置来探讨分类性能的变化, 以此来验证引入权重分布先验信息的有效性, 表 7给出了WDL特征选择方法采用不同正则化参数设置时的WDL-LDM分类性能.

Table 7 Classification performance comparison of our proposed method (WDL-LDM) using different setting of regularization parameters on the step of WDL feature selection 表 7 WDL特征选择方法采用不同正则化参数设置的WDL-LDM分类性能比较

表 7中, 正则化参数设置为“λ2, λ3=0”, 表示没有权重分布正则化项, 此时, WDL特征选择模型就是传统的Lasso; 若设置为“λ2=0”, 则表示没有最小化权值均值正则化项; 若设置为“λ3=0”, 则表示没有最大化权值方差正则化项; 另外, 若设置为“λ1, λ2, λ3 > 0”, 则表示同时存在权重L1范数和权重分布正则化项.表 7的实验结果表明, 在3组分类实验中同时采用权重L1范数和权重分布正则化项的WDL-LDM分类性能都优于其他3种正则化参数设置方案.其中, 不采用权重分布正则化项, WDL-LDM分类性能明显不如“λ1, λ2, λ3 > 0”参数设置方案; 单独采用最小化权值均值或者最大化权值方差正则化项, WDL-LDM分类性能也明显差于“λ1, λ2, λ3 > 0”参数设置方案.综合以上实验结论表明, 在传统Lasso模型中同时加入最小化权值均值和最大化权值方差正则化项能够有效改进分类模型的性能.

4 结束语

为了获得泛化性较好且分类精度较高的分类模型, 本文根据Lasso特征选择模型以及大间隔分布学习模型, 提出了基于权值分布稀疏特征学习的早期阿尔茨海默病诊断框架.具体来说, 该诊断框架包含3个部分:首先对采集的MRI和PET脑图像进行一系列预处理并提取特征; 然后根据传统Lasso模型提出基于权值分布的Lasso特征选择模型(WDL), 可用于从多模态特征中寻找性能更好的特征子集; 最后采用大间隔分布分类机(LDM)训练分类模型.在国际老年痴呆症数据库(ADNI)上, 采用MRI、PET和CSF多模态数据进行实验验证, 并与一些相关的方法进行比较.实验结果表明, WDL-LDM方法能够有效提高分类性能, 并能有效利用多模态特征分布信息.

尽管本文取得了较好的结果, 但仍有改进空间.一方面, 本文只针对数量有限的标记训练数据设计了监督学习算法, 而临床上存在许多未标记的多模态数据还可利用, 考虑将当前的模型扩展为半监督学习方式是未来的发展方向之一.另一方面, 临床上也存在大量不完全的多模态数据, 充分利用这些不完全的多模态标记数据, 不但可以增加训练样本数量, 针对不完全的多模态数据设计学习算法, 还可以提高模型推广性能.

参考文献
[1]
Hu K, Wang Y, Chen K, Hou L, Zhang X. Multi-scale features extraction from baseline structure MRI for MCI patient classification and AD early diagnosis. Neurocomputing, 2016, 175(1): 132-145. [doi:10.1016/j.neucom.2015.10.043]
[2]
Wachinger C, Reuter M. Domain adaptation for Alzheimer's disease diagnostics. NeuroImage, 2016, 139(1): 470-479. [doi:10.1016/j.neuroimage.2016.05.053]
[3]
Liu M, Zhang D, Shen D. Relationship induced multi-template learning for diagnosis of Alzheimer's disease and mild cognitive impairment. IEEE Trans. on Medical Imaging, 2016, 35(6): 1463-1474.[doi:10.1109/TMI.2016.2515021]
[4]
Jie B, Zhang D, Cheng B, Shen D. Manifold regularized multitask feature learning for multimodality disease classification. Human Brain Mapping, 2015, 36(2): 489-507. [doi:10.1002/hbm.22642]
[5]
Cheng B, Liu M, Zhang D, Munsell BC, Shen D. Domain transfer learning for MCI conversion prediction. IEEE Trans. on Biomedical Engineering, 2015, 62(7): 1805-1817.[doi:10.1109/TBME.2015.2404809]
[6]
Moradi E, Pepe A, Gaser C, Huttunen H, Tohka J. Machine learning framework for early MRI-based Alzheimer's conversion prediction in MCI subjects. NeuroImage, 2015, 104(1): 398-412. [doi:10.1016/j.neuroimage.2014.10.002]
[7]
Liu F, Wee CY, Chen HF, Shen D. Inter-modality relationship constrained multi-modality multi-task feature selection for Alzheimer's disease and mild cognitive impairment identification. NeuroImage, 2014, 84(1): 466-475. [doi:10.1016/j.neuroimage.2013.09.015]
[8]
Liu M, Zhang D, Shen D. Inherent structure based multi-view learning with multi-atlas feature representation for Alzheimer's disease diagnosis. IEEE Trans. on Biomedical Engineering, 2016, 63(7): 1473-1482.[doi:10.1109/TBME.2015.2496233]
[9]
Zhu X, Suk H, Shen D. A novel matrix-similarity based loss function for joint regression and classification in AD diagnosis. NeuroImage, 2014, 100(1): 91-105. [doi:10.1016/j.neuroimage.2014.05.078]
[10]
Zhou J, Liu J, Narayan VA, Ye J. Modeling disease progression via multi-task learning. NeuroImage, 2013, 78(1): 233-248. [doi:10.1016/j.neuroimage.2013.03.073]
[11]
Cheng B, Liu M, Suk H, Shen D, Zhang D. Multimodal manifold-regularized transfer learning for MCI conversion prediction. Brain Imaging and Behavior, 2015, 9(4): 913-926. [doi:10.1007/s11682-015-9356-x]
[12]
Zhang D, Wang Y, Zhou L, Yuan H, Shen D. Multimodal classification of Alzheimer's disease and mild cognitive impairment. NeuroImage, 2011, 55(3): 856-867. [doi:10.1016/j.neuroimage.2011.01.008]
[13]
Ye J, Farnum M, Yang E, Verbeeck R, Lobanov V, Raghavan N. Sparse learning and stability selection for predicting MCI to AD conversion using baseline ADNI data. BMC Neurology, 2012, 12(1): 1-12. [doi:10.1186/1471-2377-12-46]
[14]
Zhang D, Shen D. Multi-modal multi-task learning for joint prediction of multiple regression and classification variables in Alzheimer's disease. NeuroImage, 2012, 59(2): 895-907. [doi:10.1016/j.neuroimage.2011.09.069]
[15]
Dukart J, Sambataro F, Bertolino A. Accurate prediction of conversion to Alzheimer's disease using imaging, genetic, and neuropsychological biomarkers. Journal of Alzheimer's Disease, 2016, 49(4): 1143-1159. [doi:10.3233/JAD-150570]
[16]
Zhang D, Shen D. Predicting future clinical changes of MCI patients using longitudinal and multimodal biomarkers. PLoS One, 2012, 7(3): e33182. [doi:10.1371/journal.pone.0033182]
[17]
Cheng B, Zhang D, Chen S, Kaufer DI, Shen D. Semi-supervised multimodal relevance vector regression improves cognitive performance estimation from imaging and biological biomarkers. Neuroinformatics, 2013, 11(3): 339-353. [doi:10.1007/s12021-013-9180-7]
[18]
Gao W, Zhou Z. On the doubt about margin explanation of boosting. Artificial Intelligence, 2013, 203(1): 1-18. [doi:10.1016/j.artint.2013.07.002]
[19]
Zhang T, Zhou Z. Large margin distribution machine. In: Proc. of the 20th ACM SIGKDD Conf. on Knowledge Discovery and Data Mining. 2014. 313-322.[doi:10.1145/2623330.2623710]
[20]
Zhou Y, Zhou Z. Large margin distribution learning with cost interval and unlabeled data. IEEE Trans. on Knowledge and Data Engineering, 2016, 28(7): 1749-1763.[doi:10.1109/TKDE.2016.2535283]
[21]
Geng X. Label distribution learning. IEEE Trans. on Knowledge and Data Engineering, 2016, 28(7): 1734-1748.[doi:10.1109/TKDE.2016.2545658]
[22]
Sled JG, Zijdenbos AP, Evans AC. A nonparametric method for automatic correction of intensity nonuniformity in MRI data. IEEE Trans. on Medical Imaging, 1998, 17(1): 87-97.[doi:10.1109/42.668698]
[23]
Wang Y, Nie J, Yap PT, Shi F, Guo L, Shen D. Robust deformable-surface-based skull-stripping for large-scale studies. In: Proc. of the Conf. on Medical Image Computing and Computer-Assisted Intervention. 2011. 635-642.[doi:10.1007/978-3-642-23626-6_78]
[24]
Zhang YY, Brady M, Smith S. Segmentation of brain MR images through a hidden Markov random field model and the expectation-maximization algorithm. IEEE Trans. on Medical Imaging, 2001, 20(1): 45-57.[doi:10.1109/42.906424]
[25]
Shen D, Davatzikos C. HAMMER: Hierarchical attribute matching mechanism for elastic registration. IEEE Trans. on Medical Imaging, 2002, 21(11): 1421-1439.[doi:10.1109/TMI.2002.803111]
[26]
Vapnik VN. An overview of statistical learning theory. IEEE Trans. on Neural Networks, 1999, 10(5): 988-999.[doi:10.1109/72. 788640]
[27]
Chen X, Pan W, Kwok JT, Carbonell JG. Accelerated gradient method for multi-task sparse learning problem. In: Proc. of the 9th IEEE Int'l Conf. on Data Mining and Knowledge Discovery. 2009. 746-751.[doi:10.1109/ICDM.2009.128]
[28]
Nemirovski A. Efficient methods in convex programming. 1995. http://www2.isye.gatech.edu/~nemirovs/
[29]
Chang CC, Lin CJ. LIBSVM: A library for support vector machines. 2001. http://www.csie.ntu.edu.tw/~cjlin/libsvm/
[30]
Park MY, Hastie T. L1-regularization path algorithm for generalized linear models. Journal of Royal Statistical Society, 2007, 69(4): 659-677. [doi:10.1111/rssb.2007.69.issue-4]
[31]
Friedman J, Hastie T, Tibshirani R. Regularization paths for generalized linear models via coordinate descent. Journal of Statist Software, 2010, 33(1): 1-22. http://d.old.wanfangdata.com.cn/OAPaper/oai_doaj-articles_81a46bf667066119552ea0da1acfb673
[32]
Davatzikos C, Bhatt P, Shaw LM, Batmanghelich KN, Trojanowski JQ. Prediction of MCI to AD conversion, via MRI, CSF biomarkers, and pattern classification. Neurobiology of Aging, 2011, 32(12): 19-27. [doi:10.1016/j.neurobiolaging.2010.05.023]
[33]
Eskildsen SF, Coupé P, García-Lorenzo D, Fonov V, Pruessner JC, Collins DL. Prediction of Alzheimer's disease in subjects with mild cognitive impairment from the ADNI cohort using patterns of cortical thinning. NeuroImage, 2013, 65(2): 511-521. [doi:10.1016/j.neuroimage.2012.09.058]