随着大数据的发展和机器学习的广泛应用,各行业的数据量呈现大规模的增长,高维性是这些数据的重要特点,采用特征选择对高维数据进行降维是一种预处理方法.特征选择稳定性是其中重要的研究内容,它是指特征选择方法对训练样本的微小扰动具有一定鲁棒性.提高特征选择稳定性有助于发现相关特征,增强特征可信度,进一步降低开销.在回顾现有特征选择稳定性提升方法的基础上对其进行分类,分析比较各类方法的特点和适用范围,总结特征选择稳定性中的相关评估工作,并通过实验剖析其中稳定性度量指标的性能,进而对比4种集成方法的效用.最后讨论当前工作的局限性,指出未来的研究方向.
With the development of big data and the wide application of machine learning, data from all walks of life is growing massively. High dimensionality is one of its most important characteristics, and applying feature selection to reduce dimensions is one of the preprocessing methods of high dimensional data. Stability of feature selection is an important research direction, and it stands for the robustness of results with respect to small changes in the dataset composition. Improving the stability of feature selection can help to identify relevant features, increase experts' confidence to the results, and further reduce the complexity and costs of getting original data. This paper reviews current methods for improving the stability, and presents a classification of those methods with analysis and comparison on the characteristics and range of application of each category. Then it summarizes the evaluations of stability of feature selection, and analyzes the performance of stability measurement and validates the effectiveness of four ensemble approaches through experiments. Finally, it discusses the localization of current works and a perspective of the future work in this research area.
随着大数据应用的发展, 数据规模呈现爆发式增长, 数据中心的数据量从PB(1PB=240B), EB(1EB=250B)级已经迈入了ZB(1ZB=260B), YB(1YB=270B)级.当前的互联网数据, 半结构化和非结构化数据已经占数据总量的85%以上, 如文本、网页、图像、基因等, 其中, 高维性是这些数据的重要特征[
特征选择, 即从原始特征集合中选择使得评价准则最大化的最小特征子集, 通过运用特征选择可以减少原始数据获取的时间, 缩减数据的存储空间, 提高分类模型的可解释性, 更快地获得分类模型, 提高分类性能, 并且有助于对数据和知识进行可视化[
特征选择稳定性是指特征选择方法对训练样本的微小扰动具有一定的鲁棒性, 一个稳定的特征选择方法应当在训练样本具有微小扰动的情况下生成相同或相似的特征子集[
特征选择方法有两种分类方式.
● 按照选择特征时是否具有独立性, 特征选择方法可分为单变量法和多变量法:单变量法采用特定的评价准则独立评估每个特征; 多变量法在评估某个特征时同时考虑该特征与其他特征之间的关联关系;
● 按照结果返回类型的不同, 可将特征选择方法分为权重法、排序法和子集法这3种类型[
本文对特征选择稳定性的研究做详细的总结, 为从事特征选择稳定性方面的研究人员了解相关领域的进展提供参考.本文将特征选择稳定性提升方法分为扰动法和特征法两种, 分别总结两种方法的研究进展和特点; 阐述演化算法在特征选择稳定性中的应用; 归纳特征选择稳定性中的评估, 包括特征选择稳定性度量指标、特征选择算法稳定性以及影响因素评估等; 在人工和标准测试集上, 对典型的子集法稳定性度量指标的性能做比较分析, 在此基础上, 分析4种集成单变量与多变量的集成方法在稳定性、分类性能和分类器上的相关性; 最后展望特征选择稳定性未来的研究方向.
本节对特征选择稳定性提升方法做详细的归纳, 总结方法的特点和适用范围, 并介绍演化算法在特征选择稳定性方面的应用.
为了提高特征选择方法的稳定性, 近年来出现了众多有效的方法和研究成果, 按照特征选择稳定性提升技术是否与特征本身相关, 将其分为扰动法和特征法:扰动法包括数据扰动法、函数扰动法和混合法, 特征法包括组特征法和特征信息法.如
特征选择稳定性提升方法分类
Classification of feature selection improvement methods
扰动法是从输入的训练样本集和特征选择方法入手, 采用扰动数据集、增加新的数据或集成多种特征选择方法等方式提高特征选择结果的稳定性, 它一般与集成学习技术相结合.扰动法仅在数据集或者特征选择方法层面采用一种或多种手段提高特征选择的稳定性, 是一种宏观的提升方法.具体而言, 数据扰动法采用抽样、采样和样本分割等方式对原始数据集进行重新组合作为训练样本, 或者采用样本注入增加新的训练样本, 在此基础上, 使用特征选择方法选择特征子集并进行集成, 提高选择相似特征子集的概率, 进而提升特征选择的稳定性[
在数据扰动法研究方面, 采用Bootstrap抽样方法提高特征选择稳定性的技术较为常见.文献[
抽样、采样和样本分割等数据扰动法仅仅是对原始数据样本的重新组合, 并不增加新的样本.另一种数据扰动法是通过样本注入, 即增加训练样本个数提高特征选择稳定性, 如获取更多真实样本或构建新样本等[
在函数扰动法研究方面, 文献[
混合法是同时采用数据扰动法与函数扰动法的一种方法, 通常先使用数据扰动法生成多组训练数据, 再利用多种特征选择方法选择特征并集成结果.文献[
在应用扰动法时, 各种方法的适用范围以及各自的优缺点是主要考虑的因素.数据扰动法的使用较为简单, 适用于训练样本较多、获取数据较为容易的场景, 但是数据扰动法并不适用于一些小样本应用, 如癌症检测、故障诊断等, 因为在小样本数据上, 采用数据扰动法易造成过拟合.函数扰动法对小样本应用而言较为适用, 其缺点在于难以根据数据集的特点选择合适的特征选择方法进行集成[
特征法是在特征层面对其进行进一步处理, 在此基础上与特征选择方法相融合, 提高特征选择的稳定性, 它是一种在特征层面的微观方法.组特征法是通过某种方式将高度相关的特征聚集成组, 从特征组中选择相关特征构成稳定的特征子集; 特征信息法是利用特征本身的信息对当前的特征选择方法进行改进, 即, 采用某种度量准则给予重要特征更高的权重, 然后根据权重值选择稳定的相关特征.
组特征方法在近年来得到了快速的发展, 它基于一个经验观测结论:在高维数据中, 相关特征是高度关联的, 因此可以生成多组相关的特征集合.特征选择算法从各组中选择特征, 组合成最终的特征子集.由于这些特征组对输入样本的扰动具有一定的鲁棒性, 因此, 基于组特征的特征选择方法对输入样本的微小扰动同样具有稳定性[
核密度估计是一种非参数密度估计方法, 通过使用核密度估计, 可以得出特征与密度波峰的距离, 然后将距离小于阈值的特征合并作为特征组.文献[
为了解决文献[
正则化是回归模型常用的方法, 采用正则化技术可以进行特征选择.例如, 最小绝对收缩选择算子(least absolute shrinkage and selection operator, 简称LASSO)就是一种常用的基于正则化技术的特征选择方法, 它通过构造具有正则化项的回归模型, 使得平方误差和最小化, 从而产生较少的非零分量, 这些非零分量对应选择的特征.文献[
相关性的方法是通过相关性函数得出特征的相关性值, 基于相关性值, 采用某种策略得出特征组.文献[
其他获得特征组的方法还包括如自组织映射、
特征信息法常用的度量准则包括相关性度量、基于信息理论的度量、基于距离的度量和基于损失函数的度量等.
在使用相关性度量方面, 文献[
基于信息熵度量的研究中, 文献[
基于距离度量方面, 文献[
利用损失函数度量特征信息方面, 文献[
组特征法研究成果较多, 取得了较好的效果, 特别是基于核密度估计和正则化技术的方法, 在组特征法中被广泛采用.但组特征法的局限性在于缺乏较为系统的理论依据, 目前, 组特征法的发展仍然基于经验观察的结论, 且组特征法并不适用于数据集特征规模较小的情况, 同时也难以适应特征组边界并不清晰的数据集.
特征信息法则能够适用于数据的特征规模较小的情况, 但其缺点在于需要根据问题及数据集的特点选用合适的度量准则.基于相关性和基于距离的度量难以适应特征维度较高的情况, 当特征维度较高时, 其特征的相关性和距离值差异较小, 导致难以选择合适的特征子集.而基于信息理论的度量存在同样的问题[
特征选择是典型的NP难问题, 即, 无法在多项式时间内获得最优解.一类重要的解决方法是利用演化算法获取次优解.基于演化算法选择特征子集是常用的特征选择方法, 其在提升特征选择稳定性的研究中也得到了重视和应用.
目前, 提高演化算法特征选择稳定性主要有两种方式:一种是与扰动法或特征法相结合, 一种是采用集成策略.文献[
在采用集成策略方面, 文献[
基于演化算法的特征选择是一类重要的特征选择方法, 目前, 对于特征选择稳定性及提升方法的研究主要聚焦于过滤式特征选择方法, 而针对基于演化算法的特征选择稳定性提升方法研究还不成体系, 研究成果相对较少, 这也是未来特征选择稳定性研究的主要方向和亟待解决的问题[
除了提升方法, 特征选择稳定性评估也是特征选择稳定性研究的一项重要内容, 具体包括3个方面:一是特征选择稳定性度量指标的研究与评估, 二是对特征选择算法的稳定性评估, 三是对影响特征选择稳定性因素的研究.特征选择稳定性度量指标是特征选择稳定性研究的基础工作, 具备良好性能的度量指标对正确评估特征选择稳定性的相关研究内容至关重要; 对特征选择算法本身进行稳定性评估, 能够使我们了解“稳定”方法的内在机制, 从而进一步发展性能优异的特征选择方法; 特征选择稳定性影响因素的研究是进一步提高特征选择方法稳定性能的理论基础, 只有充分了解造成特征选择方法不稳定的原因才能“对症下药”, 提出合理的解决方案.
在特征选择稳定性的研究中, 关键问题之一就是采用何种指标度量特征选择算法的稳定性.通常, 我们是通过比较特征选择结果的相似程度来度量特征选择稳定性.本节将特征选择方法分为权重法、排序法和子集法等3种, 归纳每种方法对应的度量指标及各自的特点, 在此基础上讨论特征选择稳定性度量指标的性质.常见的度量指标见
特征选择稳定性度量指标
Measures of stability of feature selection
特征选择方法 | 特征选择稳定性度量指标 |
权重法 | 皮尔逊相关系数 |
排序法 | 斯皮尔曼排序相关系数、兰氏距离、权重兰氏距离、叠加评分、詹森-香农距离 |
子集法 | 谷元距离、昆彻瓦相似度度量、扩展昆彻瓦相似度度量、邓恩稳定性指标、权重一致性指标、抽样皮尔逊相关系数、杰卡德距离、海明距离、对称不确定性、戴斯系数 |
为了度量给定特征选择方法生成的两个权重向量
其中,
目前, 度量权重法稳定性的指标仅有皮尔逊相关系数一种方法.由于我们可以根据特征的权重值将其进行排序或选出合适的特征子集, 因此可以将特征的权重值转换为特征排序或特征子集的方式, 进而采用排序法或子集法度量指标评估特征选择方法的稳定性.
对排序法稳定性的度量可以分为3种情况, 即全排序列表、部分排序列表(top-
在全排序列表中, 为了度量两个特征全排序向量
其中,
另一种度量全排序列表的指标是兰氏距离, 其计算如公式(3):
而权重兰氏距离可以度量部分排序列表的相似性, 其计算如公式(4):
其中,
度量部分子集列表相似性的典型指标是叠加评分, 其计算如公式(5):
其中,
基于詹森-香农距离的度量指标, 可以用在全排序列表、部分子集列表和部分排序列表的计算中.设由
其中,
●
●
设排序向量为
其中,
针对子集法的特征选择结果, 研究人员也提出了许多有效的稳定性度量指标.需要注意的是:分类器或领域专家更为关注特征选择返回的特征子集, 并非是全部特征的排序或权重.对排序法和权重法而言, 其返回结果一般是根据要求按照排序列表或权重的降序给出满足规模的特征子集, 因此, 子集法稳定性度量指标同样适用于度量排序法和权重法的特征选择结果.
子集法稳定性度量指标可以分为4类:基于相似度(距离)的指标、基于频次的指标、基于信息理论的指标和基于相关性的指标.基于相似度(距离)的指标包括杰卡德距离、谷元距离、昆彻瓦相似度度量(Kuncheva similarity measure)指标、扩展昆彻瓦相似度度量(extensions of Kuncheva similarity measure)指标、邓恩稳定性指标(Dunne stability index)、海明距离(Hamming distance)和戴斯系数(Dice coefficient)等[
下面介绍4类方法中常用的子集法特征选择稳定性指标, 我们将在第3节通过实验对这些指标的性能做进一步的比较分析.
对两个特征子集
|·|表示特征子集的基;
对两个基相同的特征子集
其中,
扩展昆彻瓦相似度度量指标, 该指标是昆彻瓦相似度度量指标的扩展, 可以用来度量不同特征个数的特征子集相似性.当两个特征子集规模一致时, 它的值就等于昆彻瓦相似度度量指标的值.设两个基不相等的特征子集
与昆彻瓦相似度度量指标类似, 扩展昆彻瓦相似度度量指标的取值是在[-1, 1]之间, 扩展昆彻瓦相似度度量指标取值越大, 两个特征子集相似度越高.
邓恩稳定性指标计算方式如公式(11):
其中,
设
权重一致性指标的取值范围在[0, 1]之间, 当且仅当
抽样皮尔逊相关系数由公式(13)计算:
其中:
目前, 对特征选择稳定性度量指标性质的研究相对较少, 仅有少量相关文献对其做了初步的研究和探索.
文献[
首先给出完全定义性、有界性、单调递增性和随机校正性的定义.
● 完全定义性:特征选择稳定性指标能够度量不同规模的特征子集;
● 有界性:特征选择稳定性指标的评估值要具有上下界;
● 单调递增性:特征选择稳定性指标值应当随着选择的特征子集相似度的增加而增加;
● 随机校正性:特征选择稳定性指标要能够反映出特征选择算法选择的特征是否具有随机性, 并返回确定的常量值.
对上述4个性质做进一步分析.
● 完全定义性对度量指标而言并非是必要的性质, 它仅仅表明度量指标的适用范围是否足够广泛.在实际研究中, 对特征选择算法稳定性的度量多数是建立在选择相等特征个数的基础上.事实上, 只要研究的对象是在度量指标的适用范围内即可;
● 有界性是度量指标必须满足的性质, 否则我们无法准确地判定特征子集的相似度.例如, 若不存在上下界, 那么我们就无法准确判别完全一致的两个特征子集和完全不一致的两个特征子集的差异程度, 而仅仅只能说明前者相似性大于后者;
● 单调递增性也是一个度量指标应当具备的基本性质, 否则无法对指标的结果做出正确的评判;
● 随机校正性对特征选择稳定性度量指标而言是一个重要的基本性质, 它是间接反映特征选择方法有效性的途径.例如:当有100个特征时, 采用随机方法选择2个特征个数为10的特征子集, 2个子集包含的特征完全一致的概率仅为1%;若将特征个数提高到90, 则2个特征子集包含的特征完全一致的概率将达到81%.因此, 为了避免度量结果无法真实反映出特征选择结果是否具有随机性, 度量指标必须要具备随机校正性.
在对特征选择算法本身的稳定性进行评估方面, 相关文献做了一些初步的验证与分析.
文献[
虽然较多研究成果对特征选择算法本身的稳定性做了比较分析, 但是这些工作仍然存在需要进一步分析解释的问题:一是这些研究并没有在统一的标准数据集上进行实验与分析, 因此其结论难以具有普适性, 甚至有可能得出相对立的结论; 二是并没有对特征选择算法内在的稳定性做深层的分析, 即, 造成这些方法稳定的原因是什么, 这是特征选择算法稳定性评估的目的和落脚点.
对影响特征选择稳定性的因素进行评估与研究方面, 研究人员主要从理论和实验两个方面进行分析.
● 理论分析方面
文献[
● 实验分析方面
文献[
通过上述相关研究工作可以看出, 数据的分布复杂性、样本规模、特征之间的相关性等都是影响特征选择稳定性的因素; 同时也可以看出, 特征选择稳定性与分类性能之间并无确定的相关性.然而, 这些都是在假设仅存在一种影响因素的前提下得出的结论, 当存在多种影响因素的情况下对特征选择稳定性有何影响, 以及在什么样的数据集中特征选择稳定性与分类性能之间存在确定相关性, 这些都需要我们进一步研究.
由于在分类过程中, 分类器要求的输入并非是特征的权重或排序, 而是特征子集.因此当特征选择方法返回权重值或排序列表时, 都必须转换为特征子集并构造训练样本作为输入, 例如按照权重值由大到小排列后选择前
http://featureselection.asu.edu/datasets.php, 数据集的有关基本信息见
实验数据集属性
Characteristics of experiment datasets
数据集 | 实例规模 | 特征个数 | 来源 |
BASEHOCK | 1 993 | 4 862 | 文本 |
PCMAC | 1 943 | 3 289 | 文本 |
COLON | 62 | 2 000 | 基因 |
ALLAML | 72 | 7 129 | 基因 |
本节对5种子集法特征选择稳定性指标进行分析, 即邓恩指标
特征子集
Comparisons of stability indicators in feature subset
为了进一步验证这5种稳定性指标在随机生成特征子集情况下的性能表现, 按照文献[
10组随机生成特征子集稳定性指标比较
Comparisons of stability indicators in ten random feature subsets
从
为了验证5种特征稳定性指标在真实数据集上的度量性能, 使用单变量排序法卡方检验(
4组真实数据集上的稳定性指标比较
Comparisons of stability indicators in four real datasets
从
通过实验比较可以看出:
在特征选择稳定性的研究中, 研究人员广泛采用了集成方法提高算法的稳定性, 但是这些工作仅表明了集成方法的有效性, 并未对集成方法特别是结合单变量与多变量算法的集成方法在稳定性、分类性能与分类器之间的相关性上做进一步的分析评估.
本节从这3个方面入手, 对结合单变量与多变量特征选择的集成方法在稳定性提升效果、分类性能与分类器间的关系做深入的实验分析.使用5重交叉检验方法将原始数据分为训练样本和测试数样本, 训练样本经过Bootstrap抽样生成
实验框架图
Framework of experiments
为了分析单变量和多变量特征选择方法在集成条件下的性能表现, 设计4种集成方式对上述4种特征选择方法进行组合, 见
集成特征选择方法
Ensemble feature selection methods
单变量方法 | 多变量方法 | 名称 |
ReliefF | Ensemble 1 | |
SVM-RFE | Ensemble 2 | |
ReliefF, SVM-RFE | Ensemble 3 | |
IG | ReliefF, SVM-RFE | Ensemble 4 |
在4个数据集上, 4种集成特征选择方法和4种基本特征选择方法的稳定性度量结果如
集成特征选择方法稳定性比较
Stability comparisons among ensemble feature selection methods
首先观察在文本数据集上集成方法的稳定性提升效果.从
观察4种集成特征选择方法在基因数据集上的提升效果, 即
综上所述, 对于稳定性较强的特征选择方法(如
特征选择方法在BASEHOCK数据集上的分类正确率
Classification accuracy of feature selection methods in BASEHOCK
方法 | 分类器 | 特征比例 | ||||
1% | 2% | 3% | 4% | 5% | ||
Ensemble1 | SVM | 0.952 3 | 0.959 4 | 0.960 9 | 0.965 4 | |
0.871 1 | 0.858 5 | 0.867 0 | 0.872 1 | 0.863 5 | ||
NB | 0.907 2 | 0.916 7 | 0.928 2 | 0.926 7 | 0.926 7 | |
Ensemble2 | SVM | 0.960 4 | 0.965 4 | |||
0.872 1 | 0.862 | 0.866 5 | 0.869 0 | 0.867 6 | ||
NB | 0.906 7 | 0.915 7 | 0.927 2 | 0.928 7 | 0.926 2 | |
Ensemble3 | SVM | 0.940 3 | 0.950 3 | 0.970 4 | 0.961 9 | |
0.878 1 | 0.870 0 | 0.885 1 | 0.883 6 | 0.877 6 | ||
NB | 0.898 1 | 0.905 7 | 0.923 7 | 0.925 2 | 0.926 7 | |
Ensemble4 | SVM | 0.945 3 | 0.952 3 | 0.964 4 | 0.965 4 | |
0.888 6 | 0.876 6 | 0.887 6 | 0.888 1 | 0.884 1 | ||
NB | 0.898 1 | 0.904 7 | 0.921 2 | 0.926 7 | 0.924 7 | |
SVM | 0.942 3 | 0.952 3 | 0.960 9 | 0.965 4 | 0.964 9 | |
0.867 0 | 0.858 5 | 0.865 0 | 0.865 0 | 0.862 5 | ||
NB | 0.907 2 | 0.918 7 | 0.927 2 | 0.930 8 | 0.927 8 | |
IG | SVM | 0.944 8 | 0.957 9 | 0.962 9 | 0.964 4 | |
0.876 1 | 0.855 0 | 0.864 0 | 0.870 6 | 0.871 1 | ||
NB | 0.906 2 | 0.914 7 | 0.925 7 | 0.924 7 | 0.925 2 | |
ReliefF | SVM | 0.709 5 | 0.750 1 | 0.828 4 | 0.841 9 | 0.892 1 |
0.619 7 | 0.676 3 | 0.739 1 | 0.779 2 | 0.774 7 | ||
NB | 0.596 6 | 0.645 7 | 0.719 0 | 0.757 1 | 0.802 8 | |
SVM-RFE | SVM | 0.952 8 | 0.954 8 | 0.962 9 | 0.955 9 | |
0.911 7 | 0.904 2 | 0.881 1 | 0.891 1 | 0.895 1 | ||
NB | 0.892 6 | 0.897 6 | 0.918 2 | 0.915 7 | 0.919 2 |
特征选择方法在PCMAC数据集上的分类正确率
Classification accuracy of feature selection methods in PCMAC
方法 | 分类器 | 特征比例 | ||||
1% | 2% | 3% | 4% | 5% | ||
Ensemble1 | SVM | 0.876 0 | 0.883 7 | 0.895 5 | 0.907 4 | 0.904 3 |
0.823 0 | 0.804 4 | 0.793 1 | 0.803 4 | 0.796 2 | ||
NB | 0.734 4 | 0.749 9 | 0.767 9 | 0.773 6 | 0.777 7 | |
Ensemble2 | SVM | 0.876 0 | 0.883 7 | 0.908 4 | ||
0.823 0 | 0.802 4 | 0.794 6 | 0.798 7 | 0.793 6 | ||
NB | 0.734 4 | 0.749 9 | 0.767 9 | 0.772 5 | 0.776 6 | |
Ensemble3 | SVM | 0.877 5 | 0.896 0 | 0.899 1 | 0.896 | |
0.843 0 | 0.825 0 | 0.797 7 | 0.795 1 | 0.805 5 | ||
NB | 0.724 6 | 0.763 2 | 0.755 6 | 0.750 9 | 0.777 7 | |
Ensemble4 | SVM | 0.881 6 | 0.892 9 | 0.897 1 | 0.896 6 | 0.900 1 |
0.848 2 | 0.833 2 | 0.804 9 | 0.807 5 | 0.809 6 | ||
NB | 0.726 2 | 0.763 2 | 0.749 4 | 0.752 4 | 0.772 5 | |
SVM | 0.872 9 | 0.883 2 | 0.896 0 | 0.902 2 | ||
0.814 7 | 0.800 8 | 0.789 0 | 0.797 2 | 0.797 2 | ||
NB | 0.728 8 | 0.751 9 | 0.768 9 | 0.770 5 | 0.776 1 | |
IG | SVM | 0.876 0 | 0.880 1 | 0.894 0 | 0.905 3 | 0.908 4 |
0.823 0 | 0.808 0 | 0.791 5 | 0.796 2 | 0.804 9 | ||
NB | 0.729 8 | 0.748 8 | 0.764 8 | 0.772 0 | 0.779 2 | |
ReliefF | SVM | 0.598 0 | 0.658 8 | 0.807 0 | 0.820 4 | 0.833 3 |
0.560 0 | 0.620 7 | 0.735 4 | 0.732 9 | 0.740 6 | ||
NB | 0.529 6 | 0.579 0 | 0.662 3 | 0.656 7 | 0.696 9 | |
SVM-RFE | SVM | 0.890 9 | 0.880 1 | 0.884 7 | 0.894 5 | |
0.879 1 | 0.863 1 | 0.829 1 | 0.829 1 | 0.823 5 | ||
NB | 0.739 6 | 0.739 6 | 0.750 4 | 0.762 7 | 0.754 5 |
特征选择方法在COLON数据集上的分类正确率
Classification accuracy of feature selection methods in COLON
方法 | 分类器 | 特征比例 | ||||
1% | 2% | 3% | 4% | 5% | ||
Ensemble1 | SVM | 0.694 9 | 0.724 4 | 0.757 7 | 0.757 7 | 0.757 7 |
0.807 7 | 0.757 7 | 0.773 1 | 0.838 5 | 0.821 8 | ||
NB | 0.807 7 | 0.742 3 | 0.806 4 | 0.823 1 | 0.803 8 | |
Ensemble2 | SVM | 0.693 6 | 0.707 7 | 0.803 8 | 0.774 4 | 0.774 4 |
0.825 6 | 0.757 7 | 0.789 7 | ||||
NB | 0.793 6 | 0.742 3 | 0.791 0 | 0.838 5 | 0.803 8 | |
Ensemble3 | SVM | 0.693 6 | 0.741 | 0.803 8 | 0.773 1 | 0.773 1 |
0.823 1 | 0.838 5 | 0.806 4 | ||||
NB | 0.792 3 | 0.756 4 | 0.806 4 | 0.806 4 | 0.803 8 | |
Ensemble4 | SVM | 0.660 3 | 0.756 4 | 0.739 7 | 0.759 | 0.773 1 |
0.839 7 | 0.821 8 | 0.823 1 | 0.791 0 | |||
NB | 0.775 6 | 0.756 4 | 0.774 4 | 0.806 4 | 0.803 8 | |
SVM | 0.743 6 | 0.738 5 | 0.725 6 | 0.821 8 | 0.741 0 | |
0.807 7 | 0.773 1 | 0.821 8 | 0.838 5 | |||
NB | 0.807 7 | 0.742 3 | 0.789 7 | 0.823 1 | 0.803 8 | |
IG | SVM | 0.628 2 | 0.741 | 0.788 5 | 0.788 5 | 0.757 7 |
0.824 4 | 0.789 7 | 0.823 1 | 0.805 1 | |||
NB | 0.793 6 | 0.725 6 | 0.791 0 | 0.823 1 | 0.803 8 | |
ReliefF | SVM | 0.694 9 | 0.706 4 | 0.787 2 | 0.726 9 | 0.821 8 |
0.824 4 | 0.756 4 | 0.823 1 | 0.807 7 | |||
NB | 0.792 3 | 0.725 6 | 0.821 8 | 0.838 5 | 0.803 8 | |
SVM-RFE | SVM | 0.793 6 | 0.752 6 | 0.788 5 | 0.791 0 | 0.820 5 |
0.807 7 | 0.721 8 | 0.805 1 | 0.838 5 | 0.774 4 | ||
NB | 0.776 9 | 0.709 | 0.787 2 | 0.838 5 | 0.771 8 |
特征选择方法在ALLAML数据集上的分类正确率
Classification accuracy of feature selection methods in ALLAML
方法 | 分类器 | 特征比例 | ||||
1% | 2% | 3% | 4% | 5% | ||
Ensemble1 | SVM | 0.945 7 | 0.958 1 | 0.944 8 | 0.972 4 | |
0.945 7 | 0.960 0 | 0.957 1 | 0.942 9 | |||
NB | 0.959 0 | 0.959 0 | 0.958 1 | 0.958 1 | 0.958 1 | |
Ensemble2 | SVM | 0.945 7 | 0.958 1 | 0.944 8 | ||
0.960 0 | 0.960 0 | 0.957 1 | 0.929 5 | |||
NB | 0.959 0 | 0.959 0 | 0.958 1 | 0.958 1 | 0.958 1 | |
Ensemble3 | SVM | 0.959 0 | 0.943 8 | 0.959 0 | ||
0.916 2 | 0.945 7 | 0.900 0 | 0.918 1 | 0.915 2 | ||
NB | 0.959 0 | 0.959 0 | 0.958 1 | 0.958 1 | 0.958 1 | |
Ensemble4 | SVM | 0.959 0 | 0.943 8 | 0.959 0 | ||
0.959 0 | 0.945 7 | 0.900 0 | 0.918 1 | 0.915 2 | ||
NB | 0.959 0 | 0.959 0 | 0.958 1 | 0.958 1 | 0.958 1 | |
SVM | 0.931 4 | 0.958 1 | 0.944 8 | 0.972 4 | ||
0.959 0 | 0.960 0 | 0.942 9 | 0.929 5 | |||
NB | 0.959 0 | 0.959 0 | 0.958 1 | 0.958 1 | 0.958 1 | |
IG | SVM | 0.945 7 | 0.959 0 | 0.958 1 | 0.958 1 | 0.972 4 |
0.945 7 | 0.957 1 | |||||
NB | 0.959 0 | 0.959 0 | 0.958 1 | 0.958 1 | 0.958 1 | |
ReliefF | SVM | 0.959 0 | 0.957 1 | 0.959 0 | 0.971 4 | |
0.930 5 | 0.932 4 | 0.914 3 | 0.889 5 | 0.928 6 | ||
NB | 0.945 7 | 0.958 1 | 0.971 4 | |||
SVM-RFE | SVM | 0.960 0 | 0.957 1 | 0.972 4 | 0.971 4 | |
0.929 5 | 0.945 7 | 0.873 3 | 0.931 4 | 0.901 9 | ||
NB | 0.930 5 | 0.916 2 | 0.944 8 | 0.943 8 | 0.958 1 |
通过
综上, 与基本特征选择方法相比, 使用结合单变量与多变量方法的集成方法能够确保选择的特征子集在不同数据集上具有良好稳定性, 同时也具有优越的分类性能; 其次, 集成方法在分类性能上的提升效果与分类器并无显著关联性, 采用SVM分类器能够获得较好的分类性能.
本文总结了特征选择稳定性提升方法的研究进展, 概要阐述了演化算法在特征选择稳定性中的应用, 归纳特征选择稳定性中的评估, 通过实验分析典型的子集法稳定性度量指标的性能, 并验证了结合单变量与多变量算法的集成方法能够同时提高算法的稳定性和分类性能.
尽管特征选择稳定性在近两年得到了学术界的重视和发展, 但其仍属于起步阶段, 还有一些亟待解决的问题:在高维数据中, 除了特征维度较高之外, 还有一些常常被忽略的因素, 如样本的不平衡、数据分布的漂移和噪声数据等, 而目前的提升特征选择稳定性的方法并未考虑这些情况的存在, 因此结合高维数据蕴含的特点, 提高特征选择方法的稳定性是一项值得深入研究的课题; 特征选择稳定性度量指标是特征选择稳定性研究的基础, 虽然研究人员提出或借鉴了一些度量指标, 但由于在稳定性度量指标应当具备的性质方面并未有统一的标准, 造成不同指标度量的结果可能存在差异性, 导致我们不能客观全面地评价特征选择稳定性的研究成果, 因此对特征选择稳定性度量指标的研究仍然任重道远; 目前, 多数特征选择稳定性提升方法的研究成果仍然是建立在集成或扰动的机械方法之上, 虽然特征法在特征层面对提高稳定性做了进一步的探索, 但其泛化能力也是值得商榷的, 是否可以针对特征选择稳定性发展出专用的特征选择算法, 也是值得探讨的问题; 当前, 对特征选择稳定性的研究主要聚焦于独立于分类器的过滤式特征选择方法, 而作为重要分支的基于进化算法的特征选择方法, 在稳定性方面的研究还存在较多的空白.基于进化算法的特征选择方法的稳定性是否与采用的进化算法相关, 其与分类器和评价准则之间是否具有关联性, 如何提高基于进化算法特征选择的稳定性, 也是需要进一步探索的研究方向; 对影响特征选择稳定性因素的深入研究和探索, 这是从根本上解决特征选择稳定性问题的出发点和落脚点.对不同的数据集或不同的应用而言, 造成特征选择不稳定的因素不尽相同, 如特征规模、样本数量、数据分布等, 然而目前鲜有研究成果对其进行深入探讨.对导致特征选择不稳定的因素以及这些因素之间相互的影响做判断及分析, 并以此作为依据提出对应的解决方案, 是特征选择稳定性研究的重要内容.
Emani CK, Cullot N, Nicolle C. Understandable big data:A survey. Computer Science Review, 2015, 17:70-81.[doi:10.1016/j. cosrev.2015.05.002]
Fakhraei S, Soltanian-Zadeh H, Fotouhi F. Bias and stability of single variable classifiers for feature ranking and selection. Expert Systems with Applications, 2014, 41(15):6945-6958.[doi:10.1016/j.eswa.2014.05.007]
Li JD, Liu H. Challenges of feature selection for big data analytics. IEEE Intelligent Systems, 2016, 32(2):9-15.[doi:10.1109/MIS. 2017.38]
Bolon-Canedo V, Sanchez-Marono N, Alonso-Betanzos A. Feature selection for high dimensional data. Progress in Artificial Intelligence, 2016, 5(2):65-75.[doi:10.1007/s13748-015-0080-y]
Goh WW, Wong L. Evaluating feature selection stability in next generation proteomics. Journal of Bioinformatics and Computational Biology, 2016, 14(5):1650029.[doi:10.1142/S0219720016500293]
Du W, Cao ZB, Song TC, Li Y, Liang YC. A feature selection method based on multiple kernel learning with expression profiles of different types. BioData Mining, 2017, 10:4.[doi:10.1186/s13040-017-0124-x]
10.1109/TCBB.2016.2633267]]]>
10.1145/2976744]]]>
Iglesias F, Zseby T. Analysis of network traffic features for anomaly detection. Machine Learning, 2015, 101(1):59-84.[doi:10.1007/s10994-014-5473-9]
Wang YL, Li ZQ, Wang YF, Wang XN, Zheng JJ, Duan XJ, Chen HF. A novel approach for stable selection of informative redundant features from high dimensional fMRI data. Computer Science, 2016, 146:191-208.[doi:arXiv:1506.08301]
Park CH, Kim SB. Sequential random K nearest neighbor feature selection for high dimensional data. Expert Systems with Applications, 2015, 42(5):2336-2342.[doi:10.1016/j.eswa.2014.10.044]
Aldehim GN. Heuristic ensembles of filters for accurate and reliable feature selection[Ph. D. Thesis]. Norwich: University of East Anglia, 2015.
Kalousis A, Prados J, Hilario M. Stability of feature selection algorithms:A study on high dimensional spaces. Knowledge and Information Systems, 2007, 12(1):95-116.[doi:10.1007/s10115-006-0040-8]
Fan M, Chou CA. Exploring stability based voxel selection methods in MVPA using cognitive neuroimaging data:A comprehensive study. Brain Informatics, 2016, 3(3):193-203.[doi:10.1007/s40708-016-0048-0]
Tohka J, Moradi E, Huttunen H. Comparison of feature selection techniques in machine learning for anatomical brain MRI in dementia. Neuroinformatics, 2016, 14(3):1-18.[doi:10.1007/s12021-015-9292-3]
Tommasel A, Godoy D. Short text feature construction and selection in social media data:A survey. Artificial Intelligence Review, 2016:1-38.[doi:10.1007/s10462-016-9528-0]
Alkuhlani A, Nassef M, Farag I. Multistage feature selection approach for high dimensional caner data. Soft Computing, 2016:1-12.[doi:10.1007%2Fs00500-016-2439-9]
10.1109/TCBB.2016.2631164]]]>
Schirra LR, Lausser L, A.Kestler H. Selection stability as a means of biomarker discovery in classification. Studies in Classification, Data Analysis, and Knowledge Organization, 2016:79-89.[doi:10.1007/978-3-319-25226-1_7]
10.1109/ICNC.2014.6975929]]]>
Pes B, Dessi N, Angioni M. Exploiting the ensemble paradigm for stable feature selection:A case study on high dimensional genomic data. Information Fusion, 2017, 35(C):132-147.[doi:10.1016/j.inffus.2016.10.001]
10.1007/978-3-540-87481-2_21]]]>
Abeel T, Helleputte T, Peer YVD, Dupont P, Saeys Y. Robust biomarker identification for cancer diagnosis with ensemble feature selection methods. Bioinformatics, 2010, 26(3):392-398.[doi:10.1093/bioinformatics/btp630]
Yang P, Ho JW, Yang YH, Zhou BB. Gene-Gene interaction filtering with ensemble of filters. Bmc Bioinformatics, 2011, 12 Suppl 1(S1):S10.[doi:10.1186/1471-2105-12-S1-S10]
10.1109/TMI.2013.2281398]]]>
10.1109/TKDE.2015.2458867]]]>
He ZY, Yu WC. Stable feature selection for biomarker discovery. Computational Biology and Chemistry, 2010, 34(4):215-225.[doi:10.1016/j.compbiolchem.2010.07.002]
Kamker I, Gupta SK, Phung D, Venkatesh S. Stabilizing l1-norm prediction models by supervised feature grouping. Journal of Biomedical Informatics, 2016, 59(C):149-168.[doi:10.1016/j.jbi.2015.11.012]
Moayedikia A, Ong KL, Boo YL, Yeoh WGS, Jensen R. Feature selection for high dimensional imbalanced class data using harmony search. Engineering Applications of Artificial Intelligence, 2017, 57(C):38-49.[doi:10.1016/j.engappai.2016.10.008]
Fahad A, Tari Z, Khalil I, Almalawi A, Zomaya A. An optimal and stable feature selection approach for traffic classification based on multi criterion fusion. Future Generation Computer Systems, 2014, 36(7):156-169.[doi:10.1016/j.future.2013.09.015]
10.1109/IntelliSys.2015.7361203]]]>
Bolon-Canedo V, Sanchez-Marono N, Alonso-Betanzos A. Data classification using an ensemble of filters. Neurocomputing, 2014, 135:13-20.[doi:10.1016/j.neucom.2013.03.067]
Lior R, Barak C. A methodology for improving the performance of non-ranker feature selection filters. Int'l Journal of Pattern Recognition and Artificial Intelligence, 2007, 21(5):809-830.[doi:10.1142/S0218001407005727]
10.1109/TCBB.2010.103]]]>
10.1007/978-3-319-14654-6_6]]]>
10.1109/ICMLA.2012.175]]]>
10.1109/ICDMW.2012.12]]]>
10.1145/1557019.1557084]]]>
Garcia-Torres M, Gomez-Vela F, Melian-Batista B, Moreno-Vega JM. High dimensional feature selection via feature grouping:A variable neighborhood search approach. Information Sciences, 2016, 326(C):102-118.[doi:10.1016/j.ins.2015.07.041]
10.1145/1401890.1401986]]]>
Huang J, Horowitz JL, Ma SG. Asymptotic properties of bridge estimators in sparse high dimensional regression models. Annals of Statistics, 2008, 36(2):587-613.[doi:10.1214/009053607000000875]
Zou H, Hastie T. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society, 2005, 67(2):301-320.[doi:10.1111/j.1467-9868.2005.00503.x]
10.5220/0005827003810386]]]>
Silva B, Marques N. Feature clustering with self-organizing maps and an application to financial time-series for portfolio selection. In: Proc. of the 6th Int'l Conf. on Neural Computation. 2010. 301-309.
10.1109/TCBB.2007.1006]]]>
Dettling M, Buhlmann P. Finding predictive gene groups from microarray data. Journal of Multivariate Analysis, 2004, 90(1):106-131.[doi:10.1016/j.jmva.2004.02.012]
DOI:10.1109/TKDE.2011.181]]]>
10.1145/2506583.2506600]]]>
Beinrucker A, Dogan U, Blanchard G. Extensions of stability selection using subsamples of observations and covariates. Statistics and Computing, 2016, 26(5):1059-1077.[doi:10.1007/s11222-015-9589-y]
10.1007/978-3-319-52941-7_37]]]>
10.1007/978-3-319-12069-0_3]]]>
Zou Q, Zeng J, Cao L, Ji R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing, 2016, 173:346-354.[doi:10.1016/j.neucom.2014.12.123]
10.1109/TNNLS.2014.2341627]]]>
Yan K, Zhang D. Feature selection and analysis on correlated gas sensor data with recursive feature elimination. Sensors and Actuators B Chemical, 2015, 212:353-363.[doi:10.1016/j.snb.2015.02.025]
10.1007/978-3-319-23862-3_15]]]>
Soufan O, Kleftogiannis D, Kalnis P, Bajic VB. DWFS:A wrapper feature selection tool based on a parallel genetic algorithm. Plos One, 2015, 10(2):e0117988.[doi:10.1371/journal.pone.0117988]
Liu QJ, Zhao ZM, Li YX, Yu XL. Ensemble feature selection method based on neighborhood information and pso algorithm. Acta Electronica Sinica, 2016, 44(4):995-1002(in Chinese with English abstract).[doi:10.3969/j.issn.0372-2112.2016.04.034]
刘全金, 赵志敏, 李颖新, 俞晓磊.基于近邻信息和PSO算法的集成特征选取.电子学报, 2016, 44(4):995-1002.[doi:10.3969/j.issn. 0372-2112.2016.04.034]
10.1109/TEVC.2015.2504420]]]>
Jurman G, Merler S, Barla A, Paoli S, Galea A, Furlanello C. Algebraic stability indicators for ranked lists in molecular profiling. Bioinformatics, 2008, 24(2):258-264.[doi:10.1093/bioinformatics/btm550]
Bloulesteix AL, Slawski M. Stability and aggregation of ranked gene lists. Briefings in Bioinformatics, 2009, 10(5):556-568.[doi:10.1093/bib/bbp034]
10.1007/978-3-642-23780-5_48]]]>
10.1007/978-3-319-20248-8_12]]]>
Kuncheva LI. A stability index for feature selection. In: Proc. of the 25th ACM Conf. on Int'l Multi-Conf. Artificial Intelligence and Applications. 2007. 390-395.
10.1109/TPAMI.2010.34]]]>
Ning YP. Research on feature selection and stability analysis for high dimensionality small sample size data[MS. Thesis]. Xiamen: Xiamen University, 2014(in Chinese with English abstract).
宁永鹏. 高维小样本数据的特征选择研究及其稳定性分析[硕士学位论文]. 厦门: 厦门大学, 2014.
Ji JS. Feature selection and its stability for typical geoobjects of high resolution remote sensing image[MS. Thesis]. Shanghai: Shanghai Jiao Tong University, 2015(in Chinese with English abstract).
季金胜. 高分辨率遥感影像典型地物目标的特征选择及其稳定性研究[硕士学位论文]. 上海: 上海交通大学, 2015.
10.1007/978-3-642-04180-8_47]]]>
10.1007/978-3-319-46227-1_28]]]>
Kamkar I, Gupta SK, Phung D, Venkatesh S. Stable feature selection for clinical prediction:Exploiting ICD tree structure using Tree-LASSO. Journal of Biomedical Informatics, 2015, 53:277-290.[doi:10.1016/j.jbi.2014.11.013]
10.1109/TENCON.2014.7022309]]]>
Wang H, Khoshgoftaar TM, Seliya N. On the stability of feature selection methods in software quality prediction:an empirical investigation. Int'l Journal of Software Engineering and Knowledge Engineering, 2015, 25(9n10):1467-1490.[doi:10.1142/S0218194015400288]
10.18293/SEKE2015-198]]]>
Hassan SS, Ruusuvuori P, Latonen L, Huttunen H. Flow cytometry based classification in cancer research:A view on feature selection. Cancer Informatics, 2016, 14(5):75.[doi:10.4137/CIN.S30795]
10.1109/IRI.2014.7051905]]]>
Dessi N, Pes B. Similarity of feature selection methods:An empirical study across data intensive classification tasks. Expert Systems with Applications, 2015, 42:4632-4642.[doi:10.1016/j.eswa.2015.01.069]
Dernoncourt D, Hanczar B, Zucker JD. Analysis of feature selection stability on high dimension and small sample data. Computational Statistics and Data Analysis, 2014, 71(C):681-693.[doi:10.1016/j.csda.2013.07.012]
Tohka J, Moradi E, Huttunen H. Comparison of feature selection techniques in machine learning for anatomical brain MRI in dementia. Neuroinformatics, 2016, 14(3):1-18.[doi:10.1007/s12021-015-9292-3]
Perthame E, Friguet C, Causeur D. Stability of feature selection in classification issues for high dimensional correlated data. Statistics and Computing, 2016, 26(4):783-796.[doi:10.1007/s11222-015-9569-2]
10.1109/SAMI.2015.7061849]]]>