主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
谢娟英,丁丽娟,王明钊.基于谱聚类的无监督特征选择算法.软件学报,2020,31(4):0
基于谱聚类的无监督特征选择算法
Spectral Clustering based Unsupervised Feature Selection Algorithms
投稿时间:2019-05-31  修订日期:2019-07-29
DOI:10.13328/j.cnki.jos.005927
中文关键词:  谱聚类  无监督特征选择  特征独立性  特征区分度  特征重要度
英文关键词:spectral clustering  unsupervised feature selection  feature independence  feature discernibility  feature importance
基金项目:国家自然科学基金(61673251);陕西省科技攻关重点项目(2018ZDXMSF-079);国家重点研发计划(2016YFC0901900);科技成果转化培育项目(GK201806013);中央高校基本科研业务费专项资金(GK201701006);研究生培养创新基金(2015CXS028,2016CSY009)
作者单位E-mail
谢娟英 陕西师范大学 计算机科学学院, 陕西 西安 710062 xiejuany@snnu.edu.cn 
丁丽娟 陕西师范大学 计算机科学学院, 陕西 西安 710062
武警工程大学 信息工程学院, 陕西 西安 710086 
 
王明钊 陕西师范大学 生命科学学院, 陕西 西安 710062  
摘要点击次数: 159
全文下载次数: 128
中文摘要:
      基因表达数据具有高维小样本特点,包含了大量与疾病无关的基因,对该类数据进行分析的首要步骤是特征选择.常见的特征选择方法需要有类标的数据,但样本类标获取往往比较困难.本文针对基因表达数据的特征选择问题,提出基于谱聚类的无监督特征选择思想FSSC(feature selection by spectral clustering ).FSSC对所有特征进行谱聚类,将相似性较高的特征聚成一类,定义特征的区分度与特征独立性,以二者之积度量特征重要性,从各特征簇选取代表性特征,构造特征子集.根据使用的不同谱聚类算法,得到FSSC-SD(FSSC based on standard deviation)、FSSC-MD(FSSC based on mean distance)和FSSC-ST(FSSC based on self-tuning)3种无监督特征选择算法.以SVM(support vector machines)和KNN(K-nearest neighbours)为分类器,在10个基因表达数据集进行实验测试.结果表明,FSSC-SD、FSSC-MD和FSSC-ST算法均能选择到具有强分类能力的特征子集.
英文摘要:
      Gene expression data usually comprise small number of samples with tens of thousands of genes. There are a large number of genes unrelated to diseases in this kind of data. The primary task is to detect those key essential genes when analyzing this kind of data. The common feature selection algorithms are depend on labels of data, but it is very difficult to get labels for data. To overcome the challenges, especially for gene expression data, we propose the unsupervised feature selection idea, named as FSSC (Feature Selection by Spectral Clustering). FSSC groups all of features into clusters by a spectral clustering algorithm, so that similar features are in same clusters. The feature discernibility and independence are defined, and the feature importance is defined as the product of its discernibility and independence. The representative feature is selected from each cluster to construct the feature subset. According to the spectral clustering algorithms used in FSSC, three kinds of unsupervised feature selection algorithms named as FSSC-SD (FSSC based on Standard Deviation), FSSC-MD (FSSC based on Mean Distance) and FSSC-ST (FSSC based on Self-Tuning) are developed. The SVM (support vector machines) and KNN (K-nearest neighbours) classifiers are adopted to test the performance of the selected feature subsets in experiments. Experimental results on 10 gene expression datasets show that FSSC-SD, FSSC-MD and FSSC-ST algorithms can select powerful features to classify samples.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利