摘要:现实世界中高维数据无处不在, 然而在高维数据中往往存在大量的冗余和噪声信息, 这导致很多传统聚类算法在对高维数据聚类时不能获得很好的性能. 实践中发现高维数据的类簇结构往往嵌入在较低维的子空间中. 因而, 降维成为挖掘高维数据类簇结构的关键技术. 在众多降维方法中, 基于图的降维方法是研究的热点. 然而, 大部分基于图的降维算法存在以下两个问题: (1)需要计算或者学习邻接图, 计算复杂度高; (2)降维的过程中没有考虑降维后的用途. 针对这两个问题, 提出了一种基于极大熵的快速无监督降维算法-MEDR. MEDR算法融合线性投影和极大熵聚类模型, 通过一种有效的迭代优化算法寻找高维数据嵌入在低维子空间的潜在最优类簇结构. MEDR算法不需事先输入邻接图, 具有样本个数的线性时间复杂度. 在真实数据集上的实验结果表明, 与传统的降维方法相比, MEDR算法能够找到更好的将高维数据投影到低维子空间的投影矩阵, 使投影后的数据有利于聚类.