一种采用新型聚类方法的最佳类簇数确定算法
作者:
作者单位:

作者简介:

朱二周(1981-),男,博士,副教授,主要研究领域为数据挖掘,机器学习,程序安全.
孙悦(1995-),女,学士,主要研究领域为数据挖掘,机器学习.
张远翔(1995-),男,学士,主要研究领域为数据挖掘,机器学习.
高新(1993-),男,学士,主要研究领域为数据挖掘,机器学习.
马汝辉(1984-),男,博士,副教授,主要研究领域为云计算,大数据处理,虚拟化.
李学俊(1976-),男,博士,教授,博士生导师,CCF专业会员,主要研究领域为智能软件,工作流系统,边缘计算,服务计算.

通讯作者:

朱二周,E-mail:ezzhu@ahu.edu.cn

中图分类号:

TP181

基金项目:

安徽省自然科学基金(2008085MF188);国家自然科学基金(61972001)


Optimal Clustering Number Determining Algorithm by the New Clustering Method
Author:
Affiliation:

Fund Project:

Natural Science Foundation of Anhui Province, China (2008085MF188); National Natural Science Foundation of China (61972001)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    聚类分析是统计学、模式识别和机器学习等领域的研究热点.通过有效的聚类分析,数据集的内在结构与特征可以被很好地发掘出来.然而,无监督学习的特性使得当前已有的聚类方法依旧面临着聚类效果不稳定、无法对多种结构的数据集进行正确聚类等问题.针对这些问题,首先将K-means算法和层次聚类算法的聚类思想相结合,提出了一种混合聚类算法K-means-AHC;其次,采用拐点检测的思想,提出了一个基于平均综合度的新聚类有效性指标DAS(平均综合度之差,difference of average synthesis degree),以此来评估K-means-AHC算法聚类结果的质量;最后,将K-means-AHC算法和DAS指标相结合,设计了一种寻找数据集最佳类簇数和最优划分的有效方法.实验将K-means-AHC算法用于测试多种结构的数据集,结果表明:该算法在不过多增加时间开销的同时,提高了聚类分析的准确性.与此同时,新的DAS指标在聚类结果的评价上要优于当前已有的常用聚类有效性指标.

    Abstract:

    Clustering analysis is a hot research topic in the fields of statistics, pattern recognition, and machine learning. Through effective clustering analysis, the intrinsic structure and characteristics of datasets can be well discovered. However, due to the unsupervised learning feature, the existing clustering methods are still facing the problems of unstable and inaccurate on processing different types of datasets. In order to solve these problems, a hybrid clustering algorithm, K-means-AHC, is firstly proposed based on the combination of the K-means algorithm and the hierarchical clustering algorithm. Then, based on the inflexion point detection, a new clustering validity index, DAS (difference of average synthesis degree), is proposed to evaluate the results of the K-means-AHC clustering algorithm. Finally, through the combination of the K-means-AHC algorithm and the DAS index, an effective method of finding the optimal clustering numbers and optimal partitions of datasets is designed. The K-means-AHC algorithm is used to test many kinds of datasets. The experimental results have shown that the proposed algorithm improves the accuracy of clustering analysis while without too much time overhead. At the same time, the new DAS index is superior to the current commonly used clustering validity indexes in the evaluation of clustering results.

    参考文献
    相似文献
    引证文献
引用本文

朱二周,孙悦,张远翔,高新,马汝辉,李学俊.一种采用新型聚类方法的最佳类簇数确定算法.软件学报,2021,32(10):3085-3103

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2019-09-09
  • 最后修改日期:2020-01-18
  • 录用日期:
  • 在线发布日期: 2021-10-09
  • 出版日期: 2021-10-06
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号