龙源期刊网 http://www.qikan.com.cn
基于聚类融合的聚类分析方法研究
作者:林坚
来源:《中国·东盟博览》2013年第11期
【摘 要】聚类分析是一个正在蓬勃发展的领域,具有非常重要的理论价值和极其广泛的应用领域。作为聚类分析的一个新兴分支,聚类融合已经成为当前数据挖掘和机器学习领域的研究热点之一。本文对聚类融合方法进行了综述,介绍了近几年聚类融合方法研究的主要内容,并讨论了聚类融合方法未来的发展方向。
【关键词】聚类分析;聚类融合;数据挖掘;机器学习 文章编号:1673-0380(2013)11-0219-02 引言
作为一种重要的数学分析工具,聚类分析在数据挖掘、机器学习、文本分类、图像分割、信息检索、生物信息分析以及地质解释等领域都有成功的应用。但是由于聚类算法本身的局限性,使得聚类分析方法的鲁棒性和稳定性无法保障。聚类融合方法可以将不同算法结果进行融合,从近几年的研究和实验表明,该方法很好地提高了聚类算法的鲁棒性和稳定性。 一、聚类分析
聚类分析(Clustering analysis)又称点群分析,是对客体进行定量分类的一种多元统计分析方法。近年来,大量学者在聚类问题的研究上做出了卓越的贡献,提出了许多经典的聚类算法。这些聚类算法主要包括: (一)基于划分的聚类算法
预先给定最终聚类类别数目k,通过目标函数最小化策略,将含n个样本的数据集划分为k类。基于划分的聚类算法需要满足两个条件:每类中最少包含一个样本;每个样本必须属于且唯一属于某一类。k均值算法就是一个经典的基于划分的聚类算法。 (二)基于层次的聚类算法
层次聚类也称为分级聚类,它按数据分层,最终形成一棵一簇类为节点的树。根据层次形成的过程,可以分为凝聚聚类和分裂聚类。凝聚法是把聚类问题看成n个样本划分成k个类的划分序列。通常以预先给定的类别数或分割阈值为终止条件。分裂聚类的过程与凝聚聚类正好相反。先是将整个样本看成一类,然后逐步分裂直到满足终止条件。 (三)基于密度的聚类算法