.
CURE聚类算法的实现
任务背景
聚类(clustering)就是将数据对象分组成为多个类或簇(cluster),在同一簇中的对象之间具有较高的相似度,而不同的簇中对象差别较大。相异度是根据描述对象的属性值来计算的。距离是经常采用的度量方式。聚类分析源于许多研究领域,包括数据挖掘,统计学,生物学,以及机器学习。
作为统计学的一个分支,聚类分析已经被广泛的研究了许多年,主要集中在基于距离的聚类分析。基于k-means(k-平均值),k-medoids(k-中心点)和其他一些方法的聚类分析工具已经被加入到许多统计分析软件包或系统中,例如S-Plus,SPSS,以及SAS。
CURE(Clustering Using Representatives)是一种针对大型数据库的高效的聚类算法。基于划分的传统的聚类算法得到的是球状的,相等大小的聚类,对异常数据比较脆弱。CURE采用了用多个点代表一个簇的方法,可以较好的处理以上问题。并且在处理大数据量的时候采用了随机取样,分区的方法,来提高其效率,使得其可以高效的处理大量数据。
基本目标
聚类算法CURE的算法实现。对图形进行聚类,在时间,结果方面对其性能进行评估。
算法流程
.
.
CURE的算法在开始时,每个点都是一个簇,然后将距离最近的簇结合,一直到簇的个数为要求的K。它是一种分裂的层次聚类。算法分为以下6步: 1)从源数据对象中抽取一个随机样本S。 2)将样本S分割为一组划分。 3)对划分局部的聚类。
4)通过随机取样提出孤立点。如果一个簇增长得太慢,就去掉它。 5)对局部的簇进行聚类。 6)用相应的簇标签标记数据。
算法设计
(1)基本聚类算法
procedure cluster(S, k) /*将数据集S聚类成为k个簇*/ begin
1. T := build_kd_tree(S) /*对应数据集S建立一个K-DTree T*/ 2. Q := build_heap(S) /*对应数据集S建立一个堆 Q*/ 3. while size(Q) > k do { /*聚类直至簇的个数为k */ 4. u := extract_min(Q) /*找到最近的两个簇u,v */ 5. v := u.cloest 6. delete(Q, v)
.
.
7. w := merge(u, v) /*将u,v合并为簇w */ 8. delete_rep(T, u);delete_rep(T, v);insert_rep(T, w)
9. w.cloest := x /* x is an arbitrary cluster in Q*/ 10. for each x∈Q do{ /*调节因合并带来的T和Q的变化*/ 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. } .
if (dist(w,x) < dist(w,w.cloest)) w.cloest := x
if x.cloest is either u or v { if dist(x, x.cloest) < dist(x.w)
x.cloest := cloest_cluster(T, x, dist(x,w)) else
x.cloest := w relocate(Q, x) }
else if dist(x, x.cloest) > dist(x, w) { x.cloest := w relocate(Q, x) }
.
25. insert(Q, w) 26. } end
此程序段用到的数据结构有Heap,和K-DTree。为了合并距离最短的两个聚类,需要构建一个K-DTree来找到空间中的一聚类最近的一个聚类,之后把K-DTree 中的聚类按照其与最近的聚类的距离进行排序(用的是堆排序),找到最近的两个的聚类,将它们合并(对应函数merge())。 (2)Merge算法
procedure merge(u, v) /*合并两个簇,并确定新簇的中心点和代表点*/ begin
1. w := u ∪ v
2. w.mean := /* 求新簇w的中心点*/
3. tmpSet := ? /*用来存c个代表点的集合*/ 4. for i := 1 to c do { /*选出c个代表点*/
5. maxDist := 0 /*距中心点或代表点最远的点作为代表点*/ 6. foreach point p in cluster w do { 7. if i = 1
8. minDist := dist( p, w.mean ) 9. else
.
.
10. minDist := min{ dist( p, q ) : q ∈ tmpSet } 11. if( minDist >= maxDist ) { 12. maxDist := minDist 13. maxPoint := p 14. } 15. }
16. tmpSet := tmpSet ∪ { maxPoint } 17. }
18. foreach point p in tmpSet do /*按照收缩因子α处理代表点*/ 19. w.rep := w.rep ∪ { p + α*( w.mean – p )} 20. return w end
此程序段同时描述了如何选取代表点:
对每个簇选择c个分布较好的点,通过系数α向中心收缩,其中0 <α<1。α小,收缩小,可以区分拉长的簇;α大,靠近中心点,得到的簇更紧凑。 显然,如果α=1,聚类w的代表点就是w.mean,即其中心点,此时类似于Centroid-base approach,即中心点代表簇,当α=0,此时类似于All-points approach,即所有点代表簇。
簇之间的距离定义为:两个簇的代表点之间的最小距离,即:
.