好文档 - 专业文书写作范文服务资料分享网站

K-means分类中K的最优值实例分析

天下 分享 时间: 加入收藏 我要投稿 点赞

K-means分类中K的最优值实例分析

以下我们将用鸢尾花(iris)数据进行实例分析,数据来自维基百科-----安德森鸢尾花卉数据集,该数据为150X4矩阵,其中每一组行向量代表每一种花的数据,列向量分别代表花萼长度、花萼宽度、花瓣长度、花瓣宽度。一共150多花的数据,我们运用K-means算法对150组数据进行分类,并按照本文的算法分析出最有k值,对其他关于鸢尾花(iris)的研究起到参照的作用。

4.1 编写程序计算W(k)的值

从文本中导入数据并命名为Z,以k=2为例进行分类(k为其他值只需略改程序)然后我们对分类后的数据进行分离,并且用分离后的数据计算出组内距离平方和函数W(k),作出图像和表格确定最优k值。 # 程序7:

[u re]=K-means(Z,2); Y=[Z,u];

[m,n]=size(Y);

k=0;j=0;l=0;q=0;w=0; for i=1:m

if Y(i,5)==1 k=k+1; end

if Y(i,5)==2 j=j+1; end

if Y(i,5)==3 l=l+1; end

if Y(i,5)==4 q=q+1; end

if Y(i,5)==5 w=w+1; end end

M1=zeros(k,4); M2=zeros(j,4); M3=zeros(l,4); M4=zeros(q,4); M5=zeros(w,4);

x=1;y=1;z=1;c=1;v=1; for i=1:m

if Y(i,5)==1

M1(x,1)=Y(i,1); M1(x,2)=Y(i,2); M1(x,3)=Y(i,3); M1(x,4)=Y(i,4); x=x+1; end

if Y(i,5)==2

M2(y,1)=Y(i,1); M2(y,2)=Y(i,2); M2(y,3)=Y(i,3); M2(y,4)=Y(i,4); y=y+1; end

if Y(i,5)==3

M3(z,1)=Y(i,1); M3(z,2)=Y(i,2); M3(z,3)=Y(i,3); M3(z,4)=Y(i,4); z=z+1; end

if Y(i,5)==4

M4(c,1)=Y(i,1); M4(c,2)=Y(i,2); M4(c,3)=Y(i,3); M4(c,4)=Y(i,4); c=c+1; end

if Y(i,5)==5

M5(v,1)=Y(i,1); M5(v,2)=Y(i,2); M5(v,3)=Y(i,3); M5(v,4)=Y(i,4); v=v+1; end end

D1=sum(pdist(M1).^2)*2 D2=sum(pdist(M2).^2)*2 D3=sum(pdist(M3).^2)*2 D4=sum(pdist(M4).^2)*2 D5=sum(pdist(M5).^2)*2 W1=(D1/k)/2

W2=(D1/k+D2/j)/2

W3=(D1/k+D2/j+D3/l)/2

W4=(D1/k+D2/j+D3/l+D4/q)/2

W5=(D1/k+D2/j+D3/l+D4/q+D5/w)/2

4.2作出图表如下:

表4.1 iris数据的一阶差分

K D1 D2 D3 D4 D5

Wk logWk

1 204411.2

681.3706

2 3026.52 24016.4

3 4937.8 1515.1 1814.84

4 1197.02 1515.1 1089.98 545.96 57.22847

5 137.02 828.96 259.32 1531.28 545.96 49.85942

152.348 78.85144

6.524106358 5.026167378 4.367565576

一阶差分 -1.49793898 -0.658601802 -0.320514074 4.047051502 3.909207445 -0.137844056

得到的折线图如下:

图4.1 iris数据的log(W(k))关于k的函数图像

通过得到的一阶差分和折线图,我们发现k的值从1到2时log(W(k))变化最快,但k的值从1到2时log(W(k))变化仍旧很大,因此k取2或者3都是可以考虑的。

K-means分类中K的最优值实例分析

K-means分类中K的最优值实例分析以下我们将用鸢尾花(iris)数据进行实例分析,数据来自维基百科-----安德森鸢尾花卉数据集,该数据为150X4矩阵,其中每一组行向量代表每一种花的数据,列向量分别代表花萼长度、花萼宽度、花瓣长度、花瓣宽度。一共150多花的数据,我们运用K-means算法对150组数据进行分类,并按照本文的算法分析出最有k值,对其他关于
推荐度:
点击下载文档文档为doc格式
023dn3bxvb9acj39qpyw5s23r4b08q00eon
领取福利

微信扫码领取福利

微信扫码分享