应用多元统计分析习题解答_第五章

由天下分享时间：2025/3/6 18:28:19 加入收藏我要投稿点赞

第五章聚类分析

判别分析和聚类分析有何区别

答：即根据一定的判别准则，判定一个样本归属于哪一类。具体而言，设有n个样本，对每个样本测得p项指标（变量）的数据，已知每个样本属于k个类别（或总体）中的某一类，通过找出一个最优的划分，使得不同类别的样本尽可能地区别开，并判别该样本属于哪个总体。聚类分析是分析如何对样品（或变量）进行量化分类的问题。在聚类之前，我们并不知道总体，而是通过一次次的聚类，使相近的样品（或变量）聚合形成总体。通俗来讲，判别分析是在已知有多少类及是什么类的情况下进行分类，而聚类分析是在不知道类的情况下进行分类。

试述系统聚类的基本思想。

答：系统聚类的基本思想是：距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。

对样品和变量进行聚类分析时，所构造的统计量分别是什么简要说明为什么这样构造答：对样品进行聚类分析时，用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为（一）闵可夫斯基距离：dij(q)q取不同值，分为（1）绝对距离（q?1）

p?(?Xik?Xjk)k?1pq1/q

dij(1)??Xik?Xjk

k?1（2）欧氏距离（q?2）

dij(2)?(?Xik?Xjk)k?1p21/2

（3）切比雪夫距离（q??）

dij(?)?maxXik?Xjk1?k?p

1pXik?Xjk（二）马氏距离 dij(L)? p k ? 1 X ik ? X jk

2（三）兰氏距离 dij(M)?(Xi?Xj)?Σ?1(Xi?Xj)

对变量的相似性，我们更多地要了解变量的变化趋势或变化方向，因此用相关性进行衡量。将变量看作p维空间的向量，一般用

?（一）夹角余弦 cos??ij

?Xk?1pk?1pikXjkp 2(?Xik)(?X2jk)k?1（二）相关系数

p (Xik?Xi)(Xjk?Xj)?k?1 rij? pp (Xik?Xi)2?(Xjk?Xj)2?k?1k?1

在进行系统聚类时，不同类间距离计算方法有何区别选择距离公式应遵循哪些原则答：设dij表示样品Xi与Xj之间距离，用Dij表示类Gi与Gj之间的距离。（1）. 最短距离法

Dij

?Xi?Gi,Xj?Gjmindij Dkr?

（2）最长距离法

Xi?Gk,Xj?Grmindij?min{Dkp,Dkq}

Dpq?Xi?Gp,Xj?Gqmaxdij

Dkr?Xi?Gk,Xj?Grmaxdij?max{Dkp,Dkq}

（3）中间距离法 121222 Dkr ?Dkp?Dkq??Dpq 22

其中

（4）重心法

2Dpq?(Xp?Xq)?(Xp?Xq) Xr?1(npXp?nqXq) nr2Dkr?npnr2Dkp?nqnr2Dkq?npnqnr22Dpq

（5）类平均法

1D?npnq2pq1d D???nknrXi?GpXj?Gj2ij2krXi?GkXj?Gr??d2ij?npnrD?2kpnqnr2 Dkq

（6）可变类平均法

n2 Dkr ?(1??)(pnr

2Dkp?nqnr22 Dkq)??Dpq其中?是可变的且? <1

（7）可变法

2Dkr?1??222(Dkp?Dkq)??Dpq 其中?是可变的且? <1 2nt（8）离差平方和法

St??(Xit?Xt)?(Xit?Xt)

t?1

nk2D?D?D?Dpq

nr?nknr?nknr?nk2kr2kp2kqnk?npnk?nq通常选择距离公式应注意遵循以下的基本原则：

（1）要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。

（2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理，则通常就可采用欧氏距离。

（3）要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题，我们应根据研究对象的特点不同做出具体分折。实际中，聚类分析前不妨试探性地多选择几个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以确定最合适的距离测度方法。

试述K均值法与系统聚类法的异同。

答：相同：K—均值法和系统聚类法一样，都是以距离的远近亲疏为标准进行聚类的。

不同：系统聚类对不同的类数产生一系列的聚类结果，而K—均值法只能产生指定类数的聚类结果。

应用多元统计分析习题解答_第五章

第五章聚类分析判别分析和聚类分析有何区别答：即根据一定的判别准则，判定一个样本归属于哪一类。具体而言，设有n个样本，对每个样本测得p项指标（变量）的数据，已知每个样本属于k个类别（或总体）中的某一类，通过找出一个最优的划分，使得不同类别的样本尽可能地区别开，并判别该样本属于哪个总体。聚类分析是分析如何对样品（或变量）进行量化分类的问题。在聚类之前，我们并

推荐度：

点击下载文档文档为doc格式

应用多元统计分析习题解答_第五章

应用多元统计分析习题解答_第五章

相关推荐文档

精选图文

热门排序

推荐文章

热门标签

相关文章列表