计量资料分析常用的统计学方法小结
第二章、定量资料的统计描述
频率分布表与频率分布图:
描述平均水平的统计指标(描述集中趋势):算数均数、几何均数、中位数与百分位数、众数
描述变异程度的统计指标(描述离散趋势):极差、四分位数间距、方差、标准差、变异系数
描述分布形态的统计指标:偏度系数、峰度系数
第一节 频率分布表与频率分布图
离散型定量变量和连续型定量变量的频率分布
离散型定量变量的取值是不连续的。直接清点各变量值出现的频数计算相应的频率,即为频率分布表。离散型定量变量的频率分布图可用直条图表达,以各等宽矩形直条的高度表示各组频率的大小。
连续型定量变量的取值是连续的。将数据适当分组,清点各组频数,并计算相应频率,即为频率分布表。连续型定量变量的频率分布图可用直方图表达,纵
坐标为频率密度,即频率/组距,直方图面积之和等于1.
1、离散型定量变量的频率分布
步骤:(1)直接清点各变量值出现的频数
(2)计算各组频率,累计频数,累计频率
2、连续型定量变量的频率分布
步骤:
(1)求极差(range):即最大值与最小值之差,又称为全距。
(2)决定分组组数、组距:根据研究目的和样本含量n确定分组组数,通常分为10~15个组。组距=极差/组数,为方便计,组距为极差的十分之一, 再略加调整。
(3) 列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值。
(4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。
编制频率表的注意事项:
(1)分组不宜过粗,也不宜过细。通常分为10~15个组。
(2)为计算方便,组段下限一般取较整齐的数值。确定各组段上下限时,各组段要连续但不重叠。除去最后一个组段,其余组段应包含下限值,不包含上
限值。
(3)第一组段应包含最小值,最后一组段应包含最大值。
3、频数表和频数分布图用途
(1)描述频数分布的类型
对称分布 :资料是对称分布
正偏态分布:右侧的组段数多于左侧的组段数, 频数向右侧拖尾。 偏态分布 :
若各组段的频数以中心位置左右两侧大体对称,就认为该
负偏态分布:左侧的组段数多于右侧的组段数,频 数向左侧拖尾。
(2)描述频数分布的特征
随机变量的分布具有两个特征——集中趋势与离散趋势。
①数据集中(平均):总体中的个体具有某些同性质,这些同性质是的数据趋向同一数值,表现为变量值聚集在某个中心值的周围,称为集中趋势。 ②数据变异(离散):同一总体中的个体之间又普遍存在各种差别,使得变量值向平均水平左右离散,称为离散趋势。
(3)便于发现某些离群值或极端值。
(4)便于进一步做统计分析和处理
第二节 描述平均水平的统计指标(描述集中趋势的指标)
统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。常用的平均数有三种——算数均数、几何均数、中位数。
1、算术均数:简称均数(mean)
量值在数量上的平均水平或者说是X?X2?L?Xn?XX?1?nn集中位置的特征值。常用μ表示总体均数,用 表示样本均数。
可用于反映一组呈对称分布的变
均数适用于对称分布,特别是正态分布资料。
直接计算法(利用原始数据):
加权法(利用频数表):
X1?X2?L?Xn?XX??nnf1X1?f2X2?f3X3?L?fkXk?fXX??f1?f2?f3?L?fk?f
k:频数表的组段数, f :频数, X:组中值。
2、几何均数(geometric mean G)
可用于反映一组原始观察值不对称,但经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。
(1)直接法计算公式: G?
n其中X?本组段下限值+下组段下限值2X1X2LXnlgX1?lgG?(lgX1?lgX2?L?lgXn)?nn?lgXG?lg?1nlg表示以10为底的对数;lg?1表示以10为底的反对数X?0,为正值