分析化学中的数据处理
教学目的:用数理统计的方法处理实验数据,将会更好地表达结果,既能显示出测量
的精密度,又能表达出结果的准确度;介绍显着性检验的方法,用于检验样本值与标准值的比较、两个平均值的比较和可疑值的取舍。
教学重点:总体平均值的估计;t检验法
教学难点:对随机变量正态分布的理解;各种检验法的正确使用,双侧和单侧检验如
何查表。
1.总体与样本
总体:在统计学中,对于所考察的对象的全体,称为总体(或母体)。 个体:组成总体的每个单元。
样本(子样):自总体中随机抽取的一组测量值(自总体中随机抽取的一部分个体)。 样本容量:样品中所包含个体的数目,用n表示。例题:
分析延河水总硬度,依照取样规则,从延河取来供分析用2000ml样品水,这2000ml样品水是供分析用的总体,如果从样品水中取出20个试样进行平行分析,得到20个分析结果,则这组分析结果就是延河样品水的一个随机样本,样本容量为20。 2.随机变量 来自同一总体的无限多个测量值都是随机出现的,叫随机变量。
11?x??(单次测量的平均偏差)
,(总体平均值),??x??limx?i?in??nnnx?7.1 标准偏差
7.1.1总体标准偏差(无限次测量)
n????xi?1i???2n n-测量次数
7.1.2样本标准偏差(有限次测量)
nS??(xi?1i?x)2n?1 (n-1)-自由度
7.1.3相对标准偏差
相对标准偏差(变异系数)CV??100%
xs相对平均偏差?d?100% x7.1.4标准偏差与平均偏差
当测定次数非常多(n大于20)时,??0.797??0.8?,但是d?00.8S
7.1.5平均值的标准偏差
统计学可证明 平均值的标准偏差与单次测量结果的标准偏差存在下列关系:
?n?x?,?x??n(无限次测量)
增加测定次数,可使平均值的标准偏差减少,但测定次数增加到一定程度(有限次测量)
sx?sn,dx?dn
7.2 随机误差的正态分布
7.2.1频数分布
频数:每组中数据的个数。
相对频数:频数在总测定次数中所占的分数。
频数分布直方图:以各组分区间为底,相对频数为高做成的一排矩形。
特点:
1. 离散特性:测定值在平均值周围波动。波动的程度用总体标准偏差?表示。
2. 集中趋势:向平均值集中。用总体平均值?表示。在确认消除了系统误差的前提下,总体平均值就是真值。
7.2.2正态分布(无限次测量)
1.正态分布曲线:如果以x-?(随机误差)为横坐标,曲线最高点横坐标为0,这时表示的是随机误差的正态分布曲线。 y?f(x)?1e??x???22?2?2?, 记为:N(?,?2),
?-决定曲线在X轴的位置
?-决定曲线的形状,?小?曲线高、陡峭,精密度好;??曲线低、平坦,精密度差。 随机误差符合正态分布:(1) 大误差出现的几率小,小误差出现的几率大; (2) 绝对值相等的正负误差出现的几率相等;
(3) 误差为零的测量值出现的几率最大。 (4) x=?时的概率密度为 yx???1?2? 2.标准正态分布N(0,1)
令u?x???,y?f(x)?1?2?e?u22?y???u??12?e?u22
7.2.3随机误差的区间概率
所有测量值出现的概率总和应为1,即P(??,??)?求变量在某区间出现的概率,P(a,b)?12?bu22?212??????e?u22?2dx?1
?ae?dx
概率积分表,p248。注意:表中列出的是单侧概率,求?u间的概率,需乘以2。
随机误差出现的区间 测量值出现的区间 概率
u=?1 x=??1? 0.3413×2=68.26% u=?2 x=??2? 0.4773×2=95.46%
u=?3 x=??3? 0.4987×2=99.74%
结论:
1.随机误差超过3?的测量值出现的概率仅占0.3%。
2.当实际工作中,如果重复测量中,个别数据误差的绝对值大于3?,则这些测量值可舍去。<例>例:已知某试样中Fe的标准值为3.78%,?=0.10,又已知测量时没有系统误差,
求1)分析结果落在(3.78±0.20)%范围内的概率;2)分析结果大于4.0%的概率。
x?u0.20?2.0 查表,求得概率为2*0.4773=0.9546 =95.46% 0.10x?u4.00?3.78查表求得分析结果落在3.78-4.00%?2.2,
0.10解:1)u???2)分析结果大于4.0%的概率,u???以内的概率为0.4861,那么分析结果大于4.00%的概率为0.5000-0.4861=1.39%
7.3 少量数据的统计处理
7.3.1 t分布曲线(有限次测量中随机误差服从t分布)
有限次测量,用S代替?,用t代替u
t?x??x???n sxs置信度(P):表示的是测定值落在??tSx范围内的概率,当f??,t即为u 显着性水平(?)=1-P:表示测定值落在??tSx范围之外的概率。
t值与置信度及自由度有关,一般表示为t?,f,见p250,表7-3(双侧表) 7.3.2 平均值的置信区间 ??x?tSn 意义:表示在一定的置信度下,以平均值为中心,包括总体平均值?的范围。
从公式可知只要选定置信度P,根据P(或?)与f即可从表中查出t?,f值,从测定的x,s,n值就可以求出相应的置信区间。