b、准确性审核:检查数据是否真实反映客观实际情况,内容是否符合实际;检查数据是否有错误,计算是否正确等 (2)二手数据:
a、适用性审核:弄清楚数据的来源、数据的口径以及有关的背景材料;确定数据是否符合自己分析研究的需要
b、时效性审核:尽可能使用最新的数据
八、数据的整理与显示(基本问题)
(1)要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的
(2)对分类数据和顺序数据主要是做分类整理 (3)对数值型数据则主要是做分组整理
(4)适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据
第四章 数据的概括性度量
一、集中趋势和离散趋势的度量:
(1)集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。描述集中趋势所采用的测度值分为:众数、中位数和分位数、平均数。
(2)离散趋势是数据分布的另一个重要特征,它所反映的各变量值远离其中心值得程度,因此也称为离中趋势,数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差,反之,代表性越好。描述数据离散程度所采用的测度值,根据所依据的数据类型的不同主要有异种比率、四分位差、方差和标准差。此外还有极差、平均差以及测度相对离散程度的离散系数。
二、众数、中位数和平均数:
(1)三者的关系:从分布的角度看,众数始终是一组数据分布的最高峰值,中位数的处于一组数据中间位置上的值,而平均数则是全部数据的算数平均。因此,对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:
(a)如果数据的分布是对称的,众数、中位数、平均数必定相等
(b)如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠近,而众数和中位数由于是位置代表值,不受极值的影响,因此三者的关系为众数>中位数>平均数
(c)如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值的一方靠近,则众数<中位数<平均数。 (2)特点及应用场合
(a)众数是一组数据的峰值,是一种位置代表词,不受极端值的影响,具有不唯一性,对于一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。虽然对于顺序数据以及数值型数据也可以计算众数,但众数主要适合于作为分类数据的集中趋势测度值。
(b)中位数是一组数据中间位置上的代表值,主要适合于作为顺序数据的集中趋势测度值,虽然对于顺序数据可以使用众数,但以中位数为宜。
(c)平均数是就数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。平均数主要适合于作为数值型数据的集中趋势测度值。当数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,这是我们应该选择平均数作为集中趋势的代表值。但平均数的主要缺点是易受数据极端值得影响,对于偏态分布的数据,平均数的代表性较差。因此,当数据为偏态分布,特别是当偏斜的程度较大时,我们可以考虑选择众数或中位数等位置代表词。
三、异种比率:
是非众数组的频数占总频数的比率。主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差。反之,越小,众数的代表性越好。异种比率重要适合测度分类数据的离散程度。当然,对于顺序数据以及数值型数据也可以计算异种比率。
四、四分位差:
是上四分位数与下四分位数之差。反映了中间50%数据的离散程度,其数值越小,说明中间数据越集中,数值越大,说明中间数据越分散。四分位差不受极值的影响。主要用于测度顺序数据的离散程度,当然,对于数值型数据也可以计算四分位差,但不适合于分类数据。
五、方差和标准差:
极差是一组数据的最大值与最小值之差,也称为全距。它容易受极端值的影响,由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。
平均差是各变量值与其平均数离差的绝对值的平均数,平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确的反映一组数据的离散状况。平均差越大说明数据的离散程度就越大,反之,越小。为了避免离差之和等于0而无法计算平均差这一问题,平均差在计算时对离差取了绝对值,以离差的绝对值来表示总离差。
方差(或标准差)是实际中应用最广泛的离散程度测度值,因此它能准确的反映出数据的离散程度。方差是各变量值与其平均数离差平方的平均数。
标准差是方差的平方根,与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚,因此,在对实际问题进行分析时,我们更多的使用标准差。
六、标准分数:
标准分数是指变量值与其平均数的离差除以标准差后的差。可以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据,也给出了一组数据中各数值的相对位置,例如,如果某个数值的标准分数为-1.5,我们就知道该数值低于平均数1.5倍的标准差。在对多个具有不同量纲的变量进行处理时,常常需要对各变量数值进行标准化处理。标准分数具有平均数为0、标准差为1的特性。实际上,标准分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变改组数据分布的形状,而只是使该组数据的平均数为0、标准差为1。
七、经验法则:
经验法则表明:当一组数据对称分布时
(1)约有68%的数据在平均数加减1个标准差的范围之内 (2)约有95%的数据在平均数加减2个标准差的范围之内 (3)约有99%的数据在平均数加减3个标准差的范围之内
八、切比雪夫不等式:
如果一组数据不是对称分布,经验法则就不再适用,这时就要使用切比雪夫不等式,它对任何分布形状的数据都适用,对于任意分布形态的数据,根据切比雪夫不等式,
至少有(1-1/ )的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数。对于k=2、3、4,该不等式的含义是:
(1)至少有75%的数据在平均数加减2个标准差的范围之内 (2)至少有89%的数据在平均数加减3个标准差的范围之内 (3)至少有94%的数据在平均数加减4个标准差的范围之内
九、相对离散程度:离散系数的作用:
极差、平均差、方差和标准差等都是反映数据分散程度的绝对值,其数值的大小一方面取决于原变量值本身水平高低的影响,也就是与变量的平均数大小有关,变量值绝对水平高的,离散程度的测度值自然也就大。绝对水平小的离散程度的测度值自然也就小;另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此对于平均水平不同或者计量单位不同的不同组别的变量值,是不能用上述离散程度的测度值直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数 。离散系数是指一组数据的标准差与其相应的平均数之比。离散系数是测度数据离散程度的相对统计量,通常是就标准差来计算的,因此也称为标准差系数,离散系数的作用主要是用于比较对不同样本数据的离散程度。离散系数大的说明数据的离散程度大,离散系数小的说明数据的离散程度小。
十、测度数据分布形状的统计量:
(1)偏态:如果一组数据的分布的对称的,则SK=0,如果SK明显不等于零,表明分布是非对称的。当SK为正值时,表示正偏离差值较大,可以判断为正偏或右偏;反之,为负偏或左偏,SK的值越大,表示倾斜的程度就越大
(2)峰态:如果一组数据服从标准正态分布,则峰态系数的值等于0,若峰态系数的值明显不同于0,表明分布比正太分布更平或更尖,通常称为平峰分布或尖峰分布。当K>0时为尖峰分布,当K<0时为扁平分布
第五章 概率与概率分布
一、常见的离散型概率分布:
(1)两点分布
(2)二项分布:n重伯努利试验满足下列条件:a、一次实验只有两种结果,即成功和失败,这里的成功是指感兴趣的某种特征。b、一次实验成功的概率是p,失败的概率是q=1-p,而且概率p对每次实验都是相同的。c、实验是相互独立的。d、实验可以重复进行n次。e、在n次试验中,成功的次数对应一个离散型随机变量,用X表示
(3)泊松分布:重要特征:a、所考查的事件在任意两个长度相等的区间里发生一次的机会均等。b、所考察的事件在任何一个区间里发生与否和在其他区间里发生与否没有相互影响,即是独立的。泊松分布的另一个重要用途是作为二项概率分布的近似。对一个n重伯努利实验,p代表每次伯努利实验成功的概率,当实验次数n相对很大,成功概率p相对很小,而乘积np大小适中时,泊松分布的一般表达式与二项分布的一般表达式近似相等,
(4)超几何分布:二项分布只适合于重复抽样,但在实际抽样中,很少采用重复抽样。不过,当总体的元素数目N很大而样本容量n相对于N很小时,二项分布仍然适用。但如果是采用不重复抽样,各次实验并不独立,成功的概率也互不相等,而且总体元素的数目很小或样本容量n相对于N来说较大时,二项分布就不再适用,这时,样本中成功的次数则服从超几何分布。
超几何分布与二项分布的关系:由于呈几何分布所描述的实验与n重伯努利实验相似,所以超几何分布与二项分部之间也存在着十分特殊而有意义的联系,从直观上来看吗,如果总体中的元素个数N很大,使得M的有限变化相对于N而言比较小,那么超几何分布趋向于二项分布。这是因为在N趋于无穷大时,每次抽样的样品即使不放回,对其后代表成功的事件发生的概率也不会有太大影响,可以近似认为不变,二者恰好满足了二项分布的前提。
二、 正态分布的曲线的性质:
(1)正态曲线的图形是关于x=?的对称钟形曲线,且峰值在x=?处、 (2)正态分布的两个参数均值?和标准差?一旦确定,正态分布的具体形式就唯一确定,不同参数取值的正太分布构成一个完整的正态分布族。
(3)正态分布的均值?可以是实数轴的任意数值,他决定正态曲线的具体位置,标准差?相同二均值不同的正太曲线在坐标轴上体现为水平位移