第一章:导论
1、什么是统计学?统计方法可以分为哪两大类? 统计学是收集、分析、表述和解释数据的科学。统计方法可分为描述统计方值。按收集方法分时:观测数据是在没有对事物进行人为控制的条件下等到的;实验数据的在实验中控制实验对象而收集到的数据。按被描述的对象与一个地区所有人口的平均年龄,“平均年龄”即为一个参数。统计量是用来描述样本特征的概括性数字度量。比如要抽样调查一个地区所有人口的平均年法和推断统计方法。 2、统计数据可分为哪几种类型?不同类型的数据各有什么特点?
按照所采用的计量尺度不同,分为分类数据、顺序数据和数值型数据;按照统计数据的收集方法,分为观测的数据和实验的数据;按照被描述的对象与时间的关系,分为截面数据和时间序列数据。 按计量尺度分时:分数数据中各类别之间是平等的并列关系,各类别之间的顺序是可以任意改变的;顺序数据的类别之间是可以比较顺序的;数值型数据其结果表现为具体的数
时间关系分时:截面数据所描述的是现象在某一时刻的变化情况;时间序列数据所描述的是现象随时间而变化的情况。
3、举例说明总体、样本、参数、统计量、变量这几个概念。
总体是包含研究的全部个体的集合。比如要检验一批灯泡的使用寿命,这一批灯泡构成的集合就是总体。样本是从总体中抽取的一部分元素的集合。比如从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。参数是用来描述总体特征的概括性数字度量。比如要调查
龄,样本中的“平均年龄”即为一个统计量。变量是说明现象某种特征的概念。比如商品的销售额是不确定的,这销售额就是
变量。 第二章:数据的收集 1、调查方案包括哪几个方面的内容?
调查目的,是调查所要达到的具体目标。调查对象和调查单位,是根据调查目的确定的调查研究的总体或调查范围。调查项目和调查表,要解决的是调查的内容。
2、数据的间接来源(二手数据)主要是公开出版或公开报道的数据;数据的
直接来源一是调查或观察,二是实验。 3、统计调查方式:抽样调查、普查、统计报表等。 抽样调查是从调查对象的总体中随机抽取一部分单间的差距,误差的主要类型有抽样误差和非抽样误差两类。
抽样误差主要是指在样本数据进行推断时所产生的随机误差(无法消除);非的具体目标;调查对象和调查单位,调查对象是根据调查目的确定的调查研究的总体或调查范围,调查单位是构成调查对象中的每一个单位;调查项目位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种数据
收集方法。特点:经济性,时效性强,适应面广,准确性高。普查是为某一特定目的而专门组织一次性全面调查。我国进行的普查主要有人中普查、工业普查、农业普查等。统计报表是按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式。
除此之外,还有重点调查和典型调查。
4、统计数据的误差通常是指统计数据与客观现实之
抽样误差是人为因素造成的(理论上可以消除) 5、统计数据的质量评价标
准:精度,即最低的抽样误差或随机误差;准确性,即最小的非抽样误差或偏差;关联性,即满足用户
决策、管理和研究的需要;及时性,即在最短的时间里取得并公布数据;一致性,即保持时间序列的可比性;最低成本,即在满足以上标准的前提下,以最经济的方式取得数据。 6、数据的收集方法分为询问调查与观察实验。 7、统计调查方案包括哪些内容?
调查目的即调查所要达到
和调查表,就是调查的具体内容;其它问题,即明确调查所采用的方式和方法、调查时间及调查组织
和实施细则。 第三章:数据整理与展示 1、对于通过调查取得的原
始数据,应主要从完整性和准确性两个方面去审核。
2、对分类数据和顺序数据主要是做分类整理,对数值型数据则主要是做分组整理。
3、数据分组的步骤:确定组数、组距,最后制成频数分布表
统计分组时“上组限不在内”,相邻两组组限间断,
上限值采用小数点。 组中值=(下限值+上限值)/2
4、频数:落在各类别中的数据个数;频数分布指把各个类别及落在其中的相形图则是分开排列。最后,置上的代表值,不受数据条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。 第四章:数据分布特征的测度
极端值的影响。中位数以及其他分位数主要适合于作为顺序数据的集中趋势测度值。
均值是就数值型数据计算应频数全部列出,并用表格形式表现出来;比例:某一类别数据占全部数据的比值;百分比:将对比的基数作为100而计算的比值;比率:不同类别数值的比值;分类数据的图示包括条形图和饼图。 5、直方图与条形图的差别:条形图是用条形的长度表示各类别频数的多少,宽度则是固定的,直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。其次,直方图的各矩形通常是连续排列,而条
1、一组数据的分布特征可以从哪几个方面进行测度?
一是分布的集中趋势反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据据远离其中心值的趋势;三是分布的形状,反映数据分布偏斜程度和峰度。 2、简述众数、中位数和均值的特点和应用场合及关系。
众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。众数主要作为分类数据的集中趋势测度值。 中位数是一组数据中间位
的,具有优良的数学性质,缺点是易受数据极端值的影响。均值主要适合于作为数值型数据的集中趋势测度值。
关系:如果数据的分布是对称的,众数、中位数和均值必定相等,即Mo=Me=xbar;如果数据是左偏分布,说明数据存在极小值,三者之间的关系表现为:xbar<Me<Mo;如果数据是右偏公布,说明数据存在极大值,必然拉动均值向极大值一方靠,则Mo<Me<xbar(图)3、为什么要计算离散系数?
第一,极差、平均差、方