1、 统计学:是收集、汇总和分析统计数据的科学和艺术。 2、 统计数据的分析是统计学的核心内容,它是通过统计描述和
统计推断的方法探索数据内在规律的过程。
3、普查:是为某一特定目的而专门组织的一次性全面调查,如人口普查、工业普查、农业普查等。
4、抽样调查的特点:经济性;时效性高;适应面广;准确性高。 5、调查方案:是指导整个过程的纲领性文件,其内容包括调查目的、调查对象和调查单位、调查项目和调查表等内容。 6、组距分组的几个步骤:一、确定组数二、确定组距三、确定组限和进行次数分配四、绘制统计图五、分析。)
7、为消除组距不同对频数分布的影响,需要计算频数密度,即频数密度=频数/组距,用频数密度才能准确反映频数分布的实际情况。
8、以组中值作为代表值有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组距中值两侧呈对称分布。
9、描述统计的内容也包括频数分布、但主要是关于集中趋势和离中趋势的描述问题。
10、众数:是一组数据中出现次数最多的变量值。从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数,记为M。
11、众数是一组数据中心位置的一个代表值。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可以不存在;如果有多个高峰点,实际上也可以认为有多个众数。
12、协方差的大小会受到计量单位和数据均值水平的影响,从而使不同相关总体之间的相关程度缺乏可比性。
13、时间系列:是反映现象随时间的变化而变化的数据系列,也称为时间数列或动态数列。
14、用报告期水平减去基期水平,就等于增长量。其中,当基期水平为上期水平时,就称为逐期增长量,当基期水平为某个时期的固定发展水平时,就称为累计增长量。
15、报告水平与基期水平之比,称为发展速度。其中,当基期水平为上期水平时,就称为环比发展速度 ;当基期水平为某个时期的固定发展水平时,就称为定基发展速度。
16、序时平均数也称为动态平均数,它反映现象在一定时期内发展水平达到的一般水平。由于指标形式分绝对数、相对数和平均数等,所以对其平均的方法存在差异性。
17、绝对数有时期数和时点数之分,两者的区别主要在于是否具有可加性。
18、几何平均法的应用条件是要求现象呈现均匀变动。如果现象发生大起大落的变化,用几何平均法所计算的平均发展速度将失去代表性。
19、累计法考虑各时期的发展状况,不只是受最初和最末两个极端值的影响。
20、移动平均法是趋势变动分析的一种较简单的常用方法。该方法的基本思想和原理是,通过扩大原时间序列的时间间隔,并按一定的间隔长度逐期移动,分别计算出一系列移动平均数,这些平均数形成的新的时间序列对原时间序列的波动起到一定的修匀作用,削弱了原序列中短期偶然因素的影响,从而呈现出现象发展的变动趋势。该方法可以用来分析预测销售情况、库存、股价
或其他趋势。
移动平均法的优点在于计算简便,运用灵活,不受现象复杂性影响。
其缺点主要有三个:一是失去首尾两头的数据;二是不能较好地进行长期趋势的预测;三是对周期性处理不好就会影响数列的趋势性。
21、我们应该先剔除趋势值的影响,再计算季节指数。(第一步:对原数据计算移动平均数; 第二步:计算具体的季节比率; 第三步:计算月平均值,消除不规则波动; 第四步:计算季节比率; 第五步:使用季节比率进行预测。)
22、指数作为一种对比性的统计指标具有相对数的形式,通常表现为百分数。
23、统计指数在经济分析上具有十分广阔的应用领域,它可以是不同时间的现象水平的对比,也可以是不同空间(如不同国家、地区、部门、企业等)的现象水平的对比,或者,是现象的实际水平与计划(规划或目标)水平的对比。 24、统计指数可分为个体指数和总指数。
25、总指数是考察整个总体现象的数量对比关系的指数。总指数与个体指数的区别不仅在于考察范围不同,还在于考察方法不同。 26、如果一个指数的指数化指标具有质量指标的特征,也即表现为平均数或相对数的形式,它就属于“质量指标指数”。物价指数、股份指数和成本指数等都是质量指标指数;如果一个指数的指数化指标具有数量指标的特征,也即具有总量或绝对数的形式,它一般就属于“数量指标指数”。销售旦指数和生产指数则是数量指标指数。
27、常规的综合评价方法有两种:一种是“简易计分法”,另一种是常规方法是“参数指标法”。
28、构建标准比值综合评价指数的步骤:1、建立综合评价指标体系; 2、确定评价公式样 3、确定各项指标的评价标准和权数学 4、计算企业的个体指数和综合评价指数。
29、概率分布是一种数学模型,它反映变量取值与其发生的概率之间的关系。其特点是:变量取值的精确度越高,相应的概率越小;变量取值的误差越大,相应的概率也越大。
30、二项分布主要描述只有两种结果可能出现的事件的分布。这两种结果分别用“是”和“非”来区别。
31、泊松分布是主要描述稀有事件的分布。例如,在单位时间内电话交换台收到电话呼叫的次数、来到公共汽车站的乘客人数、布上的疵点、啤酒中的杂质等,也称为计点分布或疵点分布。 32、完成简单随机样本的选择过程中,当我们并不想将一个管理人员多次先入时,就可以忽略已出现过的随机数,这种选择样本的方式叫做“无放回抽样”。
33、出现过的随机数仍选入样本,则我们进行的是“放回抽样”。抽样程序中,放回抽样是一种取得简单随机样本的有效途径,然而,无放回抽样更为常用。
34、大样本:在抽样过程中,把抽样数目大于30的样本。而把抽样数目小于30的样本称为小样本。
35、必要的抽样数目受以下因素影响:1、总体方差点;2、允许误差范围;3、置信度假 4、抽样方法; 5、抽样组织方式。 36、分层抽样是通过分组来提高样本样本的代表性的。
37、等距抽样最显著的优越性是能提高样本单位分布的均匀性,样本代表性较强。
38、在整群抽样过程中,划分群体的原则是:应合群间差异尽可能小,使各群体内的总体单位之间的差异尽可能大。
39、假设检验主要的两个特点:1、假设检验所采用的逻辑推理方法是反证法。2、这里的合理与否,所依据的是“小概率事件实际不可能发生的原理”。
40、原假设和备择假设不是随意提出的,应根据所检验问题的具体背景而定。常常是采取“不轻易拒绝原假设”的原则,即把没有充分理由不能轻易否定的命题作为原假设,而相应地把没有足够把握就不能轻易肯定的命题作为备择假设。
41、左侧检验和右侧检验统称为单侧检验。采用哪种假设,要根据所研究的实际问题而定。如果对所研究问题只需判断有无显著差异或要求同时注意总体参数偏大或偏小的情况,则采用双侧检验。
42、当原假设H0为真,但由于样本的随机性使样本统计量落入了拒绝区域,这时所作的判断是拒绝原假设。这类错误称为第一类错误,亦称真错误。
43、当原假设H0不为真,但由于样本的随机性使样本统计量落入接受区域,这时的判断是接受原假设。这类错误称为第二类错误,亦称取伪错误。
44、当N固定时,减少A必然导致B增大;反之,减少B必然增大A。若要同时减少A和B,或给定A而使B减少,就必须增大样本容量N。
45、区间估计与假设检验的关系:1、抽样估计或称参数估计是根据样本资料估计总体参数的真值,而假设检验是根据样本资料来检验对总体参数的先验假设是否成立。2、区间估计通常求得的是以样本估计值为中心的双侧置信区间,而假设检验不仅有双侧检验也常常采用单侧检验,视检验的具体问题而定。3、区间估计六足于大概率,通常以较大的把握程度1-a去估计总体参数的置信区间。而假设检验立足于小概率,通常是给定很小的显著性水平a去检验对总体参数的先验假设是否成立。在假设检验中,人们更重视拒绝区域。所以假设检验运用的是概率意义上的反证法,在建立假设时本着“不轻易拒绝原假设”的原则。区间估计中的置信区间对应于假设检验中的接受区域,置信敬意之外的区域就是拒绝区域。
46、假设检验的结论是在给定的显著性水平下作出的。因此,在不同的显著性水平下,对同一检验问题所下的结论可能完全相反。 47、相关分析:就是用一个指标来表明现象间相互依存关系的密
切程度。
48、回归分析:就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。
49、相关分析和回归分析只是定量分析的手段。通过相关与回归分析,虽然可以从数量上反映现象之间的联系形式及其密切程度,但是,现象内在联系的判断和因果关系的确定,必须以有关学科的理论为指导,结合专业知识和实际经验进行分析研究,才能正确解决。因此。在应用时要把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。
50、样本回归子函数与总体回归子函数的区别:1、总体回归线是未知的,它只有一条;而样本回归线则是根据样本数据拟合的,具有大量性。2、总体回归子函数中的B1和B2是未知的参数,表现为常数,而样本回归子函数中的B1和B2是随机变量,其具体数值随所抽取的样本观测值不同而变动。3、总体回归子函数中的误差项U1是不可直接观测的,而样本回归子函数中的残差项E1可以计算出具体数值。
51、理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明 能很好地解释现实的现象。
52、一级检验:又称为统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体双可分为拟合程度评价和显著性检验。
53、二级检验:又称为经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验等。
54、拟合程度:是指样本观测值聚集在样本回归线周围的紧密程度。
55、可决系数是对回归模型拟合程度的综合度量,可决系数越大,模型拟合程度越高;可决系数越小,则 样本拟合程度越差。 56、回归分析中的显著性检验包括两方在同的内容:一是对各回归系数的显著检验;二是对整个回归方程的显著性检验。 57、对回归系数B2进行显著性检验的基本步骤:首先,提出假设;其次,计算回归系数的t值;第三,确定显著水平a=5%和临界值;最后,作出判断。
一、某车间工人日产量资料如下 :计算该车间平均每个工人的日产量及标准差 .
?xf?1700?17
f100? 标准差
(x?x)f
????3 ?f? 平均日产量
x?2
甲、乙两班同时对《统计学原理》课程进行测试,甲班平均成绩为70分,标准差为9.0分;乙班的成绩分组资料如下 :(计算乙班学生的平均成绩,并比较甲、乙两班哪个班的平均成绩更有代表性?)
乙班学生的平均成绩
?
日产量(件)工人数(人)x?10-121013-1520 乙班学生的标准差 16-1830??19-2140x70按成绩分组v? ???0.129学生人数(人)? 甲班学生的变异系数 ? 9 . 0 乙班学生的变异系数 ?
?xf?3870?77.4?f50?(x?x)f?9.29?f2v? ??x?9.29?0.12077.4因为0.129 〉0.120,所以乙班学生的平均成绩更具有代表性 60以下260-706
70-8025二、时间序列计算 80-901290-1005已知某商店1997年销售额比1992年增长64%,1998年销售额比1992年增长86%,问1998年销售额比1997年增长多少?1992 1998年间,平均增长速度是多少?
? 1998年销售额比1997年增长的百分数
1992 1998年平均增长速度
三、统计指数计算
某农贸市场三种商品的价格和销售量资料如下:
试根据上表资料计算:拉氏形式的价格指数;派氏形式的价格指数 拉氏价格指数
派氏价格指数
四、区间估计计算
1、当总体方差已知时,求μ的置信区间 。例题:已知某零件的直径服从正态分布,从该批产品中随机抽取10件,测得平均直径为202.5mm,已知总体标准差σ=2.5mm,试建立该种零件平均直径的置信区间,给定置信度为0.95 。
?1?86%?1?13.41%1?64%x?1?nR?1?1.86?1?10.90%6Kp??p1q04520基期??1.2384?123.84%?p0q0商品3650零售价A35600124.17%B?1.2417?54510C8报告期零售价4610零售量350500120零售量250420100?pq1Kp?1??p0q1n?10,x?202.5,??2.5,z?1.96?x?z?x?z?n?1.962.5?1.5510x??x?X?x??x202.5?1.55?X?202.5?1.55
该种零件平均直径的置信区间为::[200.95,204.05]
2、当总体方差未知时,求μ的置信区间 。例题:某企业生产一种新的电子元件,用简单随机重复抽样方法抽取100只作耐用时间试验,测试结果,平均寿命6000小时,标准差300小时,试在95.45%(t=2)概率保证下,估计这种新电子元件平均寿命区间
n?100,x?6000,s?300,t?2x??x?X?x??xs300??30(小时)n1006000?60?X?6000?60?x??x??xtx?2?30?60 新电子元件平均寿命区间为: 5940-----6060(小时)
3、 当总体比例的置信区间估计 。例题:某机械厂日产某种产品8000件,现采用纯随机不重复抽样方式,从中抽取400件进行观察,
其中有380件为一级品,试以概率95.45%的可靠程度推断全部产品的一级品率及一级品数量的范围。
p?380400?100%?95%?p?P(1?P)n?95%(1?95%)400?1.09%在概率五、总体均值的假设检验 95.45%的保证下,全及一级品率:1、例: 根据过去大量资料,某厂生产的产品的使用寿命服从正态分布N(1020,1002)。现从最近生产的一批产品中随机抽取16件,
P?p?0.05?的显著性水平下判断这批产品的使用寿命是否有显著提高??95%?2?1.19%测得样本平均寿命为1080小时。试在 p? 解:根据题意,提出假设:H0: μ=1020;H1: μ97>1020., ?92.82% 18%-1020? 检验统计量 Z=x??0=1080=2.4? 检验统计量由α=0.05,查表得临界值Z0.05=1.645
? 由于Z=2.4>Zα=1.645,所以应拒绝H0而接受H1,即这批产品的使用寿命确有显著提高
2、例: 从长期的资料可知,某厂生产的某种电子原件服从均值为200小时,标准差未知的正态分布。通过改变部分生产工艺后,抽得10件做样本,均值为204.8(小时), 标准差S=5.789 ,试问电子原件的平均值数据是否有所提高 。
? 解:根据题意建立如下假设:
?
? ?
?/n100/16H0 ??200 H1 ??200检验统计量 x??0204.8?200???2.6225.789/10S/n由α=0.05,查表得临界值 t ? ( n ? 1 ) ? t 0 .05 ( 10 。 1)?1.8331?由于, T ? ( n ? 1 ) ? 1 . 8331 所以拒绝H0接受H1,即可以接受“在新工艺下,这种电子元件的平均值有所提高的? 2.622t?假设”
3、 例: 调查人员在调查某企业的主要生产线时,被告知性能良好生产稳定,产品合格率可达99%。随机抽查了200件产品,其中
195件产品合格,判断厂方的宣称是否可信?(α=10%)
? 解:依题意,可建立如下假设: H0 P?0.99
? 样本比例 0.975 ? 检验统计量: Z
H1 P?0.99?? 给定α=0.1,查正态分布表得
?/2p?P00.975?0.99???1.3590.975?0.025p(1?p)200n??/2??0.05?1.645? 由于 ? ? ,应接受原假设,即认为厂方的宣称是可信的 U