好文档 - 专业文书写作范文服务资料分享网站

统计学的经典笔记(doc 11页)

天下 分享 时间: 加入收藏 我要投稿 点赞

统计学的经典笔记(doc 11页)

部门: xxx 时间: xxx

整理范文,仅供参考,可下载自行编辑

统计学笔记

第一节 统计学概述

一、什么是统计学 1、统计学的定义:

统计学是一门关于数据的科学,是一门关于数据的收集、整理、分析、解释和推断的科学。 2、统计的三种含义:

统计工作对现象的数量进行搜集、整理和分析的活动过程

统计资料通过统计实践活动取得的说明对象某种数量特征的数据 统计学是关于数据的一门科学

三者之间的关系:统计工作与统计资料是工作与工作成果关系,三者之间是实践与理论关系 3、统计学的研究对象:

一切自然与社会现象总体的数量特征及其相互关系 特点:数量性、总体性、变异性 4、统计学的研究方法

大量观察法、统计指标法、统计推断法

二、统计学的产生与发展

1、古典统计学(17世纪中——18世纪中):记述学派和政治算术学派

2、近代统计学(18世纪末——19世纪末):数量统计学派和社会统计学派

3、现代统计学(20世纪至今)

三、统计学的分类

1、理论统计学:研究的内容是统计的一般理论和方法 * 描述统计学

用图形、表格和数值方法来汇总数据的统计学。 * 推断统计学

用样本数据对总体的某些特征进行估计和假设检验的统计学。 2、应用统计学:研究的内容是运用于某一特定领域的统计问题

第二节 统计学的基本概念

一、统计总体与总体单位

1、统计总体:由客观存在的、在同一性质基础上结合起来的许多个别单位所形成的集合。

具有大量性、同质性和变异性等特点

2、总体单位:指构成总体的个体即每一个单位。

总体由总体单位构成,要认识总体必须从总体单位开始,总体是统计认识的对象。

总体或总体单位的区分不是固定的:同一个研究对象,在一种情况下是总体,在另一种情况下可能成了总体单位。 3、统计总体的种类

(1)有限总体:指所包含的单位数目有限的总体 无限总体:指所包含的单位数目无限的总体 (2)大总体

小总体:指大总体的各组成部分

(3)可加总体:指总体单位可以合计的总体 不可加总体:指总体单位不能合计的总体 二、标志与变量

1、标志:指总体单位所具有的属性和特征,标志的具体表现称为标志值。

(1)品质标志:是表明事物“质” 的特性的标志

数量标志:是表明事物“量” 的特性的标志 其中,可变的数量标志又被叫作变量

统计研究是从登记标志开始,并通过对标志的综合来反映总体的数量特征,因此标志是统计研究的起点。

(2)总体单位标志分为不变标志(标志表现无差异)和变异标志(标志表现有差异) 2、变量的种类

确定性变量:指受确定性因素影响的变量 随机变量:指受随机因素影响的变量

连续型变量:在一个区间内可以连续不断取值的变量

离散型变量:其一切可能取值都以整数形式出现,并可以一一列举的变量

三、指标与指标体系

1、统计指标:反映社会经济现象总体数量特征的概念及其具体数值 构成要素:时间限制、空间限制、指标名称、具体数值、计量单位 性质:数量性、具体性、综合性 2、标志与指标的联系与区别: 联系:

(1)标志是总体指标的来源和基础,指标则是标志的综合。 (2)数量标志与指标之间存在着变换关系。 区别:

(1)标志是说明总体单位特征的,指标则是说明统计总体数量特征的。

(2)有的标志用数值表示,有的标志用文字表示,而指标都是用数值表示的。

3、统计指标的分类

(1)按表现形式分:总量指标、相对指标、平均指标 (2)按内容特征分:数量指标、质量指标 * 数量指标:

反映的是所研究总体的规模和水平,其大小取决于总体单位数目

的多少及其标志水平的高低。 * 质量指标:

反映的是与总体单位数相对应的标志的平均水平或其它数量对比

关系。

(3)按计量单位分:实物指标、价值指标、劳动指标 (4)按时间特征分:时期指标、时点指标

4、统计指标体系:具有某种内在联系的一系列统计指标所构成的整体

作用:全面、综合地对客观事物进行描述、分析。 5、样本:由总体的部分单位组成的集合

第二章 统计数据的收集 §2.1 统计测量尺度

一、统计测量尺度的概念与种类

1、统计测量:运用某种方法使自然或社会经济现象量化。测量结果:形成变量或指标

分类、

标识

2、统计测量尺度的种类 (1)定类尺度

★按现象性质差异进行的辨别与区分。测量结果形成定类变量或定类指标。

★定类变量或指标确切的值是以文字表述的,可以用数值标识,但仅起标签作用。

★定类变量或指标的各类别间是平等的,没有高低、大小、优劣之分。

(2)定类尺度

★对现象顺序差异进行的辨别与区分。测量结果形成定序变量或定序指标。

★定序变量或指标确切的值是以文字表述的,也可以用数值标识,也仅起标签作用。

★定序变量或指标各类别间有高低优劣之分,不能随意排列,但差异无法准确计量。 (3)定距尺度

★按现象绝对数量差异进行的辨别与区分。测量结果形成定距变量或定距指标。

★定距变量或指标的值以数字表述,有计量单位,可以进行加减运算。

★定距变量或指标各类别间自然有大小之分,但没有绝对的零点,不能进行乘除运算。 (4)定比尺度

★对现象绝对差异与相对差异进行的辨别与区分。测量结果形成定比变量或定比指标。

★定比变量或指标确切的值也以数字表述,有计量单位 ,可以进行加减运算。

★定比变量或指标有绝对意义上的零点,既可以加减运算,也可以乘除运算。

3、数据度量尺度

(1)定类尺度:无等级次序排列 例如:男-女从事工作的行业 (2)定序尺度: 可作等级次序排列 例如:公司职位产品满意度 (3)定距尺度: 没有真正的零点 例如,温度

(4)定比尺度:存在真正的零点 倍数有意义 例,身高、体重 4、数据度量与信息含量

(1)度量尺度的信息含量由弱到强排列:

定类尺度→定序尺度→定距尺度→定比尺度

(2) 定类尺度和定序尺度用于属性数据:信息量低 (3) 定距尺度和定比尺度用于数值数据:信息量高 二、统计测量尺度的作用

第一,决定数据的整理、显示方法 第二,决定数据的分析方法 第三,决定计算机的处理方法

注意:在自然或社会经济领域里,单纯的定距变量是很少的,绝大多数定距变量同时也是定比变量。定距测量与定比测量的区别只在理论上有意义,在实际工作中常将二者归为一类。 三、测量层次与测量尺度的正确应用 1、对测量尺度层次的判断

较低 测量精度 较低高 高层次少 计算方法 层的

多 次的测小 信息数量 测量

大 量尺 度

定类尺度、定序尺度、定距尺度、定比尺度的层次:由高至低 2、测量尺度的正确应用

对于不同的现象,要注意准确性;对数量差异的度量,要注意层次

§2.2 原始数据的收集方法

一、统计调查概述

1、统计调查:收集原始数据资料 的统计活动过程 要求:准确、及时、全面、系统

统计调查是整个统计认识活动的基础,决定着统计认识过程及其结果的成败

2、统计调查的种类

按调查单位的范围大小分为非全面调查、全面调查 按调查时间是否连续分为连续性调查、一次性调查

按调查的组织方式不同分为统计报表、专门调查(普查、重点调查、典型调查、抽样调查) 3、统计调查的组织方式

(1)统计报表:指按照国家统一规定的各项要求,自下而上地定期向国家和主管部门报送基本统计资料的一种报告制度

优点:能保证统计资料的全面性和连续性;能保证统计资料的统一性和及时性;能满足各级部门对统计资料的需要

局限:统计报表过多会增加基层负担;有可能由于虚报瞒报而影响统计资料质量

(2)普查:指国家为详尽了解某项重要的国情国力而专门组织的一次性全面调查

作用:可以为抽样调查提供抽样框;可以收集统计报表所不能提供的反映重大国情国力的基本统计信息

局限:由于需要大量的人力、物力和财力,不宜经常进行

(3)重点调查:为了解总体基本情况,在调查对象中只选择一部分重点单位 进行调查的一种非全面调查组织方式

作用:能以较少的投入和较快的速度取得总体基本情况及变动趋势的资料

局限:只适用于客观存在着重点单位的情况

(4)典型调查:在对调查对象有一定了解的基础上,有意识地选择少数典型单位 进行调查的一种非全面调查组织方式

作用:一定条件下能估计总体指标数值;可以补充全面调查的不足;可以用来研究新生事物

局限:不能确定推断的把握程度,无法计算和控制推断误差

(5)抽样调查:按照随机原则 从调查对象中抽取一部分样本单位进行调查,再用样本资料推断把握总体的数量特征的一种非全面调查组织方式

特点:按随机原则抽取样本单位;目的是推断总体的数量特征;抽样误差可以事先计算并控制

优点:能用较少的人力、物力和时间达到全面调查的目的;调查资料的准确性较高、受人为干扰的可能性较小 4、统计调查的主要技术方法

观察记录法、报告法、访问调查法 二、统计调查方案

1、统计调查方案:用来指导整个调查工作的纲领性文件,是统计设计在统计调查阶段的具体化

2、基本内容:调查目的;调查对象与调查单位;调查项目与调查表;调查时间;制定调查工作的组织实施计划。 三、问卷设计

1、问卷调查:主要指非政府性统计机构或个人所从事的对人的主观意见的调查工作,也称作民意调查或民意测验

调查问卷的基本格式:表头(说明词:解释调查意义、表达感激之情等);表体(主题问句:被调查者基本情况、调查项目);表脚(作业记录:时间、操作者等)

2、调查对象:被调查现象的物质承担者指,是总体在调查阶段的具体化

调查单位:指构成调查对象的每一个总体单位 3、调查问卷的问题类型:封闭式问题、开放式问题 4、问卷调查的基本要求

主题明确、提问科学、逻辑性强、容量适度

§2.3 次级资料的收集

一、次级资料

指已经被收集、加工整理成型的数据信息 二、次级资料的主要收集渠道: ⒈查阅公开出版物; ⒉向政府统计机构咨询; ⒊向其他机构咨询; ⒋网上查询。

§2.4 统计调查误差

一、调查误差

指收集来的数据资料与真实情况间的差异 二、调查误差的种类

1、登记误差:由于人的主观故意或失误而产生的误差,理论上它可以用某种方法加以消除

2、代表性误差(随机误差):由部分单位数值来推断总体数值所产生的误差,它不可以消除,但可以加以控制

第三章 统计数据的整理与显示 §3.1 统计整理与统计分组

一、统计整理的意义和步骤

1、统计整理:将统计调查得到的原始资料进行科学的分组和汇总形成综合统计资料的工作过程 2、统计整理的内容 统计数据的处理:

统计资料的分组、汇总及制表 统计数据的管理:

数据的传输、贮存、更新及输出 3、统计整理的步骤

制定统计整理方案、对原始资料进行审核、数据处理、制作统计表和统计图

二、统计整理的基本方法

(一)统计分组:将总体中所有单位按一定的标志分为性质不同但又有联系的若干部分的过程 1、统计分组的作用

? 划分社会经济现象的类型

? 反映社会经济现象的内部结构和比例关系 ? 揭示社会经济现象之间的相互依存关系 2、统计分组的程序

选择分组标志、确定分组体系、总体单位归类 3、统计分组的原则

科学性、完备性、互斥性

(二)分组体系:指同时使用两个以上标志分组时,分组标志的组合形式。

平行分组体系、交叉分组体系

§3.2 分布数列的编制

一、分布数列的定义及种类

1、分布数列:将总体各单位按某个标志分成若干组,列出各组的总体单位数或各组在总体中所占的比重而形成的数列 构成要素:分组标志的具体表现、各组的次数或频率 分类:

品质数列 单值数变量数列 等距数组列距数 异列距数二、变量数列的编制

列 列 1、单值数列:指每个组值只用一个具体的变量值表现的数列 编制条件:变量是离散变量;变量的不同取值个数较少

2、组距数列:指每个组的变量值用一个区间来表现的变量数列 编制条件:变量是连续变量;或:总体单位数较多,变量不同取值个数也较多的离散变量。 分类:等距数列、异距数列 3、相关概念

组限:指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限

组距:每组变量值变动区间的长度,为上下限之差 组中值:每组变量取值范围的中点数值 组中值 = 上限?下限 2

开口式组距数列组中值的计算: 缺上限开口组组中值=下限?相邻组距

2 相邻组距

缺下限开口组组中值=上限-

24、编制等距数列步骤 (1)求变异全距

(2)确定组距及组数: R≤组距(d) ×组数(m) 确定组距的原则:

? 要能区分各组的性质差异 ? 要能反映总体资料的分布特征

? 为方便计算,尽可能为5或10的整数倍 计算组数(组数不宜过多,也不宜太少)

m?Rd(R当 d的结果为整数时)

m???R?(当 R?d???1d的结果为小数时)

(3)确定组限

? 对于离散变量,相邻组组限可以间断,也可重叠; ? 对于连续变量,相邻组组限必须重叠; ? 符合“上组限不计入”原则;

? 首末两组可使用“××以下”及“××以上”的开口组。 (4) 计算次数

三、累计次数与累计频率

1、频率:各组单位数占总体单位总数的比重 2、累计次数(频率)

向上累计:从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计

向下累计:从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计

§3.3 统计图表

一、统计图

以点、线条、面积等方法描述、显示统计数据的形式 组成:坐标系、图形、图例 二、统计表

以纵横交叉的线条所形成的表格来表现统计资料的形式

1、 常用结构:总标题、主词栏、宾词栏、数据栏 2、 统计表的编制规则

选择合适的总标题;

主词栏与宾词栏要各归其位,相互对应;

表的上、下端用粗线或双线封口,左右两端一般不封口; 可在各列的文字标题下面设置编号加以标识; 数据栏不能有空白。

第四章 变量数列分析 §4.1 集中趋势的测定

一、集中趋势的涵义

指总体中各单位的次数分布从两边向中间集中的趋势,用平均指标来反映。

测定集中趋势的意义:

? 可以反映现象总体的客观规定性;

? 可以对比同类现象在不同的时间、地点和条件下的一般水

平;

? 可以分析现象之间的依存关系。 二、平均指标的种类及计算方法 (一)算术平均数

1、简单算术平均数:适用于总体资料未经分组整理、尚为原始资料的情况 ?N XXi1?X2????XNi?1 X?

N?N2、加权算术平均数:适用于总体资料经过分组整理形成变量数列的情况

?m

?X???XXifiX1f1?X2f2?mfmi?1 f?ff??m12????m fi

i?1(说明若资料为组距数列,则应取各组的组中值作为该组的代表值用于计算)

(1)权数:指变量数列中各组标志值出现的次数,是变量值的承担者,反映了各组的标志值对平均数的影响程度 绝对权数:表现为次数、频数、单位数 相对权数:表现为频率、比重

算术平均数的计算取决于变量值和权数的共同作用:变量值决定平均数的范围;权数则决定平均数的位置 3、 算术平均数的数学性质

变量值与其算术平均数的离差之和衡等于零;变量值与其算术平均数的离差平方和为最小,

(二)调和平均数

是总体各单位标志值倒数的算术平均数的倒数,又叫倒数平均数

1、简单调和平均数:适用于总体资料未经分组整理、尚为原始资料的情况

XmmH?1?

X?1???1?1

1X2XmX

2、加权调和平均数:适用于总体资料经过分组整理形成变量数列的情况

?

Xm1?m2???mmH?mmm?

1?

X?m2???m1m1X2XmX3、调和平均数的应用:当已知各组变量值和标志总量时,作为算术平均数的变形使用。

? 设m?Xf,则XmH??1

m

X

?Xf?Xf

???X ?1?Xf?f

X(三)几何平均数

是N项变量值连乘积的开N次方根

1、应用:用于计算现象的平均比率或平均速度 2、应用的前提条件

? 各个比率或速度的连乘积等于总比率或总速度; ? 相乘的各个比率或速度不为零或负值。

3、简单几何平均数适用于总体资料未经分组整理尚为原始资料的情况

XG?NX1?XN2?XN??X4、加权几何平均数:适用于总体资料经过分组整理形成变量数列的情况 mm X?fiG?i?1Xff2fm?fim1f1?X2?Xm?i?1?Xi ii?1

同一资料,

xH?xG?x(四)中位数

将总体各单位标志值按大小顺序排列后,指处于数列中间位置的标志值。不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。

1、未分组数据:首先排序,再按数据n为奇数和偶数进行计算中位数

2、单值数据:首先排序,然后根据中位数的位次对照累积计数确定

中位数所在组,该组的标志值即为中位数 3、组距数据

?f

?S

M?L?2m?1e?d

fm(五)众数

指总体中出现次数最多的变量值,它不受极端数值的影响,用来说明总体中大多数单位所达到的一般水平。 1、 单值数据 2、 组距数据 M?1o?L?

??d1??2(六)数据分布

表明数据是如何分布的 偏态与 对称 左偏: 均值<中位数 右偏: 均值>中位数 对称(零偏度) :均值 = 中位数

6kkez9av7h1j03v4iv5u208bi780fr00a9i
领取福利

微信扫码领取福利

微信扫码分享