统计学重点笔记
第一章导论
一、比较描述统计和推断统计:
数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计。 (1)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用的方法,也是统计分析中必不可少的一步。内容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征。
(2)推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。研究者所关心的是总体的某些特征,但许多总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题。其内容包括抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等等。
(3)两者的关系:描述统计是基础,推断统计是主体
二、比较分类数据、顺序数据和数值型数据:
根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
(1)分类数据是只能归于某一类别的非数字型数据。它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。
(2)顺序数量是只能归于某一有序类别的非数字型数据。也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的。
(3)数值型数据是按数字尺度测量的观察值。其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据。
总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的,其结果均表现为类别,因而也统称为定型数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。
三、比较总体、样本、参数、统计量和变量:
(1)总体是包含所研究的全部个体的集合。通常是我们所关心的一些个体组成,如由多个企业所构成的集合,多个居民户所构成的集合。总体根据其所包含的单位数目是否可数可以分为有限总体和无限总体。有限总体是指总体的范围能够明确确定,而且元素的数目是有限可数的,需要注意的是,统计意义上的总体,通常不是一群人或一些物品的集合,而是一组观测数据。
(2)样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量。例如我们从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。 (3)参数是用来描述总体特征的概括性数字度量。有总体平均数、标准差、总体比例。由于总体参数通常是不知道的,所以参数是一个未知的常数。所以才需要进行抽样,根据样本来估计总体参数
(4)样本量是用来描述样本特征的概括性数字度量。统计量是根据样本数据计算出来的一个量,通常包括:样本平均数、样本标准差、样本比例等,由于样本是我们已经抽出来的,所以统计量总是知道的,抽样的目的就是要根据样本统计量推断总体参数。
(5)变量是说明现象某种特征的概念。变量的特点是从一次观察到下一次观察会呈现出差别或变化,分为分类变量、顺序变量、数值型变量、离散型变量和连续型变量。
第二章 数据收集
一、调查方案的主要内容:
(1)调查目的:是调查所要达到的具体目标,他所回答的是“为什么调查”“要解决什么样的问题”等
(2)调查对象和调查单位:调查对象是根据调查目的的确定的调查研究的总体或调查范围。调查单位是构成调查队选中的每一个单位,它是调查项目和调查内容的承担着或载体。所要解决的是“向谁调查”由谁来提供所需数据
(3)调查项目和调查表:调查项目要解决的问题是“调查什么”,也就是调查的具体内容,大多数统计调查中,调查项目通常以表格的形式来表现,称为调查表
二、数据的误差:统计数据的误差通常是指统计数据与客观现实之间的差距,误
差的类型主要有抽样误差和非抽样误差两类。
(1)抽样误差:主要是指在用样本数据进行推断时所产生的随机误差。只存在于概率抽样中。这类误差通常是无法消除的,但事先可以进行控制和计算。
影响抽样误差大小的因素:
(a)抽样单位的数目。在其他条件不变的情况下,抽样单位的数目越多,抽样误差越小;反之,越大。这是因为随着样本数目的增多,样本结构越接近总体,抽样调查也就越接近全面调查,当样本扩大到总体时,则为全面调查,也就不存在抽样误差了。
(b)总体背研究标志的变异程度。在其他条件不变的情况下,总体标志的变异程度越小,抽样误差越小,反之,越大。抽样误差和总体标志的变异程度呈正比变化。这是因为总体的变异程度小,表示总体各单位标志值之间的差异小。则样本指标与总体指标之间的差异也可能小;如果总体各单位标志值相等,则标志变动度为零,样本指标等于总体指标,此时不存在抽样误差
(c)抽样方法的选择。重复抽样和非重复抽样的抽样误差大小不同。采用不重复抽样比采用重复抽样的抽样误差小
(d)抽样组织方式不同。采用不同的组织方式,会有不同的抽样误差,这是因为不同的抽样组织所抽中的样本,对于总体的代表性也不同,通常,常利用不同的抽样误差,作出判断各种抽样组织方式的比较标准。
(2)非抽样误差:主要包括:抽样框误差,回答误差、无回答误差、调查员误差;是调查过程中由于调查者或被调查者的人为因素所造成的误差。调查者所造成的误差主要有:调查方案中有关的规定或解释不明确导致的填报错误、抄录错误、汇总错误等;被调查者所造成的误差主要有:因人为因素干扰形成的有意虚报或瞒报调查数据。非抽样误差理论上是可以消除的。
三、简单随机抽样:
(1)概念:从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的;
(2)特点:a、简单、直观,在抽样框完整时,可直接从中抽取样本
b、用样本统计量对目标量进行估计比较方便
(3)局限性
? 当N很大时,不易构造抽样框
? 抽出的单位很分散,给实施调查增加了困难 ? 没有利用其它辅助信息以提高估计的效率