古典概型和几何概型
1.事件概念
(1)在条件S下,一定会发生的事件,叫作相对于条件S的必然事件. (2)在条件S下,一定不会发生的事件,叫作相对于条件S的不可能事件. (3)必然事件与不可能事件统称为相对于条件S的确定事件.
(4)在条件S下可能发生也可能不发生的事件,叫作相对于条件S的随机事件. (5)不可能同时发生的两个事件称为互斥事件。
(6)不可能同时发生且二者之一必须有一个发生的两个事件称为对立事件。 如果事件A与事件B互斥,则P(A+B)=P(A)+P(B). 若事件A与事件A互为对立事件,则P(A)=1-P(A). 2.频率估计概率
(1)在相同的条件S下重复n次试验,观察某一事件A是否出现,称n次试验中事件A出现的次数nAnA
为事件A出现的频数,称事件A出现的比例fn(A)=为事件A出现的频率.
n
(2)在相同的条件下,大量重复进行同一试验时,随机事件A发生的频率会在某个常数附近摆动,即随机事件A发生的频率具有稳定性.这时,我们把这个常数叫作随机事件A的概率,记作P(A). 3.古典概型
具有以下两个特征的随机试验的数学模型称为古典的概率模型,简称古典概型. (1)试验的所有可能结果只有有限个,每次试验只出现其中的一个结果. (2)每一个试验结果出现的可能性相等. 4.古典概型的概率公式
事件A包含的可能结果数mP(A)==.
试验的所有可能结果数n5.几何概型
如果每个事件发生的概率只与构成该事件区域的长度(面积或体积)成比例,则称这样的概率模型为几何概率模型,简称几何概型. 6.几何概型的概率公式
构成事件A的区域长度(面积或体积)
P(A)=
试验的全部结果所构成的区域长度(面积或体积)7.几何概型与古典概型的区别
古典概型与几何概型中基本事件发生的可能性都是相等的,但古典概型要求基本事件有有限个,而几何概型则是无限个.
随机抽样和样本估计总体
1.简单随机抽样
(1)定义:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样. (2)最常用的简单随机抽样方法有两种——抽签法和随机数法. (3)应用范围:总体个体数较少. 2.系统抽样的步骤
一般地,假设要从容量为N的总体中抽取容量为n的样本. (1)先将总体的N个个体编号;
NN
(2)确定分段间隔k,对编号进行分段.当(n是样本容量)是整数时,取k=;
nn(3)在第1段用简单随机抽样确定第一个个体编号l (l≤k);
(4)按照一定的规则抽取样本.通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本. 3.分层抽样
(1)定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样. (2)分层抽样的应用范围:
当总体是由差异明显的几个部分组成时,往往选用分层抽样的方法. 4.频率分布表
(1)含义:把反映总体频率分布的表格称为频率分布表. (2)频率分布表的画法步骤:
极差
第一步:求极差,决定组数和组距,组距=;
组数
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表. 5. 频率分布直方图
利用直方图反映样本的频率分布规律,这样的直方图称为频率分布直方图. (1)作频率分布直方图的方法
①先制作频率分布表,然后作直角坐标系.
②把横轴分成若干段,每一线段对应一个组的组距,然后以此线段为底作一矩形,它的高等于该组的频率
,这样得出一系列的矩形. 组距
③每个矩形的面积恰好是该组的频率,这些矩形就构成了频率分布直方图. (2)频率分布直方图的特征
①直方图中各小长方形的面积之和为1.
频率频率
②直方图中纵轴表示,故每组样本的频率为组距×,即矩形的面积.
组距组距③直方图中每组样本的频数为频率×总体数. 6.茎叶图
茎相同者共用一个茎(如两位数中的十位数),茎按从小到大的顺序从上向下列出,共茎的叶(如两位数中的个位数),一般按从小到大(或从大到小)的顺序同行列出.这样将样本数据有条理地列出来的图形叫做茎叶图.其优点是当样本数据较少时,茎叶图可以保留样本数据的所有信息,直观反映出数据的水平状况、稳定程度,且便于记录和表示;缺点是对差异不大的两组数据不易分析,且样本数据很多时效果不好. 茎叶图的画法步骤
第一步:将每个数据分为茎(高位)和叶(低位)两部分;
第二步:将最小茎与最大茎之间的数按大小次序排成一列; 第三步:将各个数据的叶依次写在其茎的两侧.
7.样本的数字特征:众数、中位数、平均数、方差、标准差
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据叫做这组数据的中位数. 在频率分布直方图中,中位数左边和右边的直方图的面积应该相等. 1
(3)平均数:样本数据的算术平均数,即x=(x1+x2+…+xn).
n
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为x,则这组数据的标准差和方差分别是 s=
1[(x1?x)2?(x2?x)2?L?(xn?x)2], n1
s2=[(x1-x)2+(x2-x)2+…+(xn-x)2]
n
标准差是反映总体波动大小的特征数,样本方差是标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差. (5)标准差和方差的一些结论
若取值x1,x2,…,xn的频率分别为p1,p2,…,pn,则其平均值为x1p1+x2p2+…+xnpn;若x1,x2,…,xn的平均数为x,方差为s2,则ax1+b,ax2+b,…,axn+b的平均数为ax+b,方差为a2s2.
变量间的相关关系、统计案例
1.两个变量的线性相关 (1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程
方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a,b是待定参数.
^
^^
^
^
??
?a=y-bx.
^
^
∑ ?xi-x??yi-y?i∑xiyi-nx y^=1i=1b==n,n222∑ ?xi-x?∑xi-nxi=1i=1
nn
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(x,y)称为样本点的中心. (3)相关系数
当r>0时,表明两个变量正相关; 当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性. 4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
x1 y1 a y2 b 总计 a+b
x2 总计
构造一个随机变量(3)独立性检验
K2=
c a+c d b+d c+d a+b+c+d n?ad-bc?2
,其中n=a+b+c+d为样本容量.
?a+b??c+d??a+c??b+d?
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验. 当χ2≤2.706时,没有充分的证据判定变量A,B有关联; 当χ2>2.706时,有90%的把握判定变量A,B有关联; 当χ>3.841时,有95%的把握判定变量A,B有关联; 当χ>6.635时,有99%的把握判定变量A,B有关联.