离散型随机变量及其分布列
1.随机变量的有关概念
(1)随机变量:随着试验结果不同而① 变化 的变量,常用字母X,Y,ξ,η,…表示.
(2)离散型随机变量:所有取值可以② 一一列出 的随机变量. 2.离散型随机变量分布列的概念及性质
(1)概念:若离散型随机变量X可能取的不同值为x1,x2,…,xi,…,xn,X取每一个值xi(i=1,2,…,n)的概率P(X=xi)=pi以表格的形式表示如下:
X P
x1 p1
x2 p2
… …
xi pi
… …
xn pn
则此表称为离散型随机变量X的概率分布列,简称为X的分布列,有时也用等式P(X=xi)=pi,i=1,2,…,n表示X的分布列.
(2)分布列的性质 (i)pi③ ≥0 ,i=1,2,3,…,n; (ii)∑????=1.
??=1??
3.常见的离散型随机变量的概率分布
(1)两点分布
X P
0 ④ 1-p 1 p
若随机变量X的分布列具有上表的形式,则称X服从两点分布,并称p=⑤ P(X=1) 为成功概率.
(2)超几何分布
在含有M件次品的N件产品中,任取n件,其中恰有X件次品,则P(X=k)=⑥
??-??C????C??-??
C????
,k=0,1,2,…,m,其中m=min{M,n},且n≤N,M≤N,n,M,N∈N*. X P ⑦ 0
0n-0
??M??N-Mn??N
1 ⑧ 1n-1
??M??N-Mn??N
… …
m
mn-m
??M??N-M
n??N
若随机变量X的分布列具有上表的形式,则称随机变量X服从超几何分布.
二项分布
1.条件概率
(1)定义
对于任何两个事件A和B,在已知事件A发生的条件下,事件B发生的概率叫做① 条件概率 ,用符号② P(B|A) 来表示,其公式为P(B|A)=③
??(????)??(??)
(P(A)>0).在古典概型中,若用n(A)表示事件A中基本事件的个数,则P(B|A)=??(??).
(2)性质
(i)④ 0≤P(B|A)≤1 ;
(ii)如果B和C是两个互斥事件,那么P(B∪C|A)=⑤ P(B|A)+P(C|A) . 2.相互独立事件
(1)对于事件A、B,若A的发生与B的发生互不影响,则称⑥ A、B是相互独立事件 .
(2)若A与B相互独立,则P(B|A)=⑦ P(B) , P(AB)=P(B|A)·P(A)=⑧ P(A)P(B) .
(3)若A与B相互独立,则⑨ A与?? ,⑩ ??与B , ??与?? 也都相互独立. (4)若P(AB)=P(A)P(B),则 A与B相互独立 . 3.独立重复试验与二项分布
(1)独立重复试验是指在相同条件下可重复进行的,各次之间相互独立的一种试验,在这种试验中每一次试验只有 两 种结果,即要么发生,要么不发生,且任何一次试验中事件发生的概率都是一样的.
(2)在n次独立重复试验中,用X表示事件A发生的次数,设每次试验中事件A
kn-k发生的概率为p,则P(X=k)= C????p(1-p)(k=0,1,2,…,n) ,此时称随机变量X服从
??(????)
二项分布 ,记为 X~B(n,p) ,并称p为成功概率.
离散型随机变量的均值与方差、正态分布
1.离散型随机变量的均值与方差
若离散型随机变量X的分布列为
X P
x1 p1
x2 p2
… …
xi pi
… …
xn pn
(1)均值:称EX=① x1p1+x2p2+…+xipi+…+xnpn 为随机变量X的均值或数学期望,它反映了离散型随机变量取值的② 平均水平 .
(2)称DX=∑(????-EX)2????为随机变量X的方差,它刻画了随机变量X与其均值
??=1??
EX的平均③ 偏离 程度,其算术平方根√????为随机变量X的标准差. 平均数的性质
(1)若一组数据x1,x2,…,xn的平均数为??,则ax1,ax2,…,axn的平均数为a??. (2)若一组数据x1,x2,…,xn的平均数为??,则ax1+b,ax2+b,…,axn+b的平均数为a??+b.
(3)若M个数的平均数是X,N个数的平均数是Y,则这(M+N)个数的平均数是
????+??????+??
,若两组数据x1,x2,…,xn和y1,y2,…,yn的平均数分别是??和??,则
x1+y1,x2+y2,…,xn+yn的平均数是??+??. 2.均值与方差的性质
(1)E(aX+b)=④ aEX+b (a,b为实数). (2)D(aX+b)=⑤ a2DX (a,b为实数). (3)E(k)=k(k为常数). (4)E(X1+X2)=E(X1)+E(X2). (5)D(X)=E(X2)-(E(X))2. (5)D(X)=E(X2)-(E(X))2.
(6)若X1,X2相互独立,则E(X1X2)=E(X1)·E(X2). (7)D(k)=0(k为常数).
(8)若给定一组数据x1,x2,…,xn,其方差为s2,则ax1,ax2,…,axn的方差为a2s2. (9)若给定一组数据x1,x2,…,xn,其方差为s2,则ax1+b,ax2+b,…,axn+b的方差为a2s2,特别地,当a=1时,有x1+b,x2+b,…,xn+b的方差为s2,这说明将一组数据的每一个数据都加上一个相同的常数,方差是不变的,即不影响数据的波动性.
222(10)方差的一个简化公式是s2=??[(??1+??2+…+????)-n??]=??2-??,此公式只要把方
1
2
2
差公式展开进行重组即可证明. 3.两点分布与二项分布的均值、方差
X EX DX
4.正态曲线的特点
(1)曲线位于x轴⑩ 上方 ,与x轴不相交; (2)曲线是单峰的,它关于直线 x=μ 对称; (3)曲线在 x=μ 处达到峰值 ??1√2πX服从两点分布 ⑥ p(p为成功概率)
⑧ p(1-p)
X~B(n,p) ⑦ np ⑨ np(1-p) ;
(4)曲线与x轴之间的面积为 1 ;
(5)当σ一定时,曲线的位置由μ确定,曲线随着μ的变化而沿x轴平移; (6)当μ一定时,曲线的形状由σ确定,σ越小,曲线越“ 高瘦 ” ,表示总体的分布越集中;σ越大,曲线越“ 矮胖 ”,表示总体的分布越 分散 .
用样本估计总体
1.常用统计图表
(1)频率分布表的画法:
第一步:求① 极差 ,决定组数和组距,组距=②
极差组数 ;
第二步:③ 分组 ,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表. (2)频率分布直方图:反映样本频率分布的直方图. 横轴表示样本数据,纵轴表示④ 内的⑤ 频率 .
(3)茎叶图的画法:
第一步:将每个数据分为茎(高位)和叶(低位)两部分; 第二步:将各个数据的茎按⑥ 大小 次序排成一列;
频率组距 ,每个小矩形的面积表示样本落在该组
第三步:将各个数据的叶依次写在其茎的右(左)侧. 2.样本的数字特征
(1)众数、中位数、平均数 数字 特征
定义与求法
特点
通常用于描述出现次数最多的数,
一组数据中出现次数最多的数
显然它对其他数据信息的忽视使其无法客观地反映总体特征
把一组数据按⑦ 大小顺序 排
列,处在⑧ 最中间 位置的一中位数是样本数据所占频率的等分
个数据(或最中间两个数据的平均数)
如果有n个数据x1,x2,…,xn,那么这
n
1n
线,它不受少数极端值的影响
平均数和每一个数据都有关,可以反映样本数据全体的信息,但平均数受数据中极端值的影响较大,故平均数在估计总体时可靠性降低
个数的平均数x=
⑨ (x1+x2+…+xn) (2)标准差、方差 (i)标准差:
s=⑩ √??[(??1-??)2+(??2-??)2+…+(????-??)2] . (ii)方差:标准差的平方s2叫做方差.
s2= ??[(x1-??)2+(x2-??)2+…+(xn-??)2] ,其中xi(i=1,2,3,…,n)是 样本数据 ,n是 样本容量 ,??是 样本平均数 .
1
1
变量间的相关关系、统计案例
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从① 左下角 到② 右上角 的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从③ 左上角 到④ 右下角 的区域,对于两个变量的这种相关关系,我们将它称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在⑤ 一条直线附近 ,那么就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(5)回归方程
方程??=??x+??是具有线性相关关系的两个变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中??,??是待定参数.
∑(????-??)(????-??)∑????????-n???? ^
??=1??=1
??==??,??2
∑(????-??)2∑????2-n?? ??=1??=1
^ ^
{??=⑦ ??-???? .
2.回归分析
(1)回归分析是对具有⑧ 相关关系 的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),??=??∑????,??=
??=11??
??
??
^^
^
^
^
∑??,⑨ ????=1??
1??
(??,??) 为样本点的中心.
????=1??(3)相关系数:??=
∑????????-n?? ??2??2.
2-n??)(∑??2-n??)√(∑??????
??=1
??=1
当r>0时,表明两个变量⑩ 正相关 ; 当r<0时,表明两个变量 负相关 .
r的绝对值越接近于1,表明两个变量的线性相关性 越强 .r的绝对值越接近于0,表明两个变量之间 几乎不存在线性相关关系 .通常|r|大于或等于
0.75 时,认为两个变量有很强的线性相关性. 3.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的 不同类别 ,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的 频数表 ,称为列联表.一般地,假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
x1 x2 总计
y1 a c a+c
y2 b d b+d
2
总计 a+b c+d a+b+c+d
(??+??)(??+??)(??+??)(??+??) ,其中n=
??(????-????)2
则可构造一个随机变量K=a+b+c+d .
(3)独立性检验
利用独立性假设、随机变量 K2 来确定是否有一定的把握认为“两个分类变量 有关系 ”的方法称为两个分类变量的独立性检验.