分布函数
分布函数(Cumulative Distribution Function, CDF)是概率统计中重要的函数,正是通过它,可用的方法来研究随机变量。 1. 伯努利分布
伯努利分布(Bernoulli distribution)又叫做两点分布或者0-1分布,是一个离散型概率分布,若伯努利实验成功,则伯努利随机变量取值为1,如果失败,则伯努利随机变量取值为0。并记成功的概率为p,那么失败的概率就是1?p,则数学期望为p,方差为p(1?p),概率密度函数为 2. 二项分布
二项分布即重复n次独立的。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互,与其它各次试验结果无关,事件发生与否的概率在每一次中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。假设每次试验的成功概率为p,则二项分布的密度函数为:
二项分布函数的数学期望为np,方差为np(1?p),记为X~B(n,p)。概率密度分布图如下所示。 3. 正态分布
正态分布(Normal distribution)又名高斯分布(Gaussian distribution),若X服从一个为μ、为σ2的高斯分布,记为:X~N(μ,σ2),则其为
正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。通常所说的标准正态分布是μ = 0,σ = 1的正态分布。
分布曲线特征:
图形特征
集中性:正态曲线的高峰位于正中央,即均数所在的位置。
对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1。即频率的总和为100%。
关于μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。
参数含义
正态分布有两个参数,即期望(均数)μ和标准差σ,σ^2为方差。
第一参数μ是服从正态分布的随机变量的均值,μ是正态分布的位置参数,描述正态分布的集中趋势位置。概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。正态分布以X=μ为对称轴,左右完全对称。正态分布的期望、均数、中位数、众数相同,均等于μ。
第二个参数σ^2是此随机变量的方差, σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
面积分布
实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。 4. 指数分布
指数分布(exponential distribution)的图形表面上看与幂律分布很相似,实际两者有极大不同,指数分布的收敛速度远快过幂律分布。
指数分布的参数为λ,则指数分布的期望为度函数为:
,方差为,概率密
其中λ > 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间内发生某事件的次数。指数分布的区间是[0,∞)。 如果一个随机变量X呈指数分布,则可以写作:X~ E(λ)。下图是指数的概率密度函数:
指数分布的性质
无记忆性:指数函数的一个重要特征是无记忆性(Memoryless Property,又称遗失记忆性)。这表示如果一个随机变量呈指数分布,当s,t>0时有P(T>t+s|T>t)=P(T>s)。即,如果T是某一元件的寿命,已知元件使用了t小时,它总共使用至少s+t小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。
5. 拉普拉斯分布
拉普拉斯分布(Laplace distribution)的概率密度函数为:
如果随机变量X服从拉普拉斯分布记为X~Laplace(?,b),其中,μ 是位置参数,b>0 是尺度参数。如果 μ = 0,那么,正半部分恰好是尺度为 1/b的指数分布的一半。数学期望为?,方差2b2。概率密度函数如下图所示: 6. 泊松分布
泊松分布为二项分布的特例,如果某些现象的发生率很小,而样本例数较大,则二项分布逼近Poisson分布。泊松分布(poisson distribution)适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等。
泊松分布的概率函数为:
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。 泊松分布适合于描述单位时间内随机事件发生的次数。泊松分布的期望和方差均为
泊松分布的性质
Poisson分布的总体均值和方差相等:即???2
当?增大时,Poisson分布逐渐近正态分布;当??20时Poisson分布资料可作为正态分布处理
Poisson分布具有可加性
泊松分布的图形
泊松分布的特征只决定于平均数λ,不同的参数λ对应不同的Poisson分布,即λ的大小决定了Poisson分布的图形特性;
当平均数很小时是很偏态的,担当平均数增大时则逐渐趋向正态,这种趋向正态的“速度”是很快的
7. 伽玛分布
在地震序列的有序性、地震发生率的、计数特征具有独立增量和平稳增量情况下,可以导出地震发生i次时间的概率密度为伽马密度函数(亦称为伽马分布,Gamma Distribution)
伽玛分布是统计学的一种连续概率函数。Gamma分布中的参数α称为形状参数(shape parameter),β称为尺度参数(scale parameter)。
假设随机变量X为 等到第α件事发生所需之等候时间, 密度函数为
其中
。
, 称为伽玛函数,伽玛函数是阶乘在实数上的泛化,满足性质
下图为概率密度函数(图中a为形状参数、b为尺度参数):
当α为正整数时,分布可看作α个独立的指数分布之和,当α趋向于较大数值时,分布近似于正态分布。