机器学习基础知识回顾-常见的概率分布

发布时间:2016-02-02  栏目:机器学习  评论:0 Comments

几种重要的概率分布有:

二项分布、泊松分布均匀分布指数分布正态分布

 

一、贝努里概型和二项分布

1、贝努里概型

在相同条件下进行的n此重复试验,如果每次试验只有两个相对立的基本事件,而且它们在各次试验中发生的概率不变,那么称这样的试验为n重贝努里试验或贝努里概型。

如:   掷n次硬币(正面or反面)

投n次篮球(中or不中)

检查n个产品(合格or不合格)

设事件A在每次试验中发生的概率为p,(0<p<1),则它在贝努里概型下恰好发生m次的概率为

其中m=0,1,2,……,n;q=1-p

证明:由多个事件相互独立的概念可知,事件A在n次试验中指定的m次发生而n-m次不发生的概率为pmqn-m,又因为从n次试验中取出m次的方式有Cnm种,因此得证。

2、二项分布

定义    如果随机变量X的概率分布为

其中0<p<1, q=1-p, i=0,1,2,…,n,则称离散型随机变量X服从参数为n, p的二项分布。记为X~B(n,p)。

二项分布的数学期望E(X)=np,方差D(X)=npq。

下图是一个n=20,p=0.125的二项分布示意图:

 二、泊松分布

定义    设变量X所有可能的取值为0,1,2,….,且概率分布为

并且i=0,1,2,….;λ是常数,且λ>0。则称X服从参数为λ的泊松分布,记为X~P(λ)。

二项分布与泊松分布的关系

(泊松定理)

设随机变量X服从二项分布B(n,p),当n→+∞时,X近似地服从泊松分布P(λ),即

其中,λ=np。

【PS:只有当p的值很小,一般小于0.1时,用泊松分布取代二项分布所产生的误差才会比较小】

泊松分布的数学期望E(X)=λ,方差D(X)=λ。

下图展示了一个泊松分布和二项分布的对比:

再看看p<0.1时候的情况

两者就比较接近了。

 

3、均匀分布(uniform)

若随机变量X的密度函数为

则称随机变量X服从区间[a,b]上的均匀分布。记作X~U(a,b).

图像如下图所示:

均匀分布的分布函数为

图像如下图所示:

均匀分布的数学期望E(X)=1/(2*(b+a)),方差为D(X)=1/(12*(b-a)2)。

4、指数分布

如果随机变量X的密度函数为

其中λ>0为常数,则称随机变量X服从参数为λ的指数分布。密度函数的图象如下图所示:

指数分布的分布函数为:

 

数学期望E(X)=1/λ,方差为D(X)=1/λ2。指数分布的分布函数图象如下图所示:

可以看到λ的值越大,曲线的斜率变化越快。

 

5、正态分布

如果连续型随机变量X的密度函数为

其中,-∞<x<+∞,且-∞<μ<+∞,σ为参数。则称随机变量X服从参数为(μ,σ2)的正态分布,记作X~N(μ,σ2)

若μ=0,σ=1,则称N(0,1)为标准正态分布。

正态分布有几个特点:

①μ变化而σ不变时,图像沿着X轴移动,图像的形状不改变。如图:

②μ不变而σ改变时,图像的位置不变,但形态发生改变。σ越大图像就越胖。

③曲线在x=μ-σ和x=μ+σ处有拐点

留下评论

You must be logged in to post a comment.

相册集

pix pix pix pix pix pix

关于自己

杨文龙,微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位,热爱创新发明,专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域,目前发明有国际专利19篇,中国专利28篇。

联系我

个人技术笔记

welonshen@gmail.com

2015 in Shanghai