杨文龙的博客 » Blog Archive » 机器学习基础知识回顾-常见的概率分布 - 个人技术笔记 - 热爱创新发明，专注机器学习、算法、深度学习、自然语言处理及人工智能

机器学习基础知识回顾-常见的概率分布

发布时间：2016-02-02 栏目：机器学习评论：0 Comments

几种重要的概率分布有：

二项分布、泊松分布、均匀分布、指数分布和正态分布。

一、贝努里概型和二项分布

1、贝努里概型

在相同条件下进行的n此重复试验，如果每次试验只有两个相对立的基本事件，而且它们在各次试验中发生的概率不变，那么称这样的试验为n重贝努里试验或贝努里概型。

如：掷n次硬币（正面or反面）

投n次篮球（中or不中）

检查n个产品（合格or不合格）

设事件A在每次试验中发生的概率为p，（0<p<1），则它在贝努里概型下恰好发生m次的概率为

其中m=0,1,2，……，n；q=1-p

证明：由多个事件相互独立的概念可知，事件A在n次试验中指定的m次发生而n-m次不发生的概率为p^mq^n-m，又因为从n次试验中取出m次的方式有C_n^m种，因此得证。

2、二项分布

定义如果随机变量X的概率分布为

其中0<p<1, q=1-p, i=0,1,2,…,n，则称离散型随机变量X服从参数为n, p的二项分布。记为X~B(n,p）。

二项分布的数学期望E(X)=np，方差D(X)=npq。

下图是一个n=20，p=0.125的二项分布示意图：

二、泊松分布

定义设变量X所有可能的取值为0,1,2,….，且概率分布为

并且i=0,1,2,….;λ是常数，且λ>0。则称X服从参数为λ的泊松分布，记为X~P(λ)。

二项分布与泊松分布的关系

（泊松定理）

设随机变量X服从二项分布B(n,p)，当n→+∞时，X近似地服从泊松分布P(λ)，即

其中，λ=np。

【PS：只有当p的值很小，一般小于0.1时，用泊松分布取代二项分布所产生的误差才会比较小】

泊松分布的数学期望E(X)=λ，方差D(X)=λ。

下图展示了一个泊松分布和二项分布的对比：

再看看p<0.1时候的情况

两者就比较接近了。

3、均匀分布（uniform）

若随机变量X的密度函数为

则称随机变量X服从区间[a,b]上的均匀分布。记作X~U(a,b).

图像如下图所示：

均匀分布的分布函数为

图像如下图所示：

均匀分布的数学期望E(X)=1/(2*(b+a))，方差为D(X)=1/(12*(b-a)²)。

4、指数分布

如果随机变量X的密度函数为

其中λ>0为常数，则称随机变量X服从参数为λ的指数分布。密度函数的图象如下图所示：

指数分布的分布函数为：

数学期望E(X)=1/λ，方差为D(X)=1/λ²。指数分布的分布函数图象如下图所示：

可以看到λ的值越大，曲线的斜率变化越快。

5、正态分布

如果连续型随机变量X的密度函数为

其中，-∞<x<+∞，且-∞<μ<+∞，σ为参数。则称随机变量X服从参数为（μ，σ²）的正态分布，记作X~N(μ，σ²)

若μ=0，σ=1，则称N（0,1）为标准正态分布。

正态分布有几个特点：

①μ变化而σ不变时，图像沿着X轴移动，图像的形状不改变。如图：

②μ不变而σ改变时，图像的位置不变，但形态发生改变。σ越大图像就越胖。

③曲线在x=μ-σ和x=μ+σ处有拐点

留下评论

You must be logged in to post a comment.

相册集

关于自己

杨文龙，微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位，热爱创新发明，专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域，目前发明有国际专利19篇，中国专利28篇。

联系我

个人技术笔记

welonshen@gmail.com

2015 in Shanghai