随机森林(Random Forest)

发布时间:2016-01-28  栏目:机器学习  评论:0 Comments

随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输 入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本 为那一类。
随机森林的优点有:
1. 对于很多种资料,它可以产生高准确度的分类器。
2. 它可以处理大量的输入变量。
3. 它可以在决定类别时,评估变量的重要性。
4. 在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计。
5. 它包含一个好方法可以估计遗失的资料,并且,如果有很大一部分的资料遗失,仍可以维持准确度。
6. 它提供一个实验方法,可以去侦测 variable interactions 。
7. 对于不平衡的分类资料集来说,它可以平衡误差。
8. 它计算各例中的亲近度,对于数据挖掘、侦测偏离者(outlier)和将资料视觉化非常有用。
9. 使用上述。它可被延伸应用在未标记的资料上,这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料。
10. 学习过程是很快速的。
缺点
1. 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟
2. 对于有不同级别的属性的数据,级别划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的。
参数的调整和选择
1. 决策树的数量
2. 决策树的最大深度
3. 信息增益的计算标准/公式
4. 其他

留下评论

You must be logged in to post a comment.

相册集

pix pix pix pix pix pix

关于自己

杨文龙,微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位,热爱创新发明,专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域,目前发明有国际专利19篇,中国专利28篇。

联系我

个人技术笔记

welonshen@gmail.com

2015 in Shanghai