随机森林算法改进综述

(整期优先)网络出版时间:2021-01-11
/ 1

随机森林算法改进综述

张可昂

云南财经大学 国际工商学院 云南 昆明 650221

摘要:随机森林是当前一种常用的机器学习算法,其是Bagging算法和决策树算法的一种结合。本文就基于随机森林的相关性质及其原理,对它的改进发展过程给予了讨论。

1、引言

当前,随机森林算法得到了快速的发展,并应用于各个领域。随着研究环境等的变化,且基于随机森林良好的可改进性,学者们对随机森林的算法改进越来越多。

2、随机森林的原理

随机森林是一种集成的学习模型,它通过对样本集进行随机取样,同时对于属性也随机选取,构建大量决策树,然后对每一棵决策树进行训练,在决策树中得到许多个结果,最后对所有的决策树的结果进行投票选择最终的结果。

3、随机森林算法改进

随机森林的算法最早由Breiman[1]提出,其是由未经修剪树的集合,而这些树是通过随机特征选择并组成训练集而形成的,最终通过汇总投票进行预测。随机森林的应用范围很广,其可以用来降水量预测[2]、气温预测[3]、价格预测[4]、故障诊断[5]等许多方面。

但是,根据研究对象、数据等不同,随机森林也有许多改进。例如为了解决在高维数据中很大一部分特征往往不能说明对象的类别的问题,Ye et al.提出了一种分层随机森林来为具有高维数据的随机森林选择特征子空间[6]。Wang为了解决对高位数据进行分类的问题,提出了一种基于子空间特征采样方法和特征值搜索的新随机森林方法,可以显著降低预测的误差[7]。尤东方等在研究存在混杂因素时高维数据中随机森林时,实验得出基于广义线性模型残差的方法能有效校正混杂效应[8]

并且许多学者为了处理不平衡数据问题,对随机森林算法进行了一系列的改进。为了解决在特征维度高且不平衡的数据下,随机森林的分类效果会大打折扣的问题,王诚和高蕊结合权重排序和递归特征筛选的思想提出了一种改进的随机森林算法,其可以有效的对特征子集进行精简,减轻了冗余特征的影响[9]。为了剔除弱特征子集,融合因子分析的随机森林模型被提出研究[10]。张家伟等针对数据不平衡而会带来的少数类样本识别率低的问题,运用了加权策略对随机森林进行改进的算法,从数据预处理这一方面,又从算法这个方面降低数据不平衡对结果的影响[11]

随机森林还会结合许多其他算法进行结合改进,例如,胡青等将核主成分分析法和随机森林算法结合用来对变压器故障进行诊断[12]。为了提高随机森林预测准确率,谢晓龙等在随机森林模型的基础上应用梯度提升算法,有效结合Bagging与Boosting两种集成学习策略[13]。孟杭等把随机森林算法和SVM结合对风机叶片结冰进行预测,发现结合后比单独的算法预测准确率高[14]

因此,从上看出随机森林的应用领域很广,并且学者根据不同的条件对其改进也是蛮多。

4、结论

根据以上学者对随机森林的研究可看出随机森林是一种可改进性很强的机器学习算法,其可广泛运用在各个领域。并且随机森林和其他算法的有效结合可以提高分类和预测能力,比单纯地使用机器学习进行操作分类精度更高,预测能力更强。

参考文献:

  1. Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.

  2. 卢维学, 吴和成, 万里洋. 基于融合随机森林算法的PLS对降水量的预测[J]. 统计与决策, 2020, 36(18): 27-31.

  3. 陶晔, 杜景林. 基于随机森林的长短期记忆网络气温预测[J]. 计算机工程与设计, 2019, 40(3): 737-743.

  4. 陈标金, 王锋. 宏观经济指标、技术指标与国债期货价格预测——基于随机森林机器学习的实证检验[J]. 统计与信息论坛, 2019, 34(6): 29-35.

  5. 李兵, 韩睿, 何怡刚, 张晓艺, 侯金波. 改进随机森林算法在电机轴承故障诊断中的应用[J]. 中国电机工程学报, 2020, 40(4): 1310-1319+1422.

  6. Ye Y. M., Wu Q. Y., Huang J. Z., Ng M. K., Li X. T. Stratified sampling for feature subspace selection in random forests for high dimensional data[J]. Pattern Recognition, 2013, 46(3): 769-787.

  7. Wang Q, Nguyen T. T., Huang J. Z., Nguyen T. T. An efficient random forests algorithm for high dimensional data classification[J]. Advances in Data Analysis and Classification, 2018, 12(4): 953-972.

  8. 尤东方, 魏永越, 张汝阳, 陈峰, 赵杨. 存在混杂时高维数据的随机森林分析[J].南京医科大学学报(自然科学版), 2018, 38(7): 978-982.

  9. 王诚, 高蕊. 基于特征约简的随机森林改进算法研究[J].计算机技术与发展, 2020, 30(3): 40-45.

  10. 李欢, 熊梦莹, 聂斌, 杜建强, 周丽, 黄强. 融合因子分析的随机森林研究[J]. 计算机工程与应用, 2019, 55(23): 125-130.

  11. 张家伟, 郭林明, 杨晓梅. 针对不平衡数据的过采样和随机森林改进算法[J].计算机工程与应用, 2020, 56(11): 39-45.

  12. 胡青, 孙才新, 杜林, 李剑. 核主成分分析与随机森林相结合的变压器故障诊断方法[J]. 高电压技术, 2010, 36(7): 1725-1729.

  13. 谢晓龙, 叶笑冬, 董亚明. 梯度提升随机森林模型及其在日前出清电价预测中的应用[J]. 计算机应用与软件, 2018, 35(9): 327-333.

  14. 孟杭, 黄细霞, 刘娟, 韩志亮. 结合随机森林和SVM的风机叶片结冰预测[J]. 电测与仪表, 2020, 57(17): 66-71.