机器学习-随机森林（randomForest）模型的优化策略

随机森林模型的优化主要有两个方面的策略：1.特征选择1）输入特征按照其重要性从高到底排序，其中特征重要性排序可以根据与输出变量的皮尔森相关系数或者由支持向量机模型得出；2）去除与输出变量相关性很小的特征；3）在原有特征的基础上，添加新的特征，新特征可以是原有特征集的组合或划分，例如将year按season划分，将weekend和holiday组合为restday2.参数优化以py

junxinwoxin

20822人浏览 · 2017-11-09 17:22:19

junxinwoxin · 2017-11-09 17:22:19 发布

随机森林模型的优化主要有两个方面的策略：
1.特征选择
1）输入特征按照其重要性从高到底排序，其中特征重要性排序可以根据与输出变量的皮尔森相关系数或者由支持向量机模型得出；
2）去除与输出变量相关性很小的特征；
3）在原有特征的基础上，添加新的特征，新特征可以是原有特征集的组合或划分，例如将year按season划分，将weekend和holiday组合为restday

2.参数优化
以python的sklearn.ensemble.RandomForestRegressor库为例，主要需要调节的参数为：
1）n_estimators：表示树的数量，通常随着树的数量的增加，test error会逐渐减小，当到达一定数目时，test error的变化变得很小，继续增大则test error反而会变大，出现过拟合现象，这时候就可以确定较为合理的树的数量；n_estimators的选择可通过GridSearchCV得到最优test error对应的树的数量。
2）max_features:表示基决策树的每个节点随机选择的最大特征数，传统决策树模型在选择特征时考虑所有可能的特征，而它降低了单个树的多样性，而由于随机森林基于集成学习思想的优点，减小max_features不仅会提升算法速度，也有可能降低测试误差，这也是RF模型在Bagging集成学习方法基础上的一个改进；对max_features的选择是逐一尝试，直到找到比较理想的值