机器学习算法之集成学习

2020-02-23

算法 / 机器学习

字数统计: 2k字 | 阅读时长≈ 7分钟

Editor：闫玉良

分类算法中有一种极其重要的算法「集成学习」

更多精彩文章请关注公众号『Pythonnote』或者『全栈技术精选』

1.集成学习算法简介

1.1 什么是集成学习

集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型 **，各自独立地学习和作出预测。这些预测最后结合成组合预测，因此优于任何一个单分类的做出预测。**

1.2 复习：机器学习的两个核心任务

1.3 集成学习中 boosting 和 Bagging

只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的.

2.Bagging 和随机森林

2.1 Bagging 集成原理

目标：把下面的圈和方块进行分类

实现过程：

1) 采样不同数据集

2) 训练分类器

3) 平权投票，获取最终结果

4) 主要实现过程小结

2.2 随机森林构造过程

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

随机森林 = Bagging + 决策树

例如，你训练了5棵树, 其中有4棵树的结果是 True，1棵树的结果是 False，那么最终投票结果就是 True

随机森林够造过程中的关键步骤（用 N 来表示训练用例(样本)的个数，M 表示特征数目）：

1）一次随机选出一个样本，有放回的抽样，重复 N 次（有可能出现重复的样本）

2）随机去选出 m 个特征，m<<M ，建立决策树

思考

1.为什么要随机抽样训练集？　　

如果不进行随机抽样，每棵树的训练集都一样，那么最终训练出的树分类结果也是完全一样的

2.为什么要有放回地抽样？

如果不是有放回的抽样，那么每棵树的训练样本都是不同的，都是没有交集的，这样每棵树都是「有偏的」，都是绝对「片面的」（当然这样说可能不对），也就是说每棵树训练出来都是有很大的差异的；而随机森林最后分类取决于多棵树（弱分类器）的投票表决。

2.3 随机森林 api 介绍

sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion="gini", max_depth=None, bootstrap=True, random_state=None, min_samples_split=2)

- n_estimators：integer，optional（default = 10）森林里的树木数量120,200,300,500,800,1200
- Criterion：string，可选（default ="gini"）分割特征的测量方法
- max_depth：integer或None，可选（默认=无）树的最大深度 5,8,15,25,30
- max_features="auto”,每个决策树的最大特征数量
  - If "auto", then `max_features=sqrt(n_features)`.
  - If "sqrt", then `max_features=sqrt(n_features)`(same as "auto").
  - If "log2", then `max_features=log2(n_features)`.
  - If None, then `max_features=n_features`.
- bootstrap：boolean，optional（default = True）是否在构建树时使用放回抽样
- min_samples_split:节点划分最少样本数
- min_samples_leaf:叶子节点的最小样本数

# 超参数：n_estimator, max_depth, min_samples_split,min_samples_leaf

2.4 随机森林预测案例

1) 实例化随机森林

1 2	# 随机森林去进行预测 rf = RandomForestClassifier()

2) 定义超参数的选择列表

1	param = {"n_estimators": [120,200,300,500,800,1200], "max_depth": [5, 8, 15, 25, 30]}

3) 使用 GridSearchCV 进行网格搜索

# 超参数调优
gc = GridSearchCV(rf, param_grid=param, cv=2)

gc.fit(x_train, y_train)

print("随机森林预测的准确率为：", gc.score(x_test, y_test))

注意：(1) 随机森林的建立过程；(2) 树的深度、树的个数等需要进行超参数调优

2.5 bagging 集成优点

Bagging + 决策树/线性回归/逻辑回归/深度学习… = bagging集成学习方法

经过上面方式组成的集成学习方法:

1) 均可在原有算法上提高约2%左右的泛化正确率

2) 简单, 方便, 通用

3.Boosting

3.1 boosting 集成原理

3.1.1 什么是 boosting

随着学习的积累从弱到强

简而言之：每新加入一个弱学习器，整体能力就会得到提升

代表算法：Adaboost，GBDT，XGBoost

3.1.2 实现过程

1) 训练第一个学习器

2) 调整数据分布

3) 训练第二个学习器

4) 再次调整数据分布

5) 依次训练学习器，调整数据分布

6) 整体过程实现

关键点：如何确认投票权重？如何调整数据分布？

3.1.3 其他

AdaBoost 的构造过程

Boosting 和 AdaBoost

boosting 是一种集成技术，试图从多个弱分类器中创建强分类器。通过从训练数据构建一个模型，然后创建第二个模型试图纠正第一个模型中的错误。不断添加模型，直到训练集被完美地预测或者添加到最大数量。
AdaBoost 是第一个为二分类开发的真正成功的提升算法。现代 boosting 方法建立在 AdaBoost 上，最著名的是随机梯度提升机（stochastic gradient boosting machines）。

此描述转载自简书作者Bobby0322的「机器学习—提升和自适应增强（Boosting和AdaBoost）」一文。

bagging 集成与 boosting 集成的区别：

区别一：数据方面

Bagging：对数据进行采样训练；

Boosting：根据前一轮学习结果调整数据的重要性。

区别二：投票方面

Bagging：所有学习器平权投票；

Boosting：对学习器进行加权投票。

区别三：学习顺序

Bagging 的学习是并行的，每个学习器没有依赖关系；

Boosting 学习是串行，学习有先后顺序。

区别四：主要作用

Bagging 主要用于提高泛化性能（解决过拟合，也可以说降低方差）

Boosting 主要用于提高训练精度（解决欠拟合，也可以说降低偏差）

3.2 GBDT(了解)

梯度提升决策树(GBDT Gradient Boosting Decision Tree) 是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。

GBDT = 梯度下降 + Boosting + 决策树

3.2.1 梯度的概念(复习)

3.2.2 GBDT 执行流程

如果上式中的 hi(x)=决策树模型，则上式就变为：

GBDT = 梯度下降 + Boosting + 决策树

3.2.3 案例

预测编号5的身高:

编号	年龄(岁)	体重(KG)	身高(M)
1	5	20	1.1
2	7	30	1.3
3	21	70	1.7
4	30	60	1.8
5	25	65	?

第一步：计算损失函数，并求出第一个预测值。

第二步：求解划分点。

得出：年龄21为划分点的方差=0.01+0.0025=0.0125

第三步：通过调整后目标值，求解得出h1(x)

第四步：求解 h2(x)

… …

得出结果：

编号5身高 = 1.475 + 0.03 + 0.275 = 1.78

3.2.4 GBDT 主要执行思想

1) 使用梯度下降法优化代价函数；

2) 使用一层决策树作为弱学习器，负梯度作为目标值；

3) 利用 boosting 思想进行集成。

3.3 XGBoost(了解)

XGBoost= 二阶泰勒展开+boosting+决策树+正则化

面试题：了解 XGBoost 么，请详细说说它的原理

回答要点：二阶泰勒展开，boosting，决策树，正则化

Boosting：XGBoost 使用 Boosting 提升思想对多个弱学习器进行迭代式学习

二阶泰勒展开：每一轮学习中，XGBoost对损失函数进行二阶泰勒展开，使用一阶和二阶梯度进行优化。

决策树：在每一轮学习中，XGBoost 使用决策树算法作为弱学习进行优化。

正则化：在优化过程中 XGBoost 为防止过拟合，在损失函数中加入惩罚项，限制决策树的叶子节点个数以及决策树叶子节点的值。

[拓展]什么是泰勒展开式

泰勒展开越多，计算结果越精确。