决策树与决策森林

发表于 2024-03-18 更新于 2024-07-04 分类于学习笔记，深度学习学习笔记

决策树

笔记来源：# 机器学习算法–决策树的超生动简单演示

决策树是一个递归分割的二叉树，直接得到纯净的叶结点（数据只包含一种类型的类别，在以下展示的决策树中，一个叶结点中的类型要么是红色，要么是绿色）。决策树是一个贪心算法，无法保证得到的是一个最优的分割集，但是它的训练速度很快，同时效果也很好。

以下是一个决策树。

使用决策树分类：设一个新的点为（15，7），则经过决策树以后，该结点会到一个结点，而该结点中的所有的数据都是红色的，因此该点为红色。

决策树的本质可以看成是一大堆的 if-else 语句。

模型决定最佳的分割：

以根结点为例，该决策树可以选择 y <= 4 与 x <= -12。而对于计算机来说，做一个决策一定要通过一个值来确定，所以这里可以定义： 熵 与 信息增益。

熵是一个状态所包含的信息量的度量，如果熵很高，则不能确定随机选出的点是什么。熵的公式如下：$Entropy = \sum - p_{i}*log_{2}(p_{i})$。 $p_{i}$ 表示第 i 类出现的概率，在本次示例中，如果红色与绿色出现的概率相同，则红与绿的 $p$ 均为 0.5。将该公式代入根结点，则根结点的概率为 1，而纯结点的熵为 0。

信息增益的公式如下：$IG = E(parent) - \sum w_{i}E(child_{i})$。其中，$E(x)$ 表示 x 的熵；$w_{i}$ 表示子结点中的个数比父结点中的个数。

使用该公式可知：x <= -12 的信息增益为 0.24，而 y <= 4 的信息增益为 0.034。因此我们选择 x <= 12 这种分割方式。

模型在实际的运行过程中，会比较每一种分割方式，并选择信息增益最大的分割方式。

缺点：对训练的数据很敏感。