资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

决策树：从基础概念到实践应用

创作时间:

作者:

@小白创作中心

决策树：从基础概念到实践应用

引用

来源

https://raechim.work/notebook/part5/chapter1/1.html

决策树是一种基本的机器学习算法，广泛应用于分类和回归问题。本文将详细介绍决策树的基本概念、经典算法（如ID3）、过拟合问题及其解决方案（预剪枝和后剪枝）、以及决策树学习的特点和拓展应用。

1.1 基本决策树学习

Classical targeting problems

非数值数据（nominaldata）的分类问题
离散
没用相似的自然解释
一般没有排序

Representation

属性表而不是真值的向量。

Decision tree — concepts

1.2 经典决策树算法

CART （分类与回归树）

一般框架：

利用训练数据构造一棵决策树
决策树将逐步将训练样本分解成越来越小的子集
当每个子集都是纯的时停止
或者当结果是可接受的时候

Classical DTreee Alg. – ID3

自顶向下，贪心搜索
递归算法

主循环：

A：下一步的最佳决策属性
把A作为节点的决策属性
对于(A(vi))的每个值，创建新的节点后代
将训练示例排序到叶节点
如果训练样本完全分类，则RETURN，
Else向下取到新的叶节点

Q1：哪个属性是最好的？

Fundamental principle:simplicity
在每个节点N上寻找一个属性查询T，使到达直系后代节点的数据尽可能"pure"。
Purity - Impurity

如何衡量不纯度？
— Entropy (熵) impurity is frequently used.
[\color{green}{Entropy(N) = - \sum_j {P(w_j) \log_2 P(w_j)}}]
定义(0 \log 0 = 0)。

在信息理论中，熵用来度量信息的纯/不纯，或者说是信息的不确定性。均匀分布的情况下，熵最大。

除熵外，其他计算方式
Gini impurity (i(N) = \sum_{i \neq j}{P(w_j)} P(w_j) = 1 - \sum_j P^2(w_j))
Misclassification impurity (i(N) = 1 - \max_j{P(w_i)})

度量熵的变化(\color{green}{\Delta I(N)}) — information gain (IG)
期望熵随着对A的排序而下降。
[Gain(S,A) \equiv Entropy(S) - \sum_{v \in Vlaues(A)} \frac{\vert S_v \vert}{S} Entropy(S_v)]

Q2: 何时RETURN（停止分裂）?

当训练样例被完美地分类了时。
Condition 1：如果当前子集内所有的数据都有相同的输出类，stop
Condition 2：如果当前子集内所有的数据都有相同的输入值，stop

补充
Possible Condition 3：如果所有的属性的IG值都是0，stop （A good idea？）

ID3所搜索的假设空间

（1）假设空间是完备的
目标函数必定在其中
（2）输出单个假设
（根据经验）不能超过20层
（3）无回溯
局部极小
（4）每一步都用到了子集中所有数据
基于统计的搜索选择
对噪声数据具有鲁棒性

ID3的归纳偏置

注意：(H)是实例(X)的一个幂集。
假设空间是没有限制的。
偏爱有高IG属性的树。
试图找到最短的树。
Bias是对某些假设的偏向（search bias），而不是假设空间的限制（language bias）。
Occam's razor（奥卡姆剃刀原则）：偏向与数据吻合的最短假设。

1.3 Over-fitting

什么是过拟合？

称(\color{green}{h \in H})是过拟合的，如果存在另一个(h' \in H)使得(\color{green}{err_{train}(h) \lt err_{train}(h')})且(\color{green}{err_{train}(h) \gt err_{train}(h')})。

DTree中的过拟合

每片叶子对应于一个单一的训练点，并且整个树只是一个查找表。

如何避免过拟合？

针对DTree的两种避免过拟合的方法：
2. 当数据分割没有统计学意义时停止增长（预剪枝）
4. 先长出完整的树，然后再剪枝（后剪枝）

1.4 Pruning

1.4.1 Pre-pruning

何时停止分裂？

实例数量
当到达一个节点的训练实例数小于训练集的一定百分比时，停止分裂。
忽略不纯和错误。
任何基于太少实例的决策都会导致方差，从而导致泛化错误。
信息增益值阈值
设置一个小的阈值，当(\Delta i(s) \le q)时停止分裂。
优点：利用了所有的训练数据，叶子节点可以位于树的不同层。
缺点：难以选择合适的阈值。