问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

决策树算法:像人类一样做决策的智能流程图

创作时间:
作者:
@小白创作中心

决策树算法:像人类一样做决策的智能流程图

引用
1
来源
1.
https://www.huasuankeji.com/news/?p=325761

决策树(Decision Tree)是一种模仿人类决策过程的机器学习算法,通过一系列“是非判断”将复杂问题层层拆解,最终得出预测结果。因其直观易懂、适用性广的特性,它被誉为“最像人脑”的算法,广泛应用于医疗诊断、金融风控、客户分群等领域。

核心思想:分而治之的决策大师

基本概念

  • 树形结构

  • 根节点:起始问题(如“年龄>30岁吗?”)

  • 内部节点:中间判断(如“收入>5万吗?”)

  • 叶节点:最终结论(如“批准贷款”)

  • 决策路径:从根节点到叶节点的一条判断链
    示例:
    年龄>30? → 是 → 收入>5万? → 否 → 拒绝贷款

核心逻辑

  • 递归分割:不断选择最佳特征将数据划分为更纯的子集
  • 终止条件
  • 子集中样本全属同一类别
  • 特征已用完,或树深度达到预设阈值

人类决策类比

  • 医生诊断
    患者发烧吗?→ 是 → 咳嗽吗? → 是 → 检测流感病毒 → 确诊流感

  • 购物决策
    预算>1000元? → 否 → 需要便携吗? → 是 → 选择轻薄本

决策树如何选择“最佳分裂点”?

纯度衡量指标

决策树的优化目标是让子节点的数据尽可能“纯粹”(同类样本聚集)。常用指标:

(1)信息增益(Information Gain)

  • 基础概念:使用信息熵(Entropy)衡量数据混乱度
  • 熵公式

    Pk:数据集中第k类样本的比例
    熵值范围:0(完全纯净)到1(最大混乱,二分类时)
  • 信息增益计算
    A:某个特征
    V:该特征的取值数(如“性别”有2个取值)
    选择准则:信息增益越大,特征越优先分裂

示例
原始数据集熵为1(二分类各占50%)
按某特征分裂后,两子集熵分别为0和0.5
信息增益= 1 – (0.5×0 + 0.5×0.5) = 0.75

(2)基尼不纯度(Gini Impurity)

  • 公式
  • 特点:计算速度比熵更快,结果相似
  • CART算法默认使用基尼系数

分类 vs 回归

  • 分类树:叶节点输出类别标签(如“是否逾期”)
  • 回归树:叶节点输出连续值(如“房价=120万元”)
    分裂准则改用均方误差(MSE)或平均绝对误差(MAE)

决策树的构建步骤

数据准备

  • 处理缺失值:填充或分配至多数类
  • 离散化连续特征:如将年龄分为“青年/中年/老年”

生成树流程

  1. 从根节点开始,计算所有特征的分裂指标(信息增益/基尼系数)
  2. 选择最优特征作为当前节点的分裂条件
  3. 按特征取值划分子节点
  4. 对每个子节点递归重复上述过程,直到满足终止条件

剪枝处理

为防止过拟合(模型过度记忆训练数据细节),需对树进行剪枝:

  • 预剪枝:提前停止分裂(如限制树深度、设置最小样本数)
  • 后剪枝:生成完整树后,自底向上合并冗余节点

决策树家族:三大经典算法

关键改进:

  • C4.5:引入信息增益率(解决信息增益偏向多取值特征的问题)
  • CART:二叉树结构(每个节点仅分裂为两个子节点)

决策树的优势与局限

优势

✅解释性强:决策路径可翻译成自然语言规则
✅兼容多类型数据:可处理数值、类别、缺失值
✅无需复杂预处理:不受特征量纲影响,对异常值不敏感

局限性

⛔容易过拟合:不加控制可能生成复杂树(需依赖剪枝)
⛔稳定性差:数据微小变化可能导致树结构剧变
⛔次优决策:贪心算法无法保证全局最优

本文原文来自华算科技

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号