问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

为什么决策树相关的算法不需要标准化?哪些模型需要标准化?

创作时间:
作者:
@小白创作中心

为什么决策树相关的算法不需要标准化?哪些模型需要标准化?

引用
CSDN
1.
https://m.blog.csdn.net/zhongkeyuanchongqing/article/details/118164277

在机器学习领域,数据预处理是一个至关重要的步骤。其中,标准化(或归一化)是常用的数据预处理方法之一。然而,并非所有算法都需要进行标准化处理。本文将探讨为什么决策树相关的算法不需要标准化,以及哪些模型需要标准化。

基于树的算法,如决策树(Decision Tree)、随机森林(Random Forest)和GBDT,xgboost等,对变量的大小不敏感。因此,在拟合这类模型之前,不需要进行标准化。

以决策树使用信息熵进行特征区间的划分为例,对于特征的划分只能信息熵的变化有关,而和特征的本身的大小无关,即只和特征对于模型分类或者回归的确定性的能力有关,而和特征本身数值的幅度无关;

也就是说,因为数值缩放不会影响分裂点位置,对树模型的结构不造成影响。

树生长,按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。而且,树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。

既然树形结构不需要标准化,那为何非树形结构

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号