问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

机器学习算法评价指标详解:从回归到分类

创作时间:
作者:
@小白创作中心

机器学习算法评价指标详解:从回归到分类

引用
1
来源
1.
https://cloud.tencent.com/developer/article/2477046

在机器学习领域,选择合适的评价指标对于模型的优化和性能评估至关重要。本文将详细介绍回归和分类算法的主要评价指标,帮助读者理解这些指标的计算方法和应用场景。

回归(Regression)算法指标

1.1 平均绝对误差(MAE)

平均绝对误差(MAE)又被称为 L1范数损失,计算公式如下:

MAE的不足之处在于绝对值的存在导致函数不光滑,在某些点上不能求导。

1.2 均方误差(MSE)

均方误差(MSE)又被称为 L2范数损失,计算公式如下:

1.3 均方根误差(RMSE)

均方根误差(RMSE)是对MSE进行开方处理,计算公式如下:

1.4 决定系数(R²)

决定系数(R²)反映因变量的全部变异能通过回归关系被自变量解释的比例,计算公式如下:

1.5 解决评估指标鲁棒性问题

为了解决评估指标的鲁棒性问题,通常采用以下两种方法:

  • 剔除异常值:设定一个相对误差阈值,当超过该阈值时认为是异常点并予以剔除。
  • 使用误差的分位数:如利用中位数代替平均数。

分类(Classification)算法指标

2.1 混淆矩阵(Confusion Matrix)

混淆矩阵用于展示分类结果的四个基本指标:

  • True Positive (TP):实际为正类且预测也为正类
  • True Negative (TN):实际为负类且预测也为负类
  • False Positive (FP):实际为负类但预测为正类
  • False Negative (FN):实际为正类但预测为负类

2.2 准确度(Accuracy)

准确度(Acc)是预测正确的样本占总样本的比例,计算公式如下:

2.3 准确率(Precision)

准确率(Precision)是分类器预测的正样本中预测正确的比例,计算公式如下:

2.4 召回率(Recall)

召回率(Recall)是分类器所预测正确的正样本占所有正样本的比例,计算公式如下:

2.5 P-R曲线

P-R曲线以查准率为纵轴、查全率为横轴,显示机器学习模型在样本总体上的查全率和查准率。

2.6 Fβ Score

Fβ Score是Precision和Recall的加权调和平均,计算公式如下:

2.7 ROC 和 AUC

ROC曲线以假阳性率(FPR)为横轴,真阳性率(TPR)为纵轴,反映模型的泛化性能。AUC值为ROC曲线下的面积,计算方法包括:

  • 直接计算ROC曲线下的面积
  • 根据AUC的物理意义计算正样本预测结果大于负样本预测结果的概率
  • 基于排序的计算方法

2.8 KS Kolmogorov-Smirnov

KS值用于区分预测正负样本的分隔程度,计算方法是TPR和FPR之差的最大值。

总结

本文详细介绍了机器学习中常用的评价指标,包括回归和分类算法的主要指标。这些指标在模型训练和性能评估中发挥着重要作用。对于初学者来说,理解这些指标的计算方法和应用场景是掌握机器学习的关键一步。对于进阶学习者,建议参考周志华老师的《机器学习》(西瓜书)中关于这一部分的深入描述。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号