机器学习算法评价指标详解:从回归到分类
创作时间:
作者:
@小白创作中心
机器学习算法评价指标详解:从回归到分类
引用
1
来源
1.
https://cloud.tencent.com/developer/article/2477046
在机器学习领域,选择合适的评价指标对于模型的优化和性能评估至关重要。本文将详细介绍回归和分类算法的主要评价指标,帮助读者理解这些指标的计算方法和应用场景。
回归(Regression)算法指标
1.1 平均绝对误差(MAE)
平均绝对误差(MAE)又被称为 L1范数损失,计算公式如下:
MAE的不足之处在于绝对值的存在导致函数不光滑,在某些点上不能求导。
1.2 均方误差(MSE)
均方误差(MSE)又被称为 L2范数损失,计算公式如下:
1.3 均方根误差(RMSE)
均方根误差(RMSE)是对MSE进行开方处理,计算公式如下:
1.4 决定系数(R²)
决定系数(R²)反映因变量的全部变异能通过回归关系被自变量解释的比例,计算公式如下:
1.5 解决评估指标鲁棒性问题
为了解决评估指标的鲁棒性问题,通常采用以下两种方法:
- 剔除异常值:设定一个相对误差阈值,当超过该阈值时认为是异常点并予以剔除。
- 使用误差的分位数:如利用中位数代替平均数。
分类(Classification)算法指标
2.1 混淆矩阵(Confusion Matrix)
混淆矩阵用于展示分类结果的四个基本指标:
- True Positive (TP):实际为正类且预测也为正类
- True Negative (TN):实际为负类且预测也为负类
- False Positive (FP):实际为负类但预测为正类
- False Negative (FN):实际为正类但预测为负类
2.2 准确度(Accuracy)
准确度(Acc)是预测正确的样本占总样本的比例,计算公式如下:
2.3 准确率(Precision)
准确率(Precision)是分类器预测的正样本中预测正确的比例,计算公式如下:
2.4 召回率(Recall)
召回率(Recall)是分类器所预测正确的正样本占所有正样本的比例,计算公式如下:
2.5 P-R曲线
P-R曲线以查准率为纵轴、查全率为横轴,显示机器学习模型在样本总体上的查全率和查准率。
2.6 Fβ Score
Fβ Score是Precision和Recall的加权调和平均,计算公式如下:
2.7 ROC 和 AUC
ROC曲线以假阳性率(FPR)为横轴,真阳性率(TPR)为纵轴,反映模型的泛化性能。AUC值为ROC曲线下的面积,计算方法包括:
- 直接计算ROC曲线下的面积
- 根据AUC的物理意义计算正样本预测结果大于负样本预测结果的概率
- 基于排序的计算方法
2.8 KS Kolmogorov-Smirnov
KS值用于区分预测正负样本的分隔程度,计算方法是TPR和FPR之差的最大值。
总结
本文详细介绍了机器学习中常用的评价指标,包括回归和分类算法的主要指标。这些指标在模型训练和性能评估中发挥着重要作用。对于初学者来说,理解这些指标的计算方法和应用场景是掌握机器学习的关键一步。对于进阶学习者,建议参考周志华老师的《机器学习》(西瓜书)中关于这一部分的深入描述。
热门推荐
10款手机也能玩的Steam独立游戏!种类齐全放心收藏
武汉消费者线下购物消费调查报告
关于外耳炎:症状、诊断和治疗方法
补充胶原蛋白肽对人体有哪些好处
胆碱酯酶偏高有哪些危害?
“智造”赋能 民营企业加快提升含“新”量
家庭自制纳豆完全指南:从选豆到食用的详细步骤
“杭州六小龙”现象的浙江密码:一场经济转型中的基因激活
中国登机箱尺寸新规定
铀浓缩工艺过程(铀浓缩的原理、方法和问题)
宝宝牙齿保卫战!0到6岁的口腔护理全攻略
美国教育制度及其特点
同样是贵金属,黄金大火价格飙升!为啥白银就越来越不值钱?
猪肚为什么会苦?苦的猪肚能吃吗?
怎么查看微信密码?五个步骤查看微信密码,其实并不难!
食品行业中的人工智能
H800核心性能优化技术
碳当量作用和碳当量计算公式详解
2024年的选择:为什么Go可能是理想的后端语言
最便宜的鸿蒙智行车要来了,上汽会逆势翻盘吗?
东吴立国久远之因:地利、人和与战略
金属铁如何防锈?
土星新增128颗卫星,总数达274颗
《坎贝尔基础生物学》第六版:一本值得收藏的生物学百科全书
芒果放冰箱反而烂了?这 2 类水果,真不适合冷藏
切小芒果怎么储存照片
英国的法律体系:了解英国法律体系的基本框架和特点
尿蛋白2+是什么原因
西门子冰箱冷藏室结冰结霜现象原因总结及处理方法与预防措施(整编)
江苏移动携手亨通光电与华为完成业界首个广域精简5G LAN “三跨”工业互联应用