机器学习算法评价指标详解:从回归到分类
创作时间:
作者:
@小白创作中心
机器学习算法评价指标详解:从回归到分类
引用
1
来源
1.
https://cloud.tencent.com/developer/article/2477046
在机器学习领域,选择合适的评价指标对于模型的优化和性能评估至关重要。本文将详细介绍回归和分类算法的主要评价指标,帮助读者理解这些指标的计算方法和应用场景。
回归(Regression)算法指标
1.1 平均绝对误差(MAE)
平均绝对误差(MAE)又被称为 L1范数损失,计算公式如下:
MAE的不足之处在于绝对值的存在导致函数不光滑,在某些点上不能求导。
1.2 均方误差(MSE)
均方误差(MSE)又被称为 L2范数损失,计算公式如下:
1.3 均方根误差(RMSE)
均方根误差(RMSE)是对MSE进行开方处理,计算公式如下:
1.4 决定系数(R²)
决定系数(R²)反映因变量的全部变异能通过回归关系被自变量解释的比例,计算公式如下:
1.5 解决评估指标鲁棒性问题
为了解决评估指标的鲁棒性问题,通常采用以下两种方法:
- 剔除异常值:设定一个相对误差阈值,当超过该阈值时认为是异常点并予以剔除。
- 使用误差的分位数:如利用中位数代替平均数。
分类(Classification)算法指标
2.1 混淆矩阵(Confusion Matrix)
混淆矩阵用于展示分类结果的四个基本指标:
- True Positive (TP):实际为正类且预测也为正类
- True Negative (TN):实际为负类且预测也为负类
- False Positive (FP):实际为负类但预测为正类
- False Negative (FN):实际为正类但预测为负类
2.2 准确度(Accuracy)
准确度(Acc)是预测正确的样本占总样本的比例,计算公式如下:
2.3 准确率(Precision)
准确率(Precision)是分类器预测的正样本中预测正确的比例,计算公式如下:
2.4 召回率(Recall)
召回率(Recall)是分类器所预测正确的正样本占所有正样本的比例,计算公式如下:
2.5 P-R曲线
P-R曲线以查准率为纵轴、查全率为横轴,显示机器学习模型在样本总体上的查全率和查准率。
2.6 Fβ Score
Fβ Score是Precision和Recall的加权调和平均,计算公式如下:
2.7 ROC 和 AUC
ROC曲线以假阳性率(FPR)为横轴,真阳性率(TPR)为纵轴,反映模型的泛化性能。AUC值为ROC曲线下的面积,计算方法包括:
- 直接计算ROC曲线下的面积
- 根据AUC的物理意义计算正样本预测结果大于负样本预测结果的概率
- 基于排序的计算方法
2.8 KS Kolmogorov-Smirnov
KS值用于区分预测正负样本的分隔程度,计算方法是TPR和FPR之差的最大值。
总结
本文详细介绍了机器学习中常用的评价指标,包括回归和分类算法的主要指标。这些指标在模型训练和性能评估中发挥着重要作用。对于初学者来说,理解这些指标的计算方法和应用场景是掌握机器学习的关键一步。对于进阶学习者,建议参考周志华老师的《机器学习》(西瓜书)中关于这一部分的深入描述。
热门推荐
Switch上不可错过的模拟经营游戏推荐(探索10款精彩的经营类游戏)
小米汽车事故深度分析:技术短板、品牌危机与行业启示
警惕!番泻叶别喝多了,不然危害远比想象严重!
修复创伤骨折 营养管理要当先
守护骨骼健康,远离骨质疏松
突发!客流不足、暂缓建设,郑州这条地铁线路有变!
冬季建筑施工温度要求及安全指南
混凝土为什么要浇水养护呢(混凝土浇水养护的方法及要求)
武汉樱花季:一城浪漫激发多元活力
什么样的个人征信才是合格的?个人征信怎样才算合格?如何评估的
内存条频率对游戏帧数的影响实测:三款游戏数据对比
实测:AI挑西瓜靠谱吗?专家:大模型无法获取手感信息
智能比例阀:现代工业控制的关键组件
Steam游戏评测 No.29《刺客信条:英灵殿》
新能源汽车的分类及基本介绍
盘点14种世界上最大的大型哺乳动物
自动驾驶的法律和伦理问题
牛奶血、反复胰腺炎和糖尿病:一场身体里的“连环车祸”
电机系统温度监控专利如何提升电动汽车的安全与性能?
肺结节手术后如何正确运动与快速恢复
海南岛终极旅游指南:全境必游景点与深度体验攻略
水库水位监测系统的自动化功能:减少人工干预,可实现实时监控
为何只有人类和鹦鹉会说话?
崔颢《黄鹤楼》写作背景
如何通过目标与计划管理书籍提升你的时间管理技能?
英文名游戏ID创意与技巧解析
漫威影业新篇章,少年复仇者联盟即将崛起?
奥特曼OpenAI:科技与幻想的奇妙碰撞
中国古建筑特征|门窗 Ⅰ
窗棂间,藏着西洋之美与中式灵魂——中华巴洛克建筑窗户背后的匠心与传承