机器学习算法评价指标详解:从回归到分类
创作时间:
作者:
@小白创作中心
机器学习算法评价指标详解:从回归到分类
引用
1
来源
1.
https://cloud.tencent.com/developer/article/2477046
在机器学习领域,选择合适的评价指标对于模型的优化和性能评估至关重要。本文将详细介绍回归和分类算法的主要评价指标,帮助读者理解这些指标的计算方法和应用场景。
回归(Regression)算法指标
1.1 平均绝对误差(MAE)
平均绝对误差(MAE)又被称为 L1范数损失,计算公式如下:
MAE的不足之处在于绝对值的存在导致函数不光滑,在某些点上不能求导。
1.2 均方误差(MSE)
均方误差(MSE)又被称为 L2范数损失,计算公式如下:
1.3 均方根误差(RMSE)
均方根误差(RMSE)是对MSE进行开方处理,计算公式如下:
1.4 决定系数(R²)
决定系数(R²)反映因变量的全部变异能通过回归关系被自变量解释的比例,计算公式如下:
1.5 解决评估指标鲁棒性问题
为了解决评估指标的鲁棒性问题,通常采用以下两种方法:
- 剔除异常值:设定一个相对误差阈值,当超过该阈值时认为是异常点并予以剔除。
- 使用误差的分位数:如利用中位数代替平均数。
分类(Classification)算法指标
2.1 混淆矩阵(Confusion Matrix)
混淆矩阵用于展示分类结果的四个基本指标:
- True Positive (TP):实际为正类且预测也为正类
- True Negative (TN):实际为负类且预测也为负类
- False Positive (FP):实际为负类但预测为正类
- False Negative (FN):实际为正类但预测为负类
2.2 准确度(Accuracy)
准确度(Acc)是预测正确的样本占总样本的比例,计算公式如下:
2.3 准确率(Precision)
准确率(Precision)是分类器预测的正样本中预测正确的比例,计算公式如下:
2.4 召回率(Recall)
召回率(Recall)是分类器所预测正确的正样本占所有正样本的比例,计算公式如下:
2.5 P-R曲线
P-R曲线以查准率为纵轴、查全率为横轴,显示机器学习模型在样本总体上的查全率和查准率。
2.6 Fβ Score
Fβ Score是Precision和Recall的加权调和平均,计算公式如下:
2.7 ROC 和 AUC
ROC曲线以假阳性率(FPR)为横轴,真阳性率(TPR)为纵轴,反映模型的泛化性能。AUC值为ROC曲线下的面积,计算方法包括:
- 直接计算ROC曲线下的面积
- 根据AUC的物理意义计算正样本预测结果大于负样本预测结果的概率
- 基于排序的计算方法
2.8 KS Kolmogorov-Smirnov
KS值用于区分预测正负样本的分隔程度,计算方法是TPR和FPR之差的最大值。
总结
本文详细介绍了机器学习中常用的评价指标,包括回归和分类算法的主要指标。这些指标在模型训练和性能评估中发挥着重要作用。对于初学者来说,理解这些指标的计算方法和应用场景是掌握机器学习的关键一步。对于进阶学习者,建议参考周志华老师的《机器学习》(西瓜书)中关于这一部分的深入描述。
热门推荐
道教小知识:道教九位大帝
痣的形成及原因是什么
“人工智能+” @新未来
Excel制作比赛日程安排的详细步骤
汽车保养里程设置的依据是什么?如何合理设置保养里程?
如何面对批评,打造强大的职场韧性
劳动仲裁和诉讼哪个更有利
如何快速解决劳动纠纷问题
拉曼光谱入门:3.拉曼光谱的特征参数与定量定性分析策略
个人还款清单怎么写
泰国传统婚礼仪式流程:从迎亲到拜堂的五大环节
现在,大家为什么不用邮政编码了?
天津小站镇中山路社区“民声半月谈”:让“民生”跟着“民声”走
萝卜硫素:一种具有巨大潜力的天然活性物质
财务报表分析中的比率计算重点
沙棘:保持水土的“天然堤坝”
如何在众多居住选择中找到合适的房源?这些房源的优势如何体现?
如何在短租需求下找到合适的住所?这样的住所需要具备哪些条件?
算力显卡天梯图:揭秘高性能显卡的算力排行
NRR:上海交大崔东红团队综述太赫兹技术在脑科学研究的应用
食神的等级和层次
探索燕窝替代品:全方位解析平替产品的营养价值与选择指南
离心风机叶轮装配改良工艺
脱口秀节目专家研讨会:要坚持向上、向善的基本格调
人形机器人上演“速度与激情” 基金经理重新审视投资逻辑
华五指哪五所大学?解答“华五”所指的五所重点大学
卖专利是否违法?详细介绍专利交易法律规定
大活络丸作用是什么
武汉武昌美食地图:粮道街、户部巷、大成路的过早江湖
唐探也蹭上了新主流电影的热度?