机器学习算法评价指标详解:从回归到分类
创作时间:
作者:
@小白创作中心
机器学习算法评价指标详解:从回归到分类
引用
1
来源
1.
https://cloud.tencent.com/developer/article/2477046
在机器学习领域,选择合适的评价指标对于模型的优化和性能评估至关重要。本文将详细介绍回归和分类算法的主要评价指标,帮助读者理解这些指标的计算方法和应用场景。
回归(Regression)算法指标
1.1 平均绝对误差(MAE)
平均绝对误差(MAE)又被称为 L1范数损失,计算公式如下:
MAE的不足之处在于绝对值的存在导致函数不光滑,在某些点上不能求导。
1.2 均方误差(MSE)
均方误差(MSE)又被称为 L2范数损失,计算公式如下:
1.3 均方根误差(RMSE)
均方根误差(RMSE)是对MSE进行开方处理,计算公式如下:
1.4 决定系数(R²)
决定系数(R²)反映因变量的全部变异能通过回归关系被自变量解释的比例,计算公式如下:
1.5 解决评估指标鲁棒性问题
为了解决评估指标的鲁棒性问题,通常采用以下两种方法:
- 剔除异常值:设定一个相对误差阈值,当超过该阈值时认为是异常点并予以剔除。
- 使用误差的分位数:如利用中位数代替平均数。
分类(Classification)算法指标
2.1 混淆矩阵(Confusion Matrix)
混淆矩阵用于展示分类结果的四个基本指标:
- True Positive (TP):实际为正类且预测也为正类
- True Negative (TN):实际为负类且预测也为负类
- False Positive (FP):实际为负类但预测为正类
- False Negative (FN):实际为正类但预测为负类
2.2 准确度(Accuracy)
准确度(Acc)是预测正确的样本占总样本的比例,计算公式如下:
2.3 准确率(Precision)
准确率(Precision)是分类器预测的正样本中预测正确的比例,计算公式如下:
2.4 召回率(Recall)
召回率(Recall)是分类器所预测正确的正样本占所有正样本的比例,计算公式如下:
2.5 P-R曲线
P-R曲线以查准率为纵轴、查全率为横轴,显示机器学习模型在样本总体上的查全率和查准率。
2.6 Fβ Score
Fβ Score是Precision和Recall的加权调和平均,计算公式如下:
2.7 ROC 和 AUC
ROC曲线以假阳性率(FPR)为横轴,真阳性率(TPR)为纵轴,反映模型的泛化性能。AUC值为ROC曲线下的面积,计算方法包括:
- 直接计算ROC曲线下的面积
- 根据AUC的物理意义计算正样本预测结果大于负样本预测结果的概率
- 基于排序的计算方法
2.8 KS Kolmogorov-Smirnov
KS值用于区分预测正负样本的分隔程度,计算方法是TPR和FPR之差的最大值。
总结
本文详细介绍了机器学习中常用的评价指标,包括回归和分类算法的主要指标。这些指标在模型训练和性能评估中发挥着重要作用。对于初学者来说,理解这些指标的计算方法和应用场景是掌握机器学习的关键一步。对于进阶学习者,建议参考周志华老师的《机器学习》(西瓜书)中关于这一部分的深入描述。
热门推荐
如何停止精神内耗:中考语文一轮复习阅读写作思维训练
大豆纤维被与棉被的区别:材质、优缺点及选购指南
农村盖房子左右邻居要留多少间距
通行证与签注:两者之间的区别及应用场景
大股东侵占公司财产罪:公司法的视角与应对策略
北京语言大学国际本科项目详解:含金量与毕业文凭
古巴导弹危机:冷战期间最危险的时刻
白日梦:潜能的源泉与健康的良药
孩子输不起、玻璃心,遇挫就崩溃?教你几招让孩子内心逐步强大
黎山老母到底是什么神仙,她老人家的四个徒弟都有谁?
在线查询酒店入住信息需要哪些资料
靖康之耻究竟有多耻辱?带来哪些影响?
不同八字的人性格怎么样
【古剑奇谭】古剑的等级
企业法务如何应对跨境法律挑战
炖肉时是否需要放白芷?一文详解白芷在炖肉中的正确使用方法
新鲜花生冷库储存方法及温度要求
张雪峰谈戏剧学专业就业前景、考研方向、优势与劣势
《山海经》究竟是什么时候成书的?为什么会存在争议
揭秘信托投资陷阱,一文读懂信托纠纷处理与风险防范
以久久为功之力 护一泓清水永续——汉江集团公司持续推进丹江口库区生态保护纪实
鼻涕倒流?别慌,我有妙招!
语C是什么?语言Cosplay的分类与应用场景
宋词最唯美的名字女孩,古典书香气息的名字女
6件小事,帮孩子保持心理健康
室内设计师提成一般是多少百分比?
Nginx部署多个前端项目如何实现配置隔离?Nginx多项目部署
3款最适合普通家庭的二手车,省油又省心
黑魂1和艾尔登法环哪个难?
工科和理科专业哪个好就业、前景更好?附全方面对比