机器学习算法评价指标详解:从回归到分类
创作时间:
作者:
@小白创作中心
机器学习算法评价指标详解:从回归到分类
引用
1
来源
1.
https://cloud.tencent.com/developer/article/2477046
在机器学习领域,选择合适的评价指标对于模型的优化和性能评估至关重要。本文将详细介绍回归和分类算法的主要评价指标,帮助读者理解这些指标的计算方法和应用场景。
回归(Regression)算法指标
1.1 平均绝对误差(MAE)
平均绝对误差(MAE)又被称为 L1范数损失,计算公式如下:
MAE的不足之处在于绝对值的存在导致函数不光滑,在某些点上不能求导。
1.2 均方误差(MSE)
均方误差(MSE)又被称为 L2范数损失,计算公式如下:
1.3 均方根误差(RMSE)
均方根误差(RMSE)是对MSE进行开方处理,计算公式如下:
1.4 决定系数(R²)
决定系数(R²)反映因变量的全部变异能通过回归关系被自变量解释的比例,计算公式如下:
1.5 解决评估指标鲁棒性问题
为了解决评估指标的鲁棒性问题,通常采用以下两种方法:
- 剔除异常值:设定一个相对误差阈值,当超过该阈值时认为是异常点并予以剔除。
- 使用误差的分位数:如利用中位数代替平均数。
分类(Classification)算法指标
2.1 混淆矩阵(Confusion Matrix)
混淆矩阵用于展示分类结果的四个基本指标:
- True Positive (TP):实际为正类且预测也为正类
- True Negative (TN):实际为负类且预测也为负类
- False Positive (FP):实际为负类但预测为正类
- False Negative (FN):实际为正类但预测为负类
2.2 准确度(Accuracy)
准确度(Acc)是预测正确的样本占总样本的比例,计算公式如下:
2.3 准确率(Precision)
准确率(Precision)是分类器预测的正样本中预测正确的比例,计算公式如下:
2.4 召回率(Recall)
召回率(Recall)是分类器所预测正确的正样本占所有正样本的比例,计算公式如下:
2.5 P-R曲线
P-R曲线以查准率为纵轴、查全率为横轴,显示机器学习模型在样本总体上的查全率和查准率。
2.6 Fβ Score
Fβ Score是Precision和Recall的加权调和平均,计算公式如下:
2.7 ROC 和 AUC
ROC曲线以假阳性率(FPR)为横轴,真阳性率(TPR)为纵轴,反映模型的泛化性能。AUC值为ROC曲线下的面积,计算方法包括:
- 直接计算ROC曲线下的面积
- 根据AUC的物理意义计算正样本预测结果大于负样本预测结果的概率
- 基于排序的计算方法
2.8 KS Kolmogorov-Smirnov
KS值用于区分预测正负样本的分隔程度,计算方法是TPR和FPR之差的最大值。
总结
本文详细介绍了机器学习中常用的评价指标,包括回归和分类算法的主要指标。这些指标在模型训练和性能评估中发挥着重要作用。对于初学者来说,理解这些指标的计算方法和应用场景是掌握机器学习的关键一步。对于进阶学习者,建议参考周志华老师的《机器学习》(西瓜书)中关于这一部分的深入描述。
热门推荐
一天3杯咖啡喝出中度贫血?又开始胡扯了
预防贫血健康教育
职场新人有点纳闷,吃得不少,还缺铁性贫血?
海外医疗Jesduvroq:慢性肾病贫血的新药疗效价格和2024成功案例
OCR技术的基本原理是什么?
骨折内固定物取出,这些细节你必须知道!
工伤认定中的内固定物评估
锁定钢板 vs 髓内钉:老年人肱骨近端骨折术后康复哪家强?
春节红包攻略:从起源到发放全解析
微信第一红包网揭秘:压岁钱的神秘起源
广东红包文化:春节必备的独特习俗
春节红包新玩法:微信红包大战来袭!
冀北电网电价政策详解:从燃煤标杆到居民阶梯电价
商丘永城惊现5000年大墓,文化遗产价值爆表!
春节红包理财攻略:让孩子财商起飞
2025春节红包大战:创新还是鸡肋?
压岁钱“变味”:年轻人的甜蜜负担如何破?
无土栽培海绵技术:高效环保的现代农业新选择
12月起中日航线加速恢复,春秋东航深航相继开通新航线
从遣唐使到甲午战争:中日关系的历史转折
德天瀑布:亚洲最大跨国瀑布及周边景点全攻略
北海出发游德天:田园、峡谷、瀑布,广西三景一线游
从汉墓群到英领馆:北海见证海上丝绸之路变迁
春节前夕温县灯笼产销两旺,年产值近20亿带动乡村振兴
凤翔花灯:传统工艺点亮西府夜空
红灯笼里的中国年:从照明到文化符号的千年演变
建筑施工配电箱如何安全使用?最新规范这样要求
不良生活习惯致胃病频发,专家:从5个方面入手预防
5亿神经元构筑肠道神经系统,影响人体情绪与健康
正确清洁保养,让吉列剃须刀保持最佳状态