通过三个直观步骤理解ROC曲线
创作时间:
作者:
@小白创作中心
通过三个直观步骤理解ROC曲线
引用
CSDN
1.
https://blog.csdn.net/deephub/article/details/106799969
ROC曲线是评估分类模型性能的重要工具。本文通过三个直观的步骤,帮助读者理解ROC曲线的概念和计算方法。
ROC曲线是一个用于评估分类模型效果好坏的可视化表示。在这篇文章中,我将分三个步骤来构建ROC曲线。
步骤1:获取分类模型预测
当我们训练一个分类模型时,模型会输出每个样本属于正类的概率。以贷款偿还为例,模型会给出借款人偿还贷款的概率。概率值通常在0到1之间,数值越高表示借款人越有可能偿还贷款。
接下来,我们需要选择一个阈值,将概率值分为“会偿还”和“不会偿还”两类。例如,如果选择0.35作为阈值:
- 所有概率值达到或超过0.35的预测,被归类为“会偿还”
- 所有概率值低于0.35的预测,被归类为“不会偿还”
然后,我们需要评估这些分类是否正确。通过比较预测结果和实际结果,我们可以构建一个混淆矩阵:
- 所有真正积极的样本(实际会偿还的)用蓝点表示
- 如果被正确分类为“会偿还”,则为真正例(TP)
- 如果被错误分类为“不会偿还”,则为假阴性(FN)
- 所有负样本(实际不会偿还的)用红点表示
- 如果被正确分类为“不会偿还”,则为真负例(TN)
- 如果被错误分类为“会偿还”,则为假阳性(FP)
步骤2:计算真阳性率和假阳性率
有了混淆矩阵,我们可以计算两个重要指标:
- 真阳性率(TPR):所有实际会偿还的样本中,被正确分类的比例
- 假阳性率(FPR):所有实际不会偿还的样本中,被错误分类的比例
计算公式如下:
以图4为例,当阈值为0.35时:
- 正确分类90%的阳性样本(TPR = 90%)
- 错误分类40%的阴性样本(FPR = 40%)
从图中可以看出,随着阈值的增加:
- TPR和FPR都会降低
- 阈值为0时,所有样本都被分类为“会偿还”,因此TPR = 100%,FPR = 100%
- 阈值为1时,所有样本都被分类为“不会偿还”,因此TPR = 0%,FPR = 0%
步骤3:绘制每个阈值点的TPR和FPR
为了绘制ROC曲线,我们需要计算多个不同阈值下的TPR和FPR(这一步通常由相关库自动完成,如scikit-learn)。
对于每个阈值,在坐标系中:
- x轴表示FPR
- y轴表示TPR
然后用一条线将这些点连接起来。这就是ROC曲线!
曲线下方的面积称为AUC(Area Under the Curve)。AUC值越高,表示模型在区分正负样本方面表现越好。理想情况下,我们希望ROC曲线尽可能靠近左上角,以获得更高的AUC值。
热门推荐
英超从未降级有多难?仅6队做到,埃弗顿上榜,强如曼城也未达成
这堂法治课,讲给老师们听
冰箱维修后的清理与保养(如何正确清理维修后的冰箱)
人事考勤系统在处理加班和调休时有哪些最佳实践?
沿醉美国道331,探访黑龙江边境线上的民族村庄∣萝北篇
成为数据专员需要掌握哪些技能?行业专家详解
想让汉化组不再"为爱发电",会遭遇多少困难?
如何有效去除不良吸尘器气味(解决飞利浦吸尘器气味问题的维修方法)
抗凝老药华法林天天吃,这5个问题一定要知道!
近期医院伤害案件的法律性质及其应对策略
炸酱面文化背景及各地风味差异探讨
我国东北的“三江平原”中的“三江”指的是黑龙江、乌苏里江和?
复数乘、除运算的三角表示及其几何意义
潍坊朝天锅制作技艺
最新数据!国庆楼市大幅升温,期待政策继续发力扭转预期
如何辨别自己所遇之人与正缘的关系 正缘的表现迹象与识别技巧
要想自由,先要学会克制欲望 | 来自托尔斯泰的27句忠告
领导谋略如何发挥到极致?反复咀嚼这三句话,驭人之术会大大跃升
【健康科普】老年人如何科学管理体重?
音乐不止,于感受中聆听——KTV设计装修深度解析
T4甲状腺激素的作用与影响解析
广西提升丘陵山区六堡茶生产机械化水平促产业发展
《钢铁雄心4》:二战模拟游戏的巅峰之作
从相声演员到千面影帝,或许当年离开赵本山,才是他最明智的选择
主机固态硬盘可以安装第二块吗?全攻略解析多SSD配置方案
中国衰落最严重的城市,500年帝都22位帝王,如今沦为小县城!
中德职业教育合作:推动职业教育国际化发展的前景
提升中国学者的国际“能见度” ——国际高质量学术期刊编辑圈里的高金教授
日本国立大学vs私立大学区别大?学费和就业区别也很大?
如何将电脑与台式小爱音箱连接并享受其便利功能