通过三个直观步骤理解ROC曲线
创作时间:
作者:
@小白创作中心
通过三个直观步骤理解ROC曲线
引用
CSDN
1.
https://blog.csdn.net/deephub/article/details/106799969
ROC曲线是评估分类模型性能的重要工具。本文通过三个直观的步骤,帮助读者理解ROC曲线的概念和计算方法。
ROC曲线是一个用于评估分类模型效果好坏的可视化表示。在这篇文章中,我将分三个步骤来构建ROC曲线。
步骤1:获取分类模型预测
当我们训练一个分类模型时,模型会输出每个样本属于正类的概率。以贷款偿还为例,模型会给出借款人偿还贷款的概率。概率值通常在0到1之间,数值越高表示借款人越有可能偿还贷款。
接下来,我们需要选择一个阈值,将概率值分为“会偿还”和“不会偿还”两类。例如,如果选择0.35作为阈值:
- 所有概率值达到或超过0.35的预测,被归类为“会偿还”
- 所有概率值低于0.35的预测,被归类为“不会偿还”
然后,我们需要评估这些分类是否正确。通过比较预测结果和实际结果,我们可以构建一个混淆矩阵:
- 所有真正积极的样本(实际会偿还的)用蓝点表示
- 如果被正确分类为“会偿还”,则为真正例(TP)
- 如果被错误分类为“不会偿还”,则为假阴性(FN)
- 所有负样本(实际不会偿还的)用红点表示
- 如果被正确分类为“不会偿还”,则为真负例(TN)
- 如果被错误分类为“会偿还”,则为假阳性(FP)
步骤2:计算真阳性率和假阳性率
有了混淆矩阵,我们可以计算两个重要指标:
- 真阳性率(TPR):所有实际会偿还的样本中,被正确分类的比例
- 假阳性率(FPR):所有实际不会偿还的样本中,被错误分类的比例
计算公式如下:
以图4为例,当阈值为0.35时:
- 正确分类90%的阳性样本(TPR = 90%)
- 错误分类40%的阴性样本(FPR = 40%)
从图中可以看出,随着阈值的增加:
- TPR和FPR都会降低
- 阈值为0时,所有样本都被分类为“会偿还”,因此TPR = 100%,FPR = 100%
- 阈值为1时,所有样本都被分类为“不会偿还”,因此TPR = 0%,FPR = 0%
步骤3:绘制每个阈值点的TPR和FPR
为了绘制ROC曲线,我们需要计算多个不同阈值下的TPR和FPR(这一步通常由相关库自动完成,如scikit-learn)。
对于每个阈值,在坐标系中:
- x轴表示FPR
- y轴表示TPR
然后用一条线将这些点连接起来。这就是ROC曲线!
曲线下方的面积称为AUC(Area Under the Curve)。AUC值越高,表示模型在区分正负样本方面表现越好。理想情况下,我们希望ROC曲线尽可能靠近左上角,以获得更高的AUC值。
热门推荐
Unity中UI、3D和特效的层级管理方案
肺结节的风险性评估是怎样的
揭秘“岁月钞票”:第三套人民币的收藏奇迹与价值迷宫
国家名片!76年前的第一套人民币,原来长这样
《仙逆》与《凡人修仙传》对比分析:资源修仙 vs 悟道修仙
大便呈水状?这可能是身体在向你发出警告
智慧家居助力改善失眠:睡眠环境优化的新探索
栽种山楂树的六大要点
央视公布10大“宜居城市”!如果到了退休年龄,你会选择哪里呢?
微博运动视频自媒体运营指南:从入门到变现
投资理财必懂:适当性原则的应用与实践
年轻人的电视新玩法:从吊挂到旋转,6种创意放置方式让客厅更时尚
如何选择具有发展潜力的居住地段?这种地段的升值潜力如何评估?
探寻平凡之树的非凡生命:见树木、见众生、更能见自我
专家回应:方便面是否是垃圾食品的真相
视频时代信息传播:窥探视频内容的四大维度
培养敏捷思维方式
房贷剩余本金计算指南:等额本息 vs 等额本金
惠州鹅城大桥选址定了!连接这些片区......
黄巢起义:揭示唐末动乱背后的历史深意与社会影响
PEEK零件加工:人形机器人行业应用案例
朱元璋的四大谋士:明朝建立的智慧之源
蔚蓝档案黑服角色深度解析:神秘NPC的身份之谜
5本社会心理学必读书,让你感受社会的强大影响力
值得黄金投资者关注!回收金大增与黄金ETF需求回暖
从饮食文化解读《红楼梦》:《〈红楼梦〉中的饭局》新书评介
熊市生存指南:三大不依赖行情的加密货币盈利策略
探索丝绸之路瑰宝,感受大西北独特魅力,甘肃12个最值得去的地方
秦皇汉武唐宗宋祖:四位千古帝王的贡献与影响
小孩咳嗽很厉害几乎不停怎么办