机器学习模型评估之校准曲线
创作时间:
作者:
@小白创作中心
机器学习模型评估之校准曲线
引用
CSDN
1.
https://blog.csdn.net/a2313179618/article/details/139843052
模型校准曲线(Calibration Curve),也称为可靠性曲线(Reliability Curve)或概率校准曲线(Probability Calibration Curve),是一种评估分类模型输出概率准确性的图形工具。它可以帮助我们理解模型的预测概率是否与实际标签的分布一致。
模型校准曲线(Calibration Curve),也称为可靠性曲线(Reliability Curve)或概率校准曲线(Probability Calibration Curve),是一种评估分类模型输出概率准确性的图形工具。它可以帮助我们理解模型的预测概率是否与实际标签的分布一致。校准曲线通常包括以下步骤:
- 计算模型预测概率:对于测试集中的每个样本,模型会输出一个概率值,表示样本属于正类的概率。
- 将数据分桶:将这些概率值分成若干个等宽的桶(例如10个桶),每个桶中的样本具有相似的预测概率。
- 计算每个桶的平均预测概率和实际正类比例:对于每个桶,计算桶内样本的平均预测概率和实际的正类比例(即标签为正的样本数除以桶内总样本数)。
- 绘制校准曲线:将每个桶的平均预测概率作为x轴,实际正类比例作为y轴,绘制散点图。理想情况下,这些点应该接近于一条斜率为1的直线,这表示模型的预测概率与实际标签完全一致。
- (可选)绘制理想校准曲线:绘制一条斜率为1的直线,作为理想校准曲线,以便与实际校准曲线进行比较。
在Python中,你可以使用scikit-learn库中的calibration模块来绘制校准曲线。以下是一个使用scikit-learn绘制校准曲线的示例代码:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.calibration import calibration_curve
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.calibration import CalibratedClassifierCV
# 生成数据集
X, y = make_classification(n_samples=10000, n_features=20,
n_informative=2, n_redundant=10,
random_state=42)
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
# 训练模型
# 这里使用RandomForestClassifier作为基础分类器
# 使用CalibratedClassifierCV进行概率校准
clf = RandomForestClassifier(n_estimators=100, random_state=42)
calibrated_clf = CalibratedClassifierCV(clf, method='isotonic', cv=5)
clf.fit(X_train, y_train)
calibrated_clf.fit(X_train, y_train)
# 获取预测概率
probabilities = clf.predict_proba(X_test)[:, 1]
calibrated_probabilities = calibrated_clf.predict_proba(X_test)[:, 1]
# 计算校准曲线
fraction_of_positives, mean_predicted_value = calibration_curve(y_test, probabilities, n_bins=10)
calibrated_fraction_of_positives, calibrated_mean_predicted_value = calibration_curve(y_test, calibrated_probabilities, n_bins=10)
# 绘制校准曲线
plt.figure(figsize=(10, 10))
plt.plot(mean_predicted_value, fraction_of_positives, "s-", label="未校准 (Area = %0.2f)" % np.mean(np.abs(fraction_of_positives - mean_predicted_value)))
plt.plot(calibrated_mean_predicted_value, calibrated_fraction_of_positives, "s-", label="校准 (Area = %0.2f)" % np.mean(np.abs(calibrated_fraction_of_positives - calibrated_mean_predicted_value)))
# 绘制理想校准曲线
plt.plot([0, 1], [0, 1], "k:", label="完美校准")
# 设置图表
plt.xlabel("平均预测概率")
plt.ylabel("实际正类比例")
plt.title('校准曲线')
plt.legend(loc="lower right")
plt.show()
在这个例子中,我们首先创建了一个合成数据集,并使用RandomForestClassifier训练了一个基础分类器。然后,我们使用CalibratedClassifierCV对分类器进行了概率校准。接着,我们计算了测试集上的预测概率,并绘制了校准曲线。最后,我们展示了未校准和校准后的校准曲线,以及理想校准曲线,以便进行比较。
热门推荐
北京三所低调大学:就业率93%,录取分数线不高!
字在敦煌|雨水:青山一道同云雨
开学没几天,心理科专家想讲几句心里话
小米的营养价值
完颜阿骨打:源自虎水的金朝开国皇帝
断桥铝和铝合金门窗有什么区别?如何选择优质铝合金门窗?
数据库如何讲更有趣
直播间退货的三个简单步骤-你真的会吗
专家解读辅酶Q10:不是“心脏守护神”,滥用需谨慎
十个手指甲,一个月牙都没有,代表身体不健康?这才是科学的解释
ZEMAX中的近轴放大率和角放大率详解
荆门市消防救援支队联合高校开展消防安全系列活动
传销与发传单:揭秘两种行为的法律与道德底线
医疗事故因果关系如何鉴定?个人转卖药品是否犯法?致人死亡属于几级医疗事故?
数据库修改后返回什么
如何在预算有限的情况下解决住房问题?有哪些经济实惠的住房选择?
青岛26路公交解锁出游新体验,一站式畅游滨海美景!
外国网友惊讶中国“春运”平稳有序,青岛什么表现?
个人怎么办理医保卡
养老金融怎么运作?这种运作模式有哪些发展趋势?
嗜睡背后的健康隐患及改善方法解析与建议
知识付费平台的“用户反馈”机制:如何让内容更贴合需求?
烫发的过程会不会影响健康?
上肢麻疼常见原因:臂丛神经损伤
SCI期刊论文常见的8种类型
炒白菜时,直接下锅就错了!教你饭店不外的秘诀,清脆爽口不出水
八段锦和太极拳:同时练习时,先练习哪一个更好?
《地球脉动》纪录片:大银幕上的自然奇观
鱼油真的能降脂抗炎?5年科研证据全解析,这五类人建议补!
泉州五店市街区,古砖今瓦,谁说历史不能“潮”?