深度学习:二次加权Kappa系数(QWK)详细介绍
创作时间:
作者:
@小白创作中心
深度学习:二次加权Kappa系数(QWK)详细介绍
引用
CSDN
1.
https://m.blog.csdn.net/m0_56184997/article/details/144433198
二次加权Kappa系数(QWK)是深度学习中一个常用的评价指标,主要用于衡量两个评分者(如自动评分系统和人工评分)之间的一致性水平。本文将通过一个具体的例子,详细介绍QWK的计算步骤及其应用场景。
1. QWK定义
QWK(Quadratic Weighted Kappa)已在整体论文评分和论文特征评分研究中广泛采用,旨在衡量两名评分员(自动评分系统和人工评分)之间的一致性水平。它考虑了不一致性的严重程度,并使用一个权重矩阵来量化这种差异。对于二次加权,权重是根据评分差值的平方来计算的,因此更大的评分差异会得到更高的惩罚。
2. QWK计算步骤
假设我们有两个评分员,他们分别对100篇论文进行了评分。评分等级为1到2分,其中1分为最低分,2分为最高分。
(1)创建观测混淆矩阵O
在100篇论文中,假设有40篇论文同时被两个评分员打了1分;20篇论文被A评分员打了2分,H评分员打了1分;10篇论文被A评分员打了1分,H评分员打了1分;有30篇论文同时被两个评分员打了2分,即得到如下观测混淆矩阵O:
评分员H打1分 | 评分员H打2分 | |
|---|---|---|
评分员A打1分 | 40 | 10 |
评分员A打2分 | 20 | 30 |
这里可以把A评分员看成是自动打分系统(即是预测值),H评分员看成是人工打分(即为真实值)。其中Pi和Pj为行和列边缘分布概率,Pi表示每个实际类别中的样本总数,Pj表示每个预测类别中的样本总数,可以看成这是评分员对每一个打分类别的倾向性。
(2)创建预期混淆矩阵E
预期混淆矩阵E的计算公式如下,其中Pi和Pj为行和列边缘分布概率:
计算得到如下预期混淆矩阵E:
评分员H打1分 | 评分员H打2分 | |
|---|---|---|
评分员A打1分 | 30 | 20 |
评分员A打2分 | 30 | 20 |
(3)构建权重矩阵W
权重矩阵W的计算公式如下,其中N为分类的总类数:
计算得到如下权重矩阵W:
评分员H打1分 | 评分员H打2分 | |
|---|---|---|
评分员A打1分 | 0 | 1 |
评分员A打2分 | 1 | 0 |
(4)计算二次加权Kappa值
二次加权Kappa值的计算公式如下:
就以此为例,计算Kappa值为:
Kw=1-(10.2+10.1)/(10.2+10.3)=1-(0.3/0.5)=0.4
3. 总结
Kappa值的含义如下:
- -1:完全不一致
- 0: 偶然一致
- 0.0~0.20: 极低的一致性(slight)
- 0.21~0.40: 一般的一致性(fair)
- 0.41~0.60: 中等的一致性(moderate)
- 0.61~0.80: 高度的一致性(substantial)
- 0.81~1: 几乎完全一致(almost perfect)
热门推荐
深入探讨极限编程(XP):技术实践与频繁发布的艺术
Scrum敏捷项目管理是什么?深入了解其核心理念和优势
0岁开始的俯卧活动看过来
阴离子交换膜 (AEM) 进展:单体、聚合物和Polyberg技术的优越性
前交叉韧带损伤:你需要了解的那些事
ACL前叉韧带损伤的cross bracing 保守治疗方案
最新乡村旅游精品线路出炉 新疆6条上榜
警车在执行任务时如何发出警报?这种警报方式对社会秩序有何作用?
那些常年戴耳机的人,后来怎么样了?真的会变聋吗?
口腔科和牙科有什么区别
狄青的悲剧与欧阳修的智慧:一场历史的弹劾与救赎
冻肉怎么化的快呀
舞钢市十大旅游景点
跨境电商在不同地区的法律合规要求
什么是和解协议?一文详解其定义、特征、法律效力及适用场景
MTF 曲线和镜头性能
如何计算房屋的面积数据?这些数据在房产交易中有何作用?
房屋测量新标准规范,了解这些不用愁
超声心动图规范化检查及测量的细节问题
退役军人、教师、公务员报考在职研究生,政策优惠如何申请?
数据库级联更新的三种实现方法
雨伞究竟应该归类为哪种类型的制品?
在创新中传承——第五届二十四节气文化作品设计大赛启动
韩语阿西吧是什么意思?
韩语阿西吧是什么意思?
血脂康对降低密度胆固醇的效果如何
铝合金技术知识培训课件
CPU计算本质:算力、敏感度与发展趋势
并行算法设计精要:深度挖掘算法并行化潜力
补气血吃什么?科学饮食-焕发活力