深度学习:二次加权Kappa系数(QWK)详细介绍
创作时间:
作者:
@小白创作中心
深度学习:二次加权Kappa系数(QWK)详细介绍
引用
CSDN
1.
https://m.blog.csdn.net/m0_56184997/article/details/144433198
二次加权Kappa系数(QWK)是深度学习中一个常用的评价指标,主要用于衡量两个评分者(如自动评分系统和人工评分)之间的一致性水平。本文将通过一个具体的例子,详细介绍QWK的计算步骤及其应用场景。
1. QWK定义
QWK(Quadratic Weighted Kappa)已在整体论文评分和论文特征评分研究中广泛采用,旨在衡量两名评分员(自动评分系统和人工评分)之间的一致性水平。它考虑了不一致性的严重程度,并使用一个权重矩阵来量化这种差异。对于二次加权,权重是根据评分差值的平方来计算的,因此更大的评分差异会得到更高的惩罚。
2. QWK计算步骤
假设我们有两个评分员,他们分别对100篇论文进行了评分。评分等级为1到2分,其中1分为最低分,2分为最高分。
(1)创建观测混淆矩阵O
在100篇论文中,假设有40篇论文同时被两个评分员打了1分;20篇论文被A评分员打了2分,H评分员打了1分;10篇论文被A评分员打了1分,H评分员打了1分;有30篇论文同时被两个评分员打了2分,即得到如下观测混淆矩阵O:
评分员H打1分 | 评分员H打2分 | |
|---|---|---|
评分员A打1分 | 40 | 10 |
评分员A打2分 | 20 | 30 |
这里可以把A评分员看成是自动打分系统(即是预测值),H评分员看成是人工打分(即为真实值)。其中Pi和Pj为行和列边缘分布概率,Pi表示每个实际类别中的样本总数,Pj表示每个预测类别中的样本总数,可以看成这是评分员对每一个打分类别的倾向性。
(2)创建预期混淆矩阵E
预期混淆矩阵E的计算公式如下,其中Pi和Pj为行和列边缘分布概率:
计算得到如下预期混淆矩阵E:
评分员H打1分 | 评分员H打2分 | |
|---|---|---|
评分员A打1分 | 30 | 20 |
评分员A打2分 | 30 | 20 |
(3)构建权重矩阵W
权重矩阵W的计算公式如下,其中N为分类的总类数:
计算得到如下权重矩阵W:
评分员H打1分 | 评分员H打2分 | |
|---|---|---|
评分员A打1分 | 0 | 1 |
评分员A打2分 | 1 | 0 |
(4)计算二次加权Kappa值
二次加权Kappa值的计算公式如下:
就以此为例,计算Kappa值为:
Kw=1-(10.2+10.1)/(10.2+10.3)=1-(0.3/0.5)=0.4
3. 总结
Kappa值的含义如下:
- -1:完全不一致
- 0: 偶然一致
- 0.0~0.20: 极低的一致性(slight)
- 0.21~0.40: 一般的一致性(fair)
- 0.41~0.60: 中等的一致性(moderate)
- 0.61~0.80: 高度的一致性(substantial)
- 0.81~1: 几乎完全一致(almost perfect)
热门推荐
最冷门的6部烧脑电影,结局都是神来之笔
“道”究竟是什么?普通人应该怎么把握“道”?
7个幽默段子,不止搞笑,感悟很深!
互联网公司法务,如何应对快速变化的法律环境?
婴幼儿小时候用不用枕头,区别真的很大吗?3张图让家长明白
ChatGPT 4.0的文本风格和语气如何调整
00后玩嗨DeepSeek:算恋情、测运势!有些心理咨询师可能要失业了
闭痧和中暑有什么区别
俾斯麦体系到威廉二世的世界政策的转变 德国走向一战
道德经:“天地不仁,以万物为刍狗”,是何意思?很多人理解错了
雨景描写全攻略:从人物到意境,写出雨的灵魂与诗意
消费降级正在蔓延?网传2024年大米销量下滑30%,数据背后有很多隐忧
人工智能如何重塑未来:从自动化到人类增强的全面解析
PLC控制系统的特点及其优势
永元之隆:东汉和帝刘肇开创的盛世
对猫来说,“上床睡觉”,原来意味着这些!
DeepSeek引发热议:AI写作能否取代人类创作?
APP如何检测手机是否是虚拟机
武魂真身六大分类:从工具到附体,解析斗罗大陆最强形态
怎么送病符:护身符的求取与日常佩戴指南
家长行为的两面性:忽视与溺爱对孩子心理健康的影响及应对策略
金字塔原理:逻辑思维表达的四大原则与实战应用
英语中"明天"的多种表达方式
国足战术新思路:防守反击成胜负关键,背后策略深具智慧
Excel中计算百分之二十的多种方法与应用场景
如何正确喂养泰迪宠物(关于不同阶段喂食数量的注意事项)
了解俄罗斯院校分布和学校优势,看这里就够了!
明朝一共持续了多少年?明朝有多少个皇帝?
江西师范大学第四轮学科评估结果及学校简介
孕期超声检查什么时候做?三个关键时期全解析