CJEval:基于中国初中考试的多样化考试问题数据集
创作时间:
作者:
@小白创作中心
CJEval:基于中国初中考试的多样化考试问题数据集
引用
CSDN
1.
https://blog.csdn.net/u011559552/article/details/142598760
2024年9月26日,腾讯YouTu Lab和北京大学联合发布了CJEval数据集,这是一个基于中国初中生考试数据的评估基准,用于测试和分析大型语言模型(LLMs)在教育任务中的表现,从而提高在线教育平台的智能化水平。
一、背景
在线教育平台已经显著改变了教育资源的传播方式,通过提供动态的数字化基础设施。随着这种变革的进一步增强,大型语言模型(LLMs)的出现,如ChatGPT和Llama,标志着人工智能领域的一个巨大飞跃,展现了对人类语言的卓越掌握。然而,现有的学术基准对于现实世界工业场景的指导有限,因为教育应用需要的不仅仅是回答测试问题。
目前遇到的困难和挑战
- 教育应用的挑战:
- 教育应用需要理解学生遇到的具体问题,并应用专门的教学知识来提供有效的解决方案。
- 需要在语言理解和领域专业知识之间进行复杂的交互,以确保教育干预既准确又符合教学要求。
- 现有基准的局限性:
- 现有的数据集主要关注模型在回答考试问题上的准确性。
- 这些基准主要关注单一类型的问题:多项选择题,这可能无法全面反映模型在教育评估中的综合能力。
二、CJEval数据集
CJEval(中国初中生考试评估的基准)是一个新提出的任务,目的是通过使用真实的中国初中考试问题来评估大型语言模型。数据集包括26,136个样本,涵盖十个学科的四个应用级教育任务。
数据集的构建
- 样本收集:收集26,136个样本,覆盖十个学科的考试问题。
- 详细注释:每个样本包括问题和答案,以及详细的注释,如问题类型、难度级别、知识概念和答案解释。
- 任务设计:设计了四个核心任务:知识概念标注、问题难度预测、问题回答和问题生成。
- 数据集分割:训练集:20820个问题,验证集:2106个问题、测试集:3210个问题。总计26136个问题。
数据集特点
- 多任务:同时提供四个核心任务,覆盖不同类型的教育评估。
- 高质量:通过人工筛选和评估,确保样本的质量和相关性。
- 多学科:覆盖十个不同的学科,包括数学、物理、化学、生物、地理、历史、科学、IT等。
No.S: 表示每种问题类型下涵盖的科目数量。
No.Q: 表示每种问题类型的总问题数量。
Avg.Q Tokens: 表示每种问题类型的平均问题长度(以词元为单位)。
Avg.A Tokens: 表示每种问题类型的平均答案长度(以词元为单位)。
Avg.AE Tokens: 表示每种问题类型的平均答案解释长度(以词元为单位)。
Avg.No.KC: 表示每种问题类型平均每题涉及的知识概念数量。
三、应用场景
CJEval在在线教育平台中具有广泛的应用前景。例如,开发者可以使用CJEval来评估教学内容的准确性和教学要求的符合性。通过CJEval,开发者可以确保平台的教学内容既准确又符合教学要求。具体应用场景包括:
- 知识概念标注:帮助理解问题涉及的具体知识点。
- 问题难度预测:确保问题难度适中,符合教学大纲要求。
- 问题回答:验证模型对不同类型问题的解答能力。
- 问题生成:根据教学需求生成新的高质量题目。
CJEval的推出,为在线教育平台的开发者提供了一个强大的工具,使得教育内容的评估变得更加简单明了,有助于提升在线教育的质量和效率。
热门推荐
富士X100V助你拍出井冈山最美瞬间
笔架山景区:井冈山冬日打卡胜地!
八角楼:井冈山上的革命灯塔
井冈山深度游:黄洋界与茨坪的历史回响
万峰林:从海底到峰林的世界级地质公园
告别琼瑶:一位言情世界的构建者
世间再无「琼瑶剧」
琼瑶的造星神话与收视奇迹,是她开启了两岸影视合拍风潮
孤独症儿童的情绪问题及情绪管理策略
司马台长城:北京唯一保留明代原貌的长城
武当山一日游:打卡道教圣地
武当山:道教圣地与太极文化的完美融合
探秘武当山:道教圣地的文化密码
杭州市区一日游的最佳攻略
什么是社会化客户关系管理
教你制定长期财务规划:确保财务稳定,走向美好未来
十连涨!跑步入场前看看这5条
如何应用技术分析工具进行股票交易?这些工具对投资策略有何指导意义?
厦门历史沿革概述
记忆中的红烧鱼,传承百年,温暖每一颗归家的心
走进官兵坚守的战位 感受边关军营的年味
小长假自驾游,你的车准备好了吗?
长阳冰雪节:京城最大冰灯区等你来打卡!
秋冬游长阳,这些热门景点别错过!
冬日打卡:长阳人遗址探秘
万里长城在北京 | 巍峨壮美司马台
孩子乘电动车不戴头盔?家长疏忽可能酿成大祸!
武汉周边自驾游必打卡:木兰天池全攻略
安吉星提醒:北京至杭州自驾游前必检清单
秋冬自驾游新宠:北京到杭州1302公里攻略