问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

CJEval：基于中国初中考试的多样化考试问题数据集

创作时间:

作者:

@小白创作中心

CJEval：基于中国初中考试的多样化考试问题数据集

引用

CSDN

1.

https://blog.csdn.net/u011559552/article/details/142598760

2024年9月26日，腾讯YouTu Lab和北京大学联合发布了CJEval数据集，这是一个基于中国初中生考试数据的评估基准，用于测试和分析大型语言模型（LLMs）在教育任务中的表现，从而提高在线教育平台的智能化水平。

一、背景

在线教育平台已经显著改变了教育资源的传播方式，通过提供动态的数字化基础设施。随着这种变革的进一步增强，大型语言模型（LLMs）的出现，如ChatGPT和Llama，标志着人工智能领域的一个巨大飞跃，展现了对人类语言的卓越掌握。然而，现有的学术基准对于现实世界工业场景的指导有限，因为教育应用需要的不仅仅是回答测试问题。

目前遇到的困难和挑战

教育应用的挑战：

教育应用需要理解学生遇到的具体问题，并应用专门的教学知识来提供有效的解决方案。
需要在语言理解和领域专业知识之间进行复杂的交互，以确保教育干预既准确又符合教学要求。

现有基准的局限性：

现有的数据集主要关注模型在回答考试问题上的准确性。
这些基准主要关注单一类型的问题：多项选择题，这可能无法全面反映模型在教育评估中的综合能力。

二、CJEval数据集

CJEval（中国初中生考试评估的基准）是一个新提出的任务，目的是通过使用真实的中国初中考试问题来评估大型语言模型。数据集包括26,136个样本，涵盖十个学科的四个应用级教育任务。

数据集的构建

样本收集：收集26,136个样本，覆盖十个学科的考试问题。
详细注释：每个样本包括问题和答案，以及详细的注释，如问题类型、难度级别、知识概念和答案解释。
任务设计：设计了四个核心任务：知识概念标注、问题难度预测、问题回答和问题生成。
数据集分割：训练集：20820个问题，验证集：2106个问题、测试集：3210个问题。总计26136个问题。

数据集特点

多任务：同时提供四个核心任务，覆盖不同类型的教育评估。
高质量：通过人工筛选和评估，确保样本的质量和相关性。
多学科：覆盖十个不同的学科，包括数学、物理、化学、生物、地理、历史、科学、IT等。

No.S: 表示每种问题类型下涵盖的科目数量。
No.Q: 表示每种问题类型的总问题数量。
Avg.Q Tokens: 表示每种问题类型的平均问题长度（以词元为单位）。
Avg.A Tokens: 表示每种问题类型的平均答案长度（以词元为单位）。
Avg.AE Tokens: 表示每种问题类型的平均答案解释长度（以词元为单位）。
Avg.No.KC: 表示每种问题类型平均每题涉及的知识概念数量。

三、应用场景

CJEval在在线教育平台中具有广泛的应用前景。例如，开发者可以使用CJEval来评估教学内容的准确性和教学要求的符合性。通过CJEval，开发者可以确保平台的教学内容既准确又符合教学要求。具体应用场景包括：

知识概念标注：帮助理解问题涉及的具体知识点。
问题难度预测：确保问题难度适中，符合教学大纲要求。
问题回答：验证模型对不同类型问题的解答能力。
问题生成：根据教学需求生成新的高质量题目。

CJEval的推出，为在线教育平台的开发者提供了一个强大的工具，使得教育内容的评估变得更加简单明了，有助于提升在线教育的质量和效率。

热门推荐

富士X100V助你拍出井冈山最美瞬间

富士X100V助你拍出井冈山最美瞬间

笔架山景区：井冈山冬日打卡胜地！

笔架山景区：井冈山冬日打卡胜地！

八角楼：井冈山上的革命灯塔

八角楼：井冈山上的革命灯塔

井冈山深度游：黄洋界与茨坪的历史回响

井冈山深度游：黄洋界与茨坪的历史回响

万峰林：从海底到峰林的世界级地质公园

万峰林：从海底到峰林的世界级地质公园

告别琼瑶：一位言情世界的构建者

告别琼瑶：一位言情世界的构建者

世间再无「琼瑶剧」

世间再无「琼瑶剧」

琼瑶的造星神话与收视奇迹，是她开启了两岸影视合拍风潮

琼瑶的造星神话与收视奇迹，是她开启了两岸影视合拍风潮

孤独症儿童的情绪问题及情绪管理策略

孤独症儿童的情绪问题及情绪管理策略

司马台长城：北京唯一保留明代原貌的长城

司马台长城：北京唯一保留明代原貌的长城

武当山一日游：打卡道教圣地

武当山一日游：打卡道教圣地

武当山：道教圣地与太极文化的完美融合

武当山：道教圣地与太极文化的完美融合

探秘武当山：道教圣地的文化密码

探秘武当山：道教圣地的文化密码

杭州市区一日游的最佳攻略

杭州市区一日游的最佳攻略

什么是社会化客户关系管理

什么是社会化客户关系管理

教你制定长期财务规划：确保财务稳定，走向美好未来

教你制定长期财务规划：确保财务稳定，走向美好未来

十连涨！跑步入场前看看这5条

十连涨！跑步入场前看看这5条

如何应用技术分析工具进行股票交易？这些工具对投资策略有何指导意义？

如何应用技术分析工具进行股票交易？这些工具对投资策略有何指导意义？

厦门历史沿革概述

厦门历史沿革概述

记忆中的红烧鱼，传承百年，温暖每一颗归家的心

记忆中的红烧鱼，传承百年，温暖每一颗归家的心

走进官兵坚守的战位感受边关军营的年味

走进官兵坚守的战位感受边关军营的年味

小长假自驾游，你的车准备好了吗？

小长假自驾游，你的车准备好了吗？

长阳冰雪节：京城最大冰灯区等你来打卡！

长阳冰雪节：京城最大冰灯区等你来打卡！

秋冬游长阳，这些热门景点别错过！

秋冬游长阳，这些热门景点别错过！

冬日打卡：长阳人遗址探秘

冬日打卡：长阳人遗址探秘

万里长城在北京 | 巍峨壮美司马台

万里长城在北京 | 巍峨壮美司马台

孩子乘电动车不戴头盔？家长疏忽可能酿成大祸！

孩子乘电动车不戴头盔？家长疏忽可能酿成大祸！

武汉周边自驾游必打卡：木兰天池全攻略

武汉周边自驾游必打卡：木兰天池全攻略

安吉星提醒：北京至杭州自驾游前必检清单

安吉星提醒：北京至杭州自驾游前必检清单

秋冬自驾游新宠：北京到杭州1302公里攻略

秋冬自驾游新宠：北京到杭州1302公里攻略

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号