COIG-CQIA:高质量中文指令调优数据集的诞生
COIG-CQIA:高质量中文指令调优数据集的诞生
最近,一项由10家机构联合发布的研究提出了COIG-CQIA(全称Chinese Open Instruction Generalist - Quality Is All You Need),这是一个高质量的中文指令调优数据集。数据来源包括问答社区、维基百科、考试题目和现有的NLP数据集,并且经过严格过滤和处理。
最近,大型语言模型(LLM)取得了重大进展,特别是在英语方面。然而,LLM在中文指令调优方面仍然存在明显差距。现有的数据集要么以英语为中心,要么不适合与现实世界的中国用户交互模式保持一致。
为了弥补这一差距,一项由10家机构联合发布的研究提出了COIG-CQIA(全称Chinese Open Instruction Generalist - Quality Is All You Need),这是一个高质量的中文指令调优数据集。数据来源包括问答社区、维基百科、考试题目和现有的NLP数据集,并且经过严格过滤和处理。
此外,该研究在CQIA的不同子集上训练了不同尺度的模型,并进行了深入的评估和分析。本文发现,在CQIA子集上训练的模型在人类评估以及知识和安全基准方面取得了具有竞争力的结果。
研究者表示,他们旨在为社区建立一个多样化、广泛的指令调优数据集,以更好地使模型行为与人类交互保持一致。
本文的贡献可以总结如下:
- 提出了一个高质量的中文指令调优数据集,专门用于与人类交互保持一致,并通过严格的过滤程序实现;
- 探讨了各种数据源(包括社交媒体、百科全书和传统NLP任务)对模型性能的影响。为从中国互联网中选择训练数据提供了重要见解;
- 各种基准测试和人工评估证实,在CQIA数据集上微调的模型表现出卓越的性能,从而使CQIA成为中国NLP社区的宝贵资源。
COIG-CQIA数据集介绍
为了保证数据质量以及多样性,本文从中国互联网内的优质网站和数据资源中手动选择了数据源。这些来源包括社区问答论坛、内容创作平台、考试试题等。此外,该数据集还纳入了高质量的中文NLP数据集,以丰富任务的多样性。具体来说,本文将数据源分为四种类型:社交媒体和论坛、世界知识、NLP任务和考试试题。
- 社交媒体和论坛:包括知乎、SegmentFault、豆瓣、小红书、弱智吧。
- 世界知识:百科全书、四个特定领域的数据(医学、经济管理、电子学和农业)。
- NLP数据集:COIG-PC、COIG Human Value等。
- 考试试题:中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化。
表1为数据集来源统计。研究者从中国互联网和社区的22个来源总共收集了48,375个实例,涵盖从常识、STEM到人文等领域。
图2说明了各种任务类型,包括信息提取、问答、代码生成等。
为了分析COIG-CQIA数据集的多样性,本文遵循先前的工作,使用Hanlp工具来解析指令。
实验结果
该研究在不同数据源的数据集上对Yi系列模型(Young et al., 2024)和Qwen-72B(Bai et al., 2023)模型进行了微调,以分析数据源对模型跨领域知识能力的影响,并使用Belle-Eval上基于模型(即GPT-4)的自动评估来评估每个模型在各种任务上的性能。
表2、表3分别显示了基于Yi-6B、Yi-34B在不同数据集上进行微调得到的不同模型的性能。模型在头脑风暴、生成和总结等生成任务中表现出色,在数学和编码方面表现不佳。
下图4显示了CQIA和其他5个基线(即Yi-6B-Chat、Baichuan2-7B-Chat、ChatGLM2-6B、Qwen-7B-Chat和InternLM-7B-Chat)的逐对比较人类评估结果。结果表明,与强基线相比,CQIA-Subset实现了更高的人类偏好,至少超过60%的响应优于或与基线模型相当。这不仅归因于CQIA能够对人类问题或指令生成高质量的响应,还归因于其响应更符合现实世界的人类沟通模式,从而导致更高的人类偏好。
该研究还在SafetyBench上评估了模型的安全性,结果如下表4所示:
在COIG Subset数据上训练的模型性能如下表5所示: