真·人工智障!“弱智贴吧”竟被用来训练大模型
真·人工智障!“弱智贴吧”竟被用来训练大模型
在AI领域,高质量的训练数据集是模型性能的关键。最近,一个名为COIG-CQIA的中文指令调优数据集引起了广泛关注。令人惊讶的是,这个数据集竟然包含了大量来自"弱智贴吧"的内容,而这些内容在数据质量上竟然超越了知乎、豆瓣等知名知识社区。
COIG-CQIA数据集的诞生背景
在大型语言模型的研究领域,英文数据长期以来一直是训练这些模型的主要资源。然而,由于中英文在语法结构、文化背景以及表达习惯上的显著差异,简单地将英文数据集翻译成中文并不能取得理想的效果。为了解决高质量中文数据集匮乏的问题,研究者们开发了COIG-CQIA数据集。
数据集的构建过程
COIG-CQIA数据集广泛搜集了中文互联网上的内容,包括论坛、网站、百度贴吧、以及其他问答社区等,确保了数据的丰富性和多样性。研究人员利用这个数据集对Yi-6B和Yi-34B这两个中文大型语言模型进行了指令调优,随后在BELLE-EVAL这一评估平台上测试了这些模型的性能。
弱智贴吧的意外贡献
令人惊讶的是,在对比不同来源的数据质量时,原本被认为内容质量较低的“弱智贴吧”在数据质量上竟然显著超越了知乎、豆瓣、是否等知名知识社区。这一发现颠覆了人们对不同平台内容质量的传统认知,也提醒我们,有时候所谓的“低端”或“俗气”的内容也可能蕴含着未被充分挖掘的价值。
COIG-CQIA数据集的具体构成
在通识百科方面,研究人员从中文互联网上广泛收集了涵盖自然科学、人文社科等多个领域的概念解释和指导性文章。这些数据源包括了知名的中文百科网站,如百度百科和维基百科等。通过解析HTML并设计多种提示模板,研究人员将原始数据转化为高质量的指令-输出对。这样的处理方式使得数据更加贴合真实场景,有助于提高人工智能系统的理解和应用能力。
在社交媒体和论坛数据方面,研究人员从知乎、小红书、豆瓣、是否等热门中文社区精心挑选了高质量的问答和长文本内容。针对这些社区的特点,研究人员分别采取了筛选高赞回答、评分过滤、人工审核等方式,以确保所保留的数据具有高质量且符合真实场景。
此外,研究人员还从其他种类的数据源中收集了STEM(科学、技术、工程和数学)领域的数据,以及人文领域的数据。这些数据源包括问答社区、内容创作平台、考试题库等。通过综合多个领域的数据,研究人员能够为人工智能系统提供更全面的知识背景和应用场景。
专业知识部分的采集工作涉及了金融、电子、医学、农业等专业垂直网站。研究人员从这些网站中提取了结构化数据,并按照人工设计的提示模板构造出专业性指令-输出对。这样的处理方式使得数据更加贴合专业领域的真实场景,有助于提高人工智能系统在特定领域的理解和应用能力。
此外,研究人员还将国内中学生、研究生的历年入学考试真题纳入了数据集中。这些真题涵盖了各个学科领域,能够显著提升模型的逻辑推理和知识综合能力。通过将这些真题纳入数据集,人工智能系统可以更好地理解和应对各种学科领域的知识和问题。
在完成数据收集和分类整理后,研究人员对每一类数据进行深度清洗、重构和人工审查,以确保数据质量、多样性和对真实人机交互的贴合度。包括格式规范、答案审查、无关内容删除等。最终,精心构建了一个包含48,375条指令-输出对的高质量中文指令微调数据集。
为了测试数据集性能,用COIG-CQIA对Yi系列、Qwen-72B等国内知名模型进行了微调,结果显示,COIG-CQIA比现有开源中文数据集对大模型的帮助更好。