大模型评测新思路:弱智吧精华问题大全
大模型评测新思路:弱智吧精华问题大全
随着AI大模型的快速发展,高质量的训练数据集变得越来越重要。最近,一篇关于AI大模型训练数据集的论文引起了广泛关注。该研究提出了一个高质量的中文指令调优数据集COIG-CQIA,其中包含了来自弱智吧等社交媒体平台的丰富数据。本文将详细介绍这个数据集的构建过程和评测结果,并分享一些来自弱智吧的有趣问题。
研究背景
大型语言模型(LLM)在英语领域取得了重大进展,但在中文指令调优方面仍存在明显差距。现有的数据集要么以英语为中心,要么不适合与现实世界的中国用户交互模式保持一致。为了解决这一问题,一项由10家机构联合发布的研究提出了COIG-CQIA(全称Chinese Open Instruction Generalist - Quality Is All You Need),这是一个高质量的中文指令调优数据集。
数据集构建
为了保证数据质量以及多样性,研究者从中国互联网内的优质网站和数据资源中手动选择了数据源。这些来源包括社区问答论坛、内容创作平台、考试试题等。此外,该数据集还纳入了高质量的中文NLP数据集,以丰富任务的多样性。具体来说,数据源被分为四种类型:
- 社交媒体和论坛:包括知乎、SegmentFault、豆瓣、小红书、弱智吧
- 世界知识:百科全书、四个特定领域的数据(医学、经济管理、电子学和农业)
- NLP数据集:COIG-PC、COIG Human Value等
- 考试试题:中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化
研究者从中国互联网和社区的22个来源总共收集了48,375个实例,涵盖从常识、STEM到人文等领域。
图2说明了各种任务类型,包括信息提取、问答、代码生成等。
图3演示了指令和响应的长度分布。
为了分析COIG-CQIA数据集的多样性,研究者遵循先前的工作,使用Hanlp工具来解析指令。
实验结果
研究者在不同数据源的数据集上对Yi系列模型(Young et al., 2024)和Qwen-72B(Bai et al., 2023)模型进行了微调,以分析数据源对模型跨领域知识能力的影响,并使用Belle-Eval上基于模型(即GPT-4)的自动评估来评估每个模型在各种任务上的性能。
表2、表3分别显示了基于Yi-6B、Yi-34B在不同数据集上进行微调得到的不同模型的性能。模型在头脑风暴、生成和总结等生成任务中表现出色,在数学和编码方面表现不佳。
下图4显示了CQIA和其他5个基线(即Yi-6B-Chat、Baichuan2-7B-Chat、ChatGLM2-6B、Qwen-7B-Chat和InternLM-7B-Chat)的逐对比较人类评估结果。结果表明,与强基线相比,CQIA-Subset实现了更高的人类偏好,至少超过60%的响应优于或与基线模型相当。这不仅归因于CQIA能够对人类问题或指令生成高质量的响应,还归因于其响应更符合现实世界的人类沟通模式,从而导致更高的人类偏好。
该研究还在SafetyBench上评估了模型的安全性,结果如下表4所示:
在COIG Subset数据上训练的模型性能如下表5所示:
弱智吧问题汇总
弱智吧是一个充满智慧的神奇地方,在这里人人都说自己是弱智,但大多聪明得有点过了头。近年来,弱智吧的年度总结文章都可以顺手喜提百度贴吧热度第一名。所谓总结,其实就是给当年吧里的弱智发言排个名。各种高质量的段子在这里传入传出,吸引了无数人的围观和转载,这个贴吧的关注量如今已接近300万。你网络上看到的最新流行词汇,说不定就是弱智吧老哥的杰作。
随着十几年的发展,越来越多的弱智文学也有了奇怪的风格,有心灵鸡汤,有现代诗,甚至有一些出现了哲学意义。最近几天,一篇人工智能领域论文再次把弱智吧推上了风口浪尖。引发AI革命的大模型因为缺乏数据,终于盯上了弱智吧里无穷无尽的「数据集」。有人把这些内容拿出来训练了AI,认真评测对比一番,还别说,效果极好。
接下来,让我们看看弱智吧里的一些经典问题:
- 只切一刀,如何把四个橘子分给四个小朋友?
- 高考满分才750,怎么才能考985?
- 既然监狱里全是罪犯,王警官为什么不去监狱里抓人?
- 古人有那么多封号,是不是说明古人很爱开外挂?
- 我拿水兑水,得到的是稀水还是浓水?
- B疑惑地问β:“你是啥b?”
- 咱们来玩个马吃草的扮演游戏吧,我草你马。
- 地下赌马是不是也叫私密马赛?
- 俄罗斯那么自信是不是因为他们的总统是普姓男?
- 为什么我爸妈结婚的时候没邀请我参加婚礼?
- 王老汉愤怒地打开水龙头,因为开水龙头烫着他了。
- 在发现我没有道德后对方放弃了道德绑架。
- 没有一片雪花是无辜的,王老汉指着没信号的电视说道。
- 碰到女鬼,我花了一个小时解释唯物主义,让她相信自己不存在。
- 我买了一斤藕,为什么半斤都是空的?
- 午餐肉,我可以晚上吃吗?
- 我想配个6000多的电脑,大概要多少钱?
- 香菇掉厕所了还能叫香菇吗?
- 玉皇大帝住的是平流层还是对流层?
- 变形金刚买保险是买车险还是人险?
- 导盲犬禁止入内,是给盲人看的,还是给导盲犬看的?
- 空腹能吃饭吗?
- 生蚝煮熟了叫什么?
- 每天吃一粒感冒药,还会感冒吗?
- 雷公电母放的是直流电还是交流电?
- 如果猪肾虚,那它的腰子还补吗?
- 请问孕妇打人算群殴吗?
- 去自首的路上被抓了还算自首吗?
- 老鼠生病了可以吃老鼠药治好吗?
- 万能胶能不能粘住不粘锅?
- 陨石为什么每次都能精准砸到陨石坑?
- 为什么运动员的教练不去比赛呢?
- 被五步蛇咬了倒退五步能把蛇反杀吗?
- 斑马是黑底白花还是白底黑花?
- 吃止痛药去打架,算开挂吗?
- 被门夹过的核桃,还能补脑吗?
- 吃健胃消食片能吃饱吗?
- 把一只变色龙扔彩虹糖里会怎么样?
- 不孕不育会遗传吗?
- 正月剪头被舅舅制止并暴打一顿舅舅是否构成正当防卫?
- 秃头的人洗头,用洗头膏还是洗面奶?
- 如果父母以后的钱都是留给我的,那我是不是能认为,他们现在正在花我的钱?
- 水不能直接喝,苹果不能直接吃,为什么让不能直接喝的水洗洗苹果就能吃了?
- 咖啡豆是豆,咖啡算豆浆吗?
- 用数据线传输电脑和手机文件,同时两头拔掉,文件可以保存在数据线中吗?
- 用毒蛇毒毒毒蛇,毒蛇会不会被毒蛇毒毒死?
- 怎么才能把脑子里的钱提到银行卡里?
- 人要是行,干一行行一行,一行行行行行,行行行干哪行都行。要是不行,干一行不行一行,一行不行行行不行,行行不行干哪行都不行。
- “校服上别别别的”里的三个“别”分别是什么意思?
- “他一把把把把住了”中的四个“把”分别是什么意思?
- 很多人看不到未来,其实是看到了未来。
- 小明通过作弊使他的思想品德考了满分。
- 敬老院的新人都是老人,这世界的大人都是小人。
- 玩家:为什么我打游戏没有伤害?腾讯:没有买卖就没有伤害。
- 如果我觉得自己是自由的,那么是否自由也束缚住了我?
- 声音的传播需要时间,我们面对面说这话,我在过去,你在未来。
- 工人罢了工,于是成了人。
- 夜里很安静,我打开了收音机录下来,等白天吵闹的时候播放。
- 即使现场破乱不堪,名侦探仅凭回忆就还原了整个行凶过程。
- 皇帝感叹道:“孤的胜,你们都看在眼里;孤的败。”然后就退朝了。
- 地球上有70%的海洋和30%的陆地,那么剩下的30%海洋和70%陆地去哪儿了?
- 既然快递要3天才到,为什么不把所有的快递都提前3天发?
- 小时不识月,呼作地卫一。
- 王老汉找人拼命,现在两人共用一条命。
- 重阳节建议给60岁以上的老人放半天假。
- 把昆虫都放进水里,水就变混浊了。
- 为什么单位学校这些都有保卫处,没有进攻处?
- 我觉得上有老下有小是在形容我的外貌。
- 房东把房租给我,为什么不把房租给我?
- 公司年会上表演千手观音的演员有俩去加班了,于是节目改名为996观音。
- 前天还有人祝我生日快乐呢,今天怎么没了?
- 每次喝塑料瓶里的水都要往里面扔石头好麻烦啊!
- 本想年初一和女朋友领证,可惜民政局又没开门,只能明年再试试了。
- 善用短语可以凑字数,比如说比如说,还有就是还有就是,以及以及。
- 程昱建议曹操不要小瞧周瑜,曹操说可以不要周瑜。
- 每年死于交通事故的鲨鱼几乎为零,可见鲨鱼十分遵守交通规则。
- 都说水火不容,那有些流量明星是怎么做到又水又火的?
- 奶牛的英文是cow,所以牛奶的英文是woc。
- 幸好年初没制定计划,不然就要完不成了。
- 恋爱脑,是两种我没有的东西。
- 既然高考是看排名的,那大家为什么不都考0分呢?这样人人都有大学上了。
- 白骨精头疼是看骨科还是脑科?
- 西游剧组招募演员,忧郁的演神,爱笑的演精。
- 面对控方律师的铁证如山,辩方律师不慌不忙地使出了愚公移山。
- 建立柏林墙简直就是一举两德。
- 如果病毒不会通过网线传染,为什么不用网线制作防护服呢?
- 人类每天都盖被子睡觉,所以人类是被子植物。
- 战胜自我,到底是我赢了还是我输了?
- 把加特林从冰箱拿出来算冷兵器吗?
- 再来一个冷战会不会阻止全球变暖呢?
- 跳多高才能跳过广告?
- 货拉拉拉不拉拉布拉多?
- 眼镜没发明出来之前眼镜蛇叫什么?
- 孙悟空是碳基生物还是硅基生物?
- 变形金刚买保险是买车险还是人险?
- 是弱智吧创造了弱智,还是弱智创造了弱智吧?
- 如果有人批评你不够客观,那么很可能是你的观点不符合他的主观。
- 因为电子书没有书香,所以电子书没有书香。
- 存在的星星不一定都发光,发光的星星不一定还存在。
- “你走你的。”阳关道。
结论
这项研究提出了一个高质量的中文指令调优数据集COIG-CQIA,专门用于与人类交互保持一致,并通过严格的过滤程序实现。研究探讨了各种数据源(包括社交媒体、百科全书和传统NLP任务)对模型性能的影响,为从中国互联网中选择训练数据提供了重要见解。各种基准测试和人工评估证实,在CQIA数据集上微调的模型表现出卓越的性能,从而使CQIA成为中国NLP社区的宝贵资源。
论文地址:https://arxiv.org/pdf/2403.18058.pdf
数据地址:https://huggingface.co/datasets/m-a-p/COIG-CQIA