资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大模型评测新思路：弱智吧精华问题大全

创作时间:

作者:

@小白创作中心

大模型评测新思路：弱智吧精华问题大全

引用

来源

https://www.wehelpwin.com/article/5150

随着AI大模型的快速发展，高质量的训练数据集变得越来越重要。最近，一篇关于AI大模型训练数据集的论文引起了广泛关注。该研究提出了一个高质量的中文指令调优数据集COIG-CQIA，其中包含了来自弱智吧等社交媒体平台的丰富数据。本文将详细介绍这个数据集的构建过程和评测结果，并分享一些来自弱智吧的有趣问题。

研究背景

大型语言模型（LLM）在英语领域取得了重大进展，但在中文指令调优方面仍存在明显差距。现有的数据集要么以英语为中心，要么不适合与现实世界的中国用户交互模式保持一致。为了解决这一问题，一项由10家机构联合发布的研究提出了COIG-CQIA（全称Chinese Open Instruction Generalist - Quality Is All You Need），这是一个高质量的中文指令调优数据集。

数据集构建

为了保证数据质量以及多样性，研究者从中国互联网内的优质网站和数据资源中手动选择了数据源。这些来源包括社区问答论坛、内容创作平台、考试试题等。此外，该数据集还纳入了高质量的中文NLP数据集，以丰富任务的多样性。具体来说，数据源被分为四种类型：

社交媒体和论坛：包括知乎、SegmentFault、豆瓣、小红书、弱智吧
世界知识：百科全书、四个特定领域的数据（医学、经济管理、电子学和农业）
NLP数据集：COIG-PC、COIG Human Value等
考试试题：中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化

研究者从中国互联网和社区的22个来源总共收集了48,375个实例，涵盖从常识、STEM到人文等领域。

图2说明了各种任务类型，包括信息提取、问答、代码生成等。

图3演示了指令和响应的长度分布。

为了分析COIG-CQIA数据集的多样性，研究者遵循先前的工作，使用Hanlp工具来解析指令。

实验结果

研究者在不同数据源的数据集上对Yi系列模型（Young et al., 2024）和Qwen-72B（Bai et al., 2023）模型进行了微调，以分析数据源对模型跨领域知识能力的影响，并使用Belle-Eval上基于模型（即GPT-4）的自动评估来评估每个模型在各种任务上的性能。

表2、表3分别显示了基于Yi-6B、Yi-34B在不同数据集上进行微调得到的不同模型的性能。模型在头脑风暴、生成和总结等生成任务中表现出色，在数学和编码方面表现不佳。

下图4显示了CQIA和其他5个基线（即Yi-6B-Chat、Baichuan2-7B-Chat、ChatGLM2-6B、Qwen-7B-Chat和InternLM-7B-Chat）的逐对比较人类评估结果。结果表明，与强基线相比，CQIA-Subset实现了更高的人类偏好，至少超过60%的响应优于或与基线模型相当。这不仅归因于CQIA能够对人类问题或指令生成高质量的响应，还归因于其响应更符合现实世界的人类沟通模式，从而导致更高的人类偏好。

该研究还在SafetyBench上评估了模型的安全性，结果如下表4所示：

在COIG Subset数据上训练的模型性能如下表5所示：

弱智吧问题汇总

弱智吧是一个充满智慧的神奇地方，在这里人人都说自己是弱智，但大多聪明得有点过了头。近年来，弱智吧的年度总结文章都可以顺手喜提百度贴吧热度第一名。所谓总结，其实就是给当年吧里的弱智发言排个名。各种高质量的段子在这里传入传出，吸引了无数人的围观和转载，这个贴吧的关注量如今已接近300万。你网络上看到的最新流行词汇，说不定就是弱智吧老哥的杰作。

随着十几年的发展，越来越多的弱智文学也有了奇怪的风格，有心灵鸡汤，有现代诗，甚至有一些出现了哲学意义。最近几天，一篇人工智能领域论文再次把弱智吧推上了风口浪尖。引发AI革命的大模型因为缺乏数据，终于盯上了弱智吧里无穷无尽的「数据集」。有人把这些内容拿出来训练了AI，认真评测对比一番，还别说，效果极好。

接下来，让我们看看弱智吧里的一些经典问题：

只切一刀，如何把四个橘子分给四个小朋友？
高考满分才750，怎么才能考985？
既然监狱里全是罪犯，王警官为什么不去监狱里抓人？
古人有那么多封号，是不是说明古人很爱开外挂？
我拿水兑水，得到的是稀水还是浓水？
B疑惑地问β：“你是啥b？”
咱们来玩个马吃草的扮演游戏吧，我草你马。
地下赌马是不是也叫私密马赛？
俄罗斯那么自信是不是因为他们的总统是普姓男？
为什么我爸妈结婚的时候没邀请我参加婚礼？
王老汉愤怒地打开水龙头，因为开水龙头烫着他了。
在发现我没有道德后对方放弃了道德绑架。
没有一片雪花是无辜的，王老汉指着没信号的电视说道。
碰到女鬼，我花了一个小时解释唯物主义，让她相信自己不存在。
我买了一斤藕，为什么半斤都是空的？
午餐肉，我可以晚上吃吗？
我想配个6000多的电脑，大概要多少钱？
香菇掉厕所了还能叫香菇吗？
玉皇大帝住的是平流层还是对流层？
变形金刚买保险是买车险还是人险？
导盲犬禁止入内，是给盲人看的，还是给导盲犬看的？
空腹能吃饭吗？
生蚝煮熟了叫什么？
每天吃一粒感冒药，还会感冒吗？
雷公电母放的是直流电还是交流电？
如果猪肾虚，那它的腰子还补吗？
请问孕妇打人算群殴吗？
去自首的路上被抓了还算自首吗？
老鼠生病了可以吃老鼠药治好吗？
万能胶能不能粘住不粘锅？
陨石为什么每次都能精准砸到陨石坑？
为什么运动员的教练不去比赛呢？
被五步蛇咬了倒退五步能把蛇反杀吗？
斑马是黑底白花还是白底黑花？
吃止痛药去打架，算开挂吗？
被门夹过的核桃，还能补脑吗？
吃健胃消食片能吃饱吗？
把一只变色龙扔彩虹糖里会怎么样？
不孕不育会遗传吗？
正月剪头被舅舅制止并暴打一顿舅舅是否构成正当防卫？
秃头的人洗头，用洗头膏还是洗面奶？
如果父母以后的钱都是留给我的，那我是不是能认为，他们现在正在花我的钱？
水不能直接喝，苹果不能直接吃，为什么让不能直接喝的水洗洗苹果就能吃了？
咖啡豆是豆，咖啡算豆浆吗？
用数据线传输电脑和手机文件，同时两头拔掉，文件可以保存在数据线中吗？
用毒蛇毒毒毒蛇，毒蛇会不会被毒蛇毒毒死？
怎么才能把脑子里的钱提到银行卡里？
人要是行，干一行行一行，一行行行行行，行行行干哪行都行。要是不行，干一行不行一行，一行不行行行不行，行行不行干哪行都不行。
“校服上别别别的”里的三个“别”分别是什么意思？
“他一把把把把住了”中的四个“把”分别是什么意思？
很多人看不到未来，其实是看到了未来。
小明通过作弊使他的思想品德考了满分。
敬老院的新人都是老人，这世界的大人都是小人。
玩家：为什么我打游戏没有伤害？腾讯：没有买卖就没有伤害。
如果我觉得自己是自由的，那么是否自由也束缚住了我？
声音的传播需要时间，我们面对面说这话，我在过去，你在未来。
工人罢了工，于是成了人。
夜里很安静，我打开了收音机录下来，等白天吵闹的时候播放。
即使现场破乱不堪，名侦探仅凭回忆就还原了整个行凶过程。
皇帝感叹道：“孤的胜，你们都看在眼里；孤的败。”然后就退朝了。
地球上有70%的海洋和30%的陆地，那么剩下的30%海洋和70%陆地去哪儿了？
既然快递要3天才到，为什么不把所有的快递都提前3天发？
小时不识月，呼作地卫一。
王老汉找人拼命，现在两人共用一条命。
重阳节建议给60岁以上的老人放半天假。
把昆虫都放进水里，水就变混浊了。
为什么单位学校这些都有保卫处，没有进攻处？
我觉得上有老下有小是在形容我的外貌。
房东把房租给我，为什么不把房租给我？
公司年会上表演千手观音的演员有俩去加班了，于是节目改名为996观音。
前天还有人祝我生日快乐呢，今天怎么没了？
每次喝塑料瓶里的水都要往里面扔石头好麻烦啊！
本想年初一和女朋友领证，可惜民政局又没开门，只能明年再试试了。
善用短语可以凑字数，比如说比如说，还有就是还有就是，以及以及。
程昱建议曹操不要小瞧周瑜，曹操说可以不要周瑜。
每年死于交通事故的鲨鱼几乎为零，可见鲨鱼十分遵守交通规则。
都说水火不容，那有些流量明星是怎么做到又水又火的？
奶牛的英文是cow，所以牛奶的英文是woc。
幸好年初没制定计划，不然就要完不成了。
恋爱脑，是两种我没有的东西。
既然高考是看排名的，那大家为什么不都考0分呢？这样人人都有大学上了。
白骨精头疼是看骨科还是脑科？
西游剧组招募演员，忧郁的演神，爱笑的演精。
面对控方律师的铁证如山，辩方律师不慌不忙地使出了愚公移山。
建立柏林墙简直就是一举两德。
如果病毒不会通过网线传染，为什么不用网线制作防护服呢？
人类每天都盖被子睡觉，所以人类是被子植物。
战胜自我，到底是我赢了还是我输了？
把加特林从冰箱拿出来算冷兵器吗？
再来一个冷战会不会阻止全球变暖呢？
跳多高才能跳过广告？
货拉拉拉不拉拉布拉多？
眼镜没发明出来之前眼镜蛇叫什么？
孙悟空是碳基生物还是硅基生物？
变形金刚买保险是买车险还是人险？
是弱智吧创造了弱智，还是弱智创造了弱智吧？
如果有人批评你不够客观，那么很可能是你的观点不符合他的主观。
因为电子书没有书香，所以电子书没有书香。
存在的星星不一定都发光，发光的星星不一定还存在。
“你走你的。”阳关道。

结论

这项研究提出了一个高质量的中文指令调优数据集COIG-CQIA，专门用于与人类交互保持一致，并通过严格的过滤程序实现。研究探讨了各种数据源（包括社交媒体、百科全书和传统NLP任务）对模型性能的影响，为从中国互联网中选择训练数据提供了重要见解。各种基准测试和人工评估证实，在CQIA数据集上微调的模型表现出卓越的性能，从而使CQIA成为中国NLP社区的宝贵资源。

论文地址：https://arxiv.org/pdf/2403.18058.pdf
数据地址：https://huggingface.co/datasets/m-a-p/COIG-CQIA