问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

大模型评测新思路:弱智吧精华问题大全

创作时间:
作者:
@小白创作中心

大模型评测新思路:弱智吧精华问题大全

引用
1
来源
1.
https://www.wehelpwin.com/article/5150

随着AI大模型的快速发展,高质量的训练数据集变得越来越重要。最近,一篇关于AI大模型训练数据集的论文引起了广泛关注。该研究提出了一个高质量的中文指令调优数据集COIG-CQIA,其中包含了来自弱智吧等社交媒体平台的丰富数据。本文将详细介绍这个数据集的构建过程和评测结果,并分享一些来自弱智吧的有趣问题。

研究背景

大型语言模型(LLM)在英语领域取得了重大进展,但在中文指令调优方面仍存在明显差距。现有的数据集要么以英语为中心,要么不适合与现实世界的中国用户交互模式保持一致。为了解决这一问题,一项由10家机构联合发布的研究提出了COIG-CQIA(全称Chinese Open Instruction Generalist - Quality Is All You Need),这是一个高质量的中文指令调优数据集。

数据集构建

为了保证数据质量以及多样性,研究者从中国互联网内的优质网站和数据资源中手动选择了数据源。这些来源包括社区问答论坛、内容创作平台、考试试题等。此外,该数据集还纳入了高质量的中文NLP数据集,以丰富任务的多样性。具体来说,数据源被分为四种类型:

  • 社交媒体和论坛:包括知乎、SegmentFault、豆瓣、小红书、弱智吧
  • 世界知识:百科全书、四个特定领域的数据(医学、经济管理、电子学和农业)
  • NLP数据集:COIG-PC、COIG Human Value等
  • 考试试题:中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化

研究者从中国互联网和社区的22个来源总共收集了48,375个实例,涵盖从常识、STEM到人文等领域。

图2说明了各种任务类型,包括信息提取、问答、代码生成等。

图3演示了指令和响应的长度分布。

为了分析COIG-CQIA数据集的多样性,研究者遵循先前的工作,使用Hanlp工具来解析指令。

实验结果

研究者在不同数据源的数据集上对Yi系列模型(Young et al., 2024)和Qwen-72B(Bai et al., 2023)模型进行了微调,以分析数据源对模型跨领域知识能力的影响,并使用Belle-Eval上基于模型(即GPT-4)的自动评估来评估每个模型在各种任务上的性能。

表2、表3分别显示了基于Yi-6B、Yi-34B在不同数据集上进行微调得到的不同模型的性能。模型在头脑风暴、生成和总结等生成任务中表现出色,在数学和编码方面表现不佳。

下图4显示了CQIA和其他5个基线(即Yi-6B-Chat、Baichuan2-7B-Chat、ChatGLM2-6B、Qwen-7B-Chat和InternLM-7B-Chat)的逐对比较人类评估结果。结果表明,与强基线相比,CQIA-Subset实现了更高的人类偏好,至少超过60%的响应优于或与基线模型相当。这不仅归因于CQIA能够对人类问题或指令生成高质量的响应,还归因于其响应更符合现实世界的人类沟通模式,从而导致更高的人类偏好。

该研究还在SafetyBench上评估了模型的安全性,结果如下表4所示:

在COIG Subset数据上训练的模型性能如下表5所示:

弱智吧问题汇总

弱智吧是一个充满智慧的神奇地方,在这里人人都说自己是弱智,但大多聪明得有点过了头。近年来,弱智吧的年度总结文章都可以顺手喜提百度贴吧热度第一名。所谓总结,其实就是给当年吧里的弱智发言排个名。各种高质量的段子在这里传入传出,吸引了无数人的围观和转载,这个贴吧的关注量如今已接近300万。你网络上看到的最新流行词汇,说不定就是弱智吧老哥的杰作。

随着十几年的发展,越来越多的弱智文学也有了奇怪的风格,有心灵鸡汤,有现代诗,甚至有一些出现了哲学意义。最近几天,一篇人工智能领域论文再次把弱智吧推上了风口浪尖。引发AI革命的大模型因为缺乏数据,终于盯上了弱智吧里无穷无尽的「数据集」。有人把这些内容拿出来训练了AI,认真评测对比一番,还别说,效果极好。

接下来,让我们看看弱智吧里的一些经典问题:

  1. 只切一刀,如何把四个橘子分给四个小朋友?
  2. 高考满分才750,怎么才能考985?
  3. 既然监狱里全是罪犯,王警官为什么不去监狱里抓人?
  4. 古人有那么多封号,是不是说明古人很爱开外挂?
  5. 我拿水兑水,得到的是稀水还是浓水?
  6. B疑惑地问β:“你是啥b?”
  7. 咱们来玩个马吃草的扮演游戏吧,我草你马。
  8. 地下赌马是不是也叫私密马赛?
  9. 俄罗斯那么自信是不是因为他们的总统是普姓男?
  10. 为什么我爸妈结婚的时候没邀请我参加婚礼?
  11. 王老汉愤怒地打开水龙头,因为开水龙头烫着他了。
  12. 在发现我没有道德后对方放弃了道德绑架。
  13. 没有一片雪花是无辜的,王老汉指着没信号的电视说道。
  14. 碰到女鬼,我花了一个小时解释唯物主义,让她相信自己不存在。
  15. 我买了一斤藕,为什么半斤都是空的?
  16. 午餐肉,我可以晚上吃吗?
  17. 我想配个6000多的电脑,大概要多少钱?
  18. 香菇掉厕所了还能叫香菇吗?
  19. 玉皇大帝住的是平流层还是对流层?
  20. 变形金刚买保险是买车险还是人险?
  21. 导盲犬禁止入内,是给盲人看的,还是给导盲犬看的?
  22. 空腹能吃饭吗?
  23. 生蚝煮熟了叫什么?
  24. 每天吃一粒感冒药,还会感冒吗?
  25. 雷公电母放的是直流电还是交流电?
  26. 如果猪肾虚,那它的腰子还补吗?
  27. 请问孕妇打人算群殴吗?
  28. 去自首的路上被抓了还算自首吗?
  29. 老鼠生病了可以吃老鼠药治好吗?
  30. 万能胶能不能粘住不粘锅?
  31. 陨石为什么每次都能精准砸到陨石坑?
  32. 为什么运动员的教练不去比赛呢?
  33. 被五步蛇咬了倒退五步能把蛇反杀吗?
  34. 斑马是黑底白花还是白底黑花?
  35. 吃止痛药去打架,算开挂吗?
  36. 被门夹过的核桃,还能补脑吗?
  37. 吃健胃消食片能吃饱吗?
  38. 把一只变色龙扔彩虹糖里会怎么样?
  39. 不孕不育会遗传吗?
  40. 正月剪头被舅舅制止并暴打一顿舅舅是否构成正当防卫?
  41. 秃头的人洗头,用洗头膏还是洗面奶?
  42. 如果父母以后的钱都是留给我的,那我是不是能认为,他们现在正在花我的钱?
  43. 水不能直接喝,苹果不能直接吃,为什么让不能直接喝的水洗洗苹果就能吃了?
  44. 咖啡豆是豆,咖啡算豆浆吗?
  45. 用数据线传输电脑和手机文件,同时两头拔掉,文件可以保存在数据线中吗?
  46. 用毒蛇毒毒毒蛇,毒蛇会不会被毒蛇毒毒死?
  47. 怎么才能把脑子里的钱提到银行卡里?
  48. 人要是行,干一行行一行,一行行行行行,行行行干哪行都行。要是不行,干一行不行一行,一行不行行行不行,行行不行干哪行都不行。
  49. “校服上别别别的”里的三个“别”分别是什么意思?
  50. “他一把把把把住了”中的四个“把”分别是什么意思?
  51. 很多人看不到未来,其实是看到了未来。
  52. 小明通过作弊使他的思想品德考了满分。
  53. 敬老院的新人都是老人,这世界的大人都是小人。
  54. 玩家:为什么我打游戏没有伤害?腾讯:没有买卖就没有伤害。
  55. 如果我觉得自己是自由的,那么是否自由也束缚住了我?
  56. 声音的传播需要时间,我们面对面说这话,我在过去,你在未来。
  57. 工人罢了工,于是成了人。
  58. 夜里很安静,我打开了收音机录下来,等白天吵闹的时候播放。
  59. 即使现场破乱不堪,名侦探仅凭回忆就还原了整个行凶过程。
  60. 皇帝感叹道:“孤的胜,你们都看在眼里;孤的败。”然后就退朝了。
  61. 地球上有70%的海洋和30%的陆地,那么剩下的30%海洋和70%陆地去哪儿了?
  62. 既然快递要3天才到,为什么不把所有的快递都提前3天发?
  63. 小时不识月,呼作地卫一。
  64. 王老汉找人拼命,现在两人共用一条命。
  65. 重阳节建议给60岁以上的老人放半天假。
  66. 把昆虫都放进水里,水就变混浊了。
  67. 为什么单位学校这些都有保卫处,没有进攻处?
  68. 我觉得上有老下有小是在形容我的外貌。
  69. 房东把房租给我,为什么不把房租给我?
  70. 公司年会上表演千手观音的演员有俩去加班了,于是节目改名为996观音。
  71. 前天还有人祝我生日快乐呢,今天怎么没了?
  72. 每次喝塑料瓶里的水都要往里面扔石头好麻烦啊!
  73. 本想年初一和女朋友领证,可惜民政局又没开门,只能明年再试试了。
  74. 善用短语可以凑字数,比如说比如说,还有就是还有就是,以及以及。
  75. 程昱建议曹操不要小瞧周瑜,曹操说可以不要周瑜。
  76. 每年死于交通事故的鲨鱼几乎为零,可见鲨鱼十分遵守交通规则。
  77. 都说水火不容,那有些流量明星是怎么做到又水又火的?
  78. 奶牛的英文是cow,所以牛奶的英文是woc。
  79. 幸好年初没制定计划,不然就要完不成了。
  80. 恋爱脑,是两种我没有的东西。
  81. 既然高考是看排名的,那大家为什么不都考0分呢?这样人人都有大学上了。
  82. 白骨精头疼是看骨科还是脑科?
  83. 西游剧组招募演员,忧郁的演神,爱笑的演精。
  84. 面对控方律师的铁证如山,辩方律师不慌不忙地使出了愚公移山。
  85. 建立柏林墙简直就是一举两德。
  86. 如果病毒不会通过网线传染,为什么不用网线制作防护服呢?
  87. 人类每天都盖被子睡觉,所以人类是被子植物。
  88. 战胜自我,到底是我赢了还是我输了?
  89. 把加特林从冰箱拿出来算冷兵器吗?
  90. 再来一个冷战会不会阻止全球变暖呢?
  91. 跳多高才能跳过广告?
  92. 货拉拉拉不拉拉布拉多?
  93. 眼镜没发明出来之前眼镜蛇叫什么?
  94. 孙悟空是碳基生物还是硅基生物?
  95. 变形金刚买保险是买车险还是人险?
  96. 是弱智吧创造了弱智,还是弱智创造了弱智吧?
  97. 如果有人批评你不够客观,那么很可能是你的观点不符合他的主观。
  98. 因为电子书没有书香,所以电子书没有书香。
  99. 存在的星星不一定都发光,发光的星星不一定还存在。
  100. “你走你的。”阳关道。

结论

这项研究提出了一个高质量的中文指令调优数据集COIG-CQIA,专门用于与人类交互保持一致,并通过严格的过滤程序实现。研究探讨了各种数据源(包括社交媒体、百科全书和传统NLP任务)对模型性能的影响,为从中国互联网中选择训练数据提供了重要见解。各种基准测试和人工评估证实,在CQIA数据集上微调的模型表现出卓越的性能,从而使CQIA成为中国NLP社区的宝贵资源。

论文地址:https://arxiv.org/pdf/2403.18058.pdf
数据地址:https://huggingface.co/datasets/m-a-p/COIG-CQIA

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号