资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

“弱智吧”成AI训练素材：中科院研究揭示其独特价值

创作时间:

作者:

@小白创作中心

“弱智吧”成AI训练素材：中科院研究揭示其独特价值

引用

虎嗅网

https://m.huxiu.com/article/2963943.html

近日，中科院的一项最新研究显示，百度贴吧“弱智吧”的内容在训练AI中文能力方面展现出独特价值。研究团队精选了多个中文互联网平台的语料库，包括豆瓣、小红书、微博、贴吧、知乎等，用于训练零一万物的Yi大模型。结果显示，在GPT-4的打分下，基于弱智吧训练的模型在多个能力测试中表现最佳。

具体来看，在6B小模型上，弱智吧训练出来的模型在开放问答、分类、封闭问答和编程能力上较为突出。而转战到34B大模型上，弱智吧训练的大模型成绩一骑绝尘，在8项能力中排名第一，平均分也远超其他平台训练出来的模型。

研究团队还测试了多个主流大模型（ChatGPT-3.5、Gemini、文心一言和Kimi）对弱智吧问题的理解能力。结果显示，国产大模型对弱智吧的问题有更好的理解，其中Kimi和文心一言表现最佳，能答对8道题，答错和半错半对各1道。而ChatGPT-3.5和Gemini则因“水土不服”表现较差。

更有趣的是，AI不仅难以理解弱智吧的内容，也难以模仿创作类似内容。研究人员尝试让多个大模型模仿弱智吧的典型问题，但生成的问题都显得生硬，缺乏弱智吧特有的逻辑和幽默感。

弱智吧之所以成为AI难以攻克的堡垒，关键在于其独特的内容风格。弱智吧的内容常用“逻辑反推”“谐音双关”“跨服聊天”等手法生成各种离谱的段子或幽默又带有思考的句子。这些内容往往高度抽象，需要读者反复思考才能理解其中的深意。

与知乎和小红书等平台注重内容的可读性和故事性不同，弱智吧的内容更注重逻辑性和思维深度。例如，面对“今天天气怎么样？”这样的简单问题，弱智吧的回复往往是：“太阳翘班了，云正在赛跑。”这种独特的表达方式正是人类与AI区别最大的地方，也是AI目前难以掌握的。

这一发现不仅揭示了弱智吧在AI训练中的独特价值，也为中文互联网内容的多样性提供了新的视角。正如研究者所指出的，其他中文社区也可以发挥各自特点，构建属于自己的AI训练堡垒。

热门推荐

“快拨出-我是你母亲”这句台词如何成为网络热词：解析其文化影响与传播力

云雾起，山朦胧！快来邂逅这些秋日云海

【峨眉山云海时间】什么时候看峨眉山云海最合适，几月去峨眉山最好

禅意小镇·拈花湾：无锡亲子游打卡胜地

无锡亲子游：禅意与古运河的完美融合

无锡影视基地亲子游：20场演出、数十种游乐项目，让孩子玩转三国水浒！

如何陪伴，日渐老去的父母？

哈佛研究：吃盐过多，或增加28%死亡风险

厦门自由行住宿与美食攻略：入冬5日深度游指南

新学期来临，这些心理调适方法让孩子告别焦虑！

开学季：如何快速调整健康生活习惯？

智能助手助力精准用药：替米沙坦剂量管理新突破

贫血补血，这些食物你吃对了吗？

专家支招：如何在学校普及贫血预防知识？

供奉供品：对逝者的尊敬与怀念

不是现在的电视剧不好看，而是甄嬛传太经典，4点原因说明为什么

花的结构大揭秘：从绽放到果实诞生

花的结构大揭秘：从花梗到雌蕊

让历史记忆“留得全”“保得住”“用得好” 厦门出台系列措施保护历史文化遗存

厦门与波士顿的百年茶事

澳洲工资水平全解析：各行业、各地区薪资差异及工作环境

最新出炉！澳洲十大高薪职业盘点！最高年薪85万澳元