密歇根大学发布Chumor 2.0:首个大规模中文幽默理解数据集
创作时间:
作者:
@小白创作中心
密歇根大学发布Chumor 2.0:首个大规模中文幽默理解数据集
引用
CSDN
1.
https://blog.csdn.net/weixin_46739757/article/details/145209016
密歇根大学研究团队最近发布了一个名为Chumor 2.0的中文幽默理解数据集,该数据集来源于中国知名幽默分享平台弱智吧。研究团队通过直接提示(DP)和链式思维提示(CoT)两种策略评估了10种不同LLMs的表现,并发现所有LLM在中文幽默理解任务上表现不佳,最佳准确率仅为60.3%,远低于人类的78.3%。
研究背景与意义
现有的幽默数据集和评估主要集中在英语上,为中文等非英语语言中的文化微妙幽默留下了有限的资源。为了解决这一差距,研究团队构建了Chumor,这是第一个超过现有幽默数据集大小的中国幽默解释数据集。
数据集构建与评估方法
Chumor数据集来源于弱智吧,一个类似Reddit的中国平台,以分享具有智力挑战性和文化特色的笑话而闻名。研究团队通过直接提示(DP)和链式思维提示(CoT)两种策略评估了10种不同LLMs的表现,并使用准确率、假阳性率(FPR)、假阴性率(FNR)和马修斯相关系数(MCC)等指标进行模型性能评估。
研究发现
- 所有LLM在中文幽默理解任务上表现不佳,最佳准确率仅为60.3%,远低于人类的78.3%。
- 链式思维提示(CoT)在某些情况下会降低模型性能,导致模型过度分析或过于批判。
- 人类注释的笑话解释显著优于GPT-4o和ERNIE 4-turbo生成的解释。
- LLM在文化特定笑话、双关笑话和同音笑话上表现较差,显示出对中文文化和语言理解的不足。
- GPT-4o在理解上下文或双关方面表现较好,但在文化无知和同音错误上表现较差;ERNIE 4-turbo在文化笑话上表现较好,但在其他类型笑话上表现较差。
结论
研究揭示了当前LLM在中文幽默理解方面的显著不足,特别是在文化特定笑话、双关笑话和同音笑话等方面。这一发现对于推动AI在中文语言处理领域的研究具有重要意义。
热门推荐
费孝通《乡土中国》:语言的魅力与时代的印记
传统文化在现代社会的生存之道
INFP人格类型及伴侣建议:深度解析
舌尖上的美味——霉豆腐发霉了还能吃吗?
如何通过资产负债表分析公司风险?
资产负债率反映了企业的什么能力?如何评估其财务健康状况?
负债-资产负债表中的负债结构及其对公司财务稳定性的影响
虚幻引擎5+AI解算:《哪吒2》如何打造动画电影新标杆
高速公路上的各类标志牌全解析:从入口到出口的安全指南
不吃完这些,别说你国庆来了西昌,美食攻略
Excel表格打印技巧:如何完美填满A4纸
PPT打印确保内容完整的技巧指南
高效办公必备:实用工具和技巧助你提升工作效率
民间借贷撤诉后多久能再次起诉
中国素描艺术如何发展
手机连接汽车车载互联:一步步操作指南与注意事项
福斯机长:以色列航空空难中的英雄
从以色列航空1862号班机事故看现代飞行安全的进步
寺庙旅游:文明拍照小贴士
五台山佛光寺:古建拍摄秘籍大公开!
西藏大昭寺:拍照礼仪与参观攻略
乐高积木DIY手机壳,你也能成为手机帝国霸主!
书中边城 画里秀山
尿酸高患者是否可饮用陈皮茶?其益处与注意事项全解析
十大成功乡村旅游业态案例
澳大利亚英语拼写大揭秘:英式传统与美式新潮的完美融合
潮州古城打卡:从牌坊街到西湖公园
潮州古城墙与广济桥:申遗路上的文化瑰宝
揭秘澳大利亚英语的独特魅力
澳大利亚的"大老粗"和"潮人",谁更懂英语?