密歇根大学发布Chumor 2.0:首个大规模中文幽默理解数据集
创作时间:
作者:
@小白创作中心
密歇根大学发布Chumor 2.0:首个大规模中文幽默理解数据集
引用
CSDN
1.
https://blog.csdn.net/weixin_46739757/article/details/145209016
密歇根大学研究团队最近发布了一个名为Chumor 2.0的中文幽默理解数据集,该数据集来源于中国知名幽默分享平台弱智吧。研究团队通过直接提示(DP)和链式思维提示(CoT)两种策略评估了10种不同LLMs的表现,并发现所有LLM在中文幽默理解任务上表现不佳,最佳准确率仅为60.3%,远低于人类的78.3%。
研究背景与意义
现有的幽默数据集和评估主要集中在英语上,为中文等非英语语言中的文化微妙幽默留下了有限的资源。为了解决这一差距,研究团队构建了Chumor,这是第一个超过现有幽默数据集大小的中国幽默解释数据集。
数据集构建与评估方法
Chumor数据集来源于弱智吧,一个类似Reddit的中国平台,以分享具有智力挑战性和文化特色的笑话而闻名。研究团队通过直接提示(DP)和链式思维提示(CoT)两种策略评估了10种不同LLMs的表现,并使用准确率、假阳性率(FPR)、假阴性率(FNR)和马修斯相关系数(MCC)等指标进行模型性能评估。
研究发现
- 所有LLM在中文幽默理解任务上表现不佳,最佳准确率仅为60.3%,远低于人类的78.3%。
- 链式思维提示(CoT)在某些情况下会降低模型性能,导致模型过度分析或过于批判。
- 人类注释的笑话解释显著优于GPT-4o和ERNIE 4-turbo生成的解释。
- LLM在文化特定笑话、双关笑话和同音笑话上表现较差,显示出对中文文化和语言理解的不足。
- GPT-4o在理解上下文或双关方面表现较好,但在文化无知和同音错误上表现较差;ERNIE 4-turbo在文化笑话上表现较好,但在其他类型笑话上表现较差。
结论
研究揭示了当前LLM在中文幽默理解方面的显著不足,特别是在文化特定笑话、双关笑话和同音笑话等方面。这一发现对于推动AI在中文语言处理领域的研究具有重要意义。
热门推荐
宋佳:用演技点亮“燃灯校长”的精神之光
科学饮食,秀发重生的秘密
宋佳视后之路:从《山花烂漫时》到《人世间》
鲁滨逊在巴西:从水手到种植园主的智慧之旅
天然水晶vs人造水晶:石头眼镜真假鉴别全攻略
水泡型脚气与营养缺乏:症状、诊断与治疗全解析
水泡型脚气的五种有效治疗方法
脚气起水泡痒怎么根治
扶霞:不完全(且个人偏好强烈的)中餐烹饪简史
双聚乙二醇化胰岛素:长效控糖新突破
长效胰岛素:糖尿病管理的新宠儿?
长效胰岛素配合饮食管理,糖尿病患者也能享受美食
六部电影里的太平洋战争:从密码战到硫磺岛战役
告别化学清洁剂:自制环保清洁产品的5个实用配方
AI驱动定制化的高性能ESIPT荧光分子的智能挖掘
司马光砸缸:一个故事的多重解读
司马光砸缸竟是假的?专家揭秘背后真相
司马光砸缸背后的育儿启示
接英教授教你预防干眼症:从科学用眼到日常护理全攻略
干眼症治疗迎来突破:Lacrifill和Miebo获批上市
缓解干眼症,这些食物真的有用!
广西融水老君洞:道教文化与自然美景的完美融合
龙女沟:桂北最大原始森林里的4A级景区,融汇多民族文化
13.5亿打造,融水风情苗乡成广西夜游新地标
堂姐妹亲情修复指南:理解矛盾根源与三大维度解决方案
中国古代民主思想的现代启示
速腾保养手册:周期、费用全解析
如何从配置、续航等方面挑选出适合自己的新能源汽车
备战体测:科学提升立定跳远成绩
芝麻油涨价会影响石油市场吗?