密歇根大学发布Chumor 2.0:首个大规模中文幽默理解数据集
创作时间:
作者:
@小白创作中心
密歇根大学发布Chumor 2.0:首个大规模中文幽默理解数据集
引用
CSDN
1.
https://blog.csdn.net/weixin_46739757/article/details/145209016
密歇根大学研究团队最近发布了一个名为Chumor 2.0的中文幽默理解数据集,该数据集来源于中国知名幽默分享平台弱智吧。研究团队通过直接提示(DP)和链式思维提示(CoT)两种策略评估了10种不同LLMs的表现,并发现所有LLM在中文幽默理解任务上表现不佳,最佳准确率仅为60.3%,远低于人类的78.3%。
研究背景与意义
现有的幽默数据集和评估主要集中在英语上,为中文等非英语语言中的文化微妙幽默留下了有限的资源。为了解决这一差距,研究团队构建了Chumor,这是第一个超过现有幽默数据集大小的中国幽默解释数据集。
数据集构建与评估方法
Chumor数据集来源于弱智吧,一个类似Reddit的中国平台,以分享具有智力挑战性和文化特色的笑话而闻名。研究团队通过直接提示(DP)和链式思维提示(CoT)两种策略评估了10种不同LLMs的表现,并使用准确率、假阳性率(FPR)、假阴性率(FNR)和马修斯相关系数(MCC)等指标进行模型性能评估。
研究发现
- 所有LLM在中文幽默理解任务上表现不佳,最佳准确率仅为60.3%,远低于人类的78.3%。
- 链式思维提示(CoT)在某些情况下会降低模型性能,导致模型过度分析或过于批判。
- 人类注释的笑话解释显著优于GPT-4o和ERNIE 4-turbo生成的解释。
- LLM在文化特定笑话、双关笑话和同音笑话上表现较差,显示出对中文文化和语言理解的不足。
- GPT-4o在理解上下文或双关方面表现较好,但在文化无知和同音错误上表现较差;ERNIE 4-turbo在文化笑话上表现较好,但在其他类型笑话上表现较差。
结论
研究揭示了当前LLM在中文幽默理解方面的显著不足,特别是在文化特定笑话、双关笑话和同音笑话等方面。这一发现对于推动AI在中文语言处理领域的研究具有重要意义。
热门推荐
常见的工业相机种类及选型方法
光伏板测试仪与EL测试仪:提升太阳能电池板性能的关键工具
红外热成像为光伏产业的健康发展保驾护航
杜鹃,乔木还是灌木?(探究杜鹃的植物学特征及分类)
土地证丢失怎么补办
农村土地使用证补办指南:流程、材料及注意事项
Aspen Adsorption在气体吸附过程模拟方面的应用
独家福利:教你三个秘诀,一眼看穿房子风水好坏(很实用)
中证A500与中证500六大维度对比:选样方法、行业分布、市值特征全解析
美海军"杜鲁门"号航母重新执行任务,此前与货船碰撞受损
什么是电池系统维护
地铁、大学、展演中心……东莞多个重点项目传来好消息!
怎样在网上缴纳异地的交通违章罚款
如何合法查看酒店监控录像
低空物流 | 低空经济背景下无人机的物流配送应用研究
看看汉朝有庙号的七位皇帝,你就知道含金量有多高?
单独一个眼睛眼眶疼想吐?可能是这些原因!
眼眶疼?可能是这些原因导致的
郑州二七广场:城市中心的商业与文化地标
何以中国·弦歌不辍|“和为贵”调解室的文化秘方
美国学校学费究竟是多少
营业执照变更经营范围所需材料全解析:合法合规经营必备指南
一位年轻教师的肺结节之路:是否做手术,要看5个方面,8mm是个坎
全国大学英语CET四、六级考试成绩查询官网入口
如何全面了解金融行业的客户需求?这些客户需求如何进行精准满足?
冯彬:从山东农村到奥运会夺银,书写励志传奇
兰州市水果市场迎来销售旺季 多种水果接踵上市价格亲民
佛像修补技巧分享:修复阿弥陀佛立像
枸杞大枣炖鸡有什么功效
民警现场执法的基本程序及其重要性