问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

密歇根大学发布Chumor 2.0：首个大规模中文幽默理解数据集

创作时间:

作者:

@小白创作中心

密歇根大学发布Chumor 2.0：首个大规模中文幽默理解数据集

引用

CSDN

1.

https://blog.csdn.net/weixin_46739757/article/details/145209016

密歇根大学研究团队最近发布了一个名为Chumor 2.0的中文幽默理解数据集，该数据集来源于中国知名幽默分享平台弱智吧。研究团队通过直接提示（DP）和链式思维提示（CoT）两种策略评估了10种不同LLMs的表现，并发现所有LLM在中文幽默理解任务上表现不佳，最佳准确率仅为60.3%，远低于人类的78.3%。

研究背景与意义

现有的幽默数据集和评估主要集中在英语上，为中文等非英语语言中的文化微妙幽默留下了有限的资源。为了解决这一差距，研究团队构建了Chumor，这是第一个超过现有幽默数据集大小的中国幽默解释数据集。

数据集构建与评估方法

Chumor数据集来源于弱智吧，一个类似Reddit的中国平台，以分享具有智力挑战性和文化特色的笑话而闻名。研究团队通过直接提示（DP）和链式思维提示（CoT）两种策略评估了10种不同LLMs的表现，并使用准确率、假阳性率（FPR）、假阴性率（FNR）和马修斯相关系数（MCC）等指标进行模型性能评估。

研究发现

所有LLM在中文幽默理解任务上表现不佳，最佳准确率仅为60.3%，远低于人类的78.3%。
链式思维提示（CoT）在某些情况下会降低模型性能，导致模型过度分析或过于批判。
人类注释的笑话解释显著优于GPT-4o和ERNIE 4-turbo生成的解释。
LLM在文化特定笑话、双关笑话和同音笑话上表现较差，显示出对中文文化和语言理解的不足。
GPT-4o在理解上下文或双关方面表现较好，但在文化无知和同音错误上表现较差；ERNIE 4-turbo在文化笑话上表现较好，但在其他类型笑话上表现较差。

结论

研究揭示了当前LLM在中文幽默理解方面的显著不足，特别是在文化特定笑话、双关笑话和同音笑话等方面。这一发现对于推动AI在中文语言处理领域的研究具有重要意义。

热门推荐

常见的工业相机种类及选型方法

常见的工业相机种类及选型方法

光伏板测试仪与EL测试仪：提升太阳能电池板性能的关键工具

光伏板测试仪与EL测试仪：提升太阳能电池板性能的关键工具

红外热成像为光伏产业的健康发展保驾护航

红外热成像为光伏产业的健康发展保驾护航

杜鹃，乔木还是灌木？（探究杜鹃的植物学特征及分类）

杜鹃，乔木还是灌木？（探究杜鹃的植物学特征及分类）

土地证丢失怎么补办

土地证丢失怎么补办

农村土地使用证补办指南：流程、材料及注意事项

农村土地使用证补办指南：流程、材料及注意事项

Aspen Adsorption在气体吸附过程模拟方面的应用

Aspen Adsorption在气体吸附过程模拟方面的应用

独家福利：教你三个秘诀，一眼看穿房子风水好坏（很实用）

独家福利：教你三个秘诀，一眼看穿房子风水好坏（很实用）

中证A500与中证500六大维度对比：选样方法、行业分布、市值特征全解析

中证A500与中证500六大维度对比：选样方法、行业分布、市值特征全解析

美海军"杜鲁门"号航母重新执行任务，此前与货船碰撞受损

美海军"杜鲁门"号航母重新执行任务，此前与货船碰撞受损

什么是电池系统维护

什么是电池系统维护

地铁、大学、展演中心……东莞多个重点项目传来好消息！

地铁、大学、展演中心……东莞多个重点项目传来好消息！

怎样在网上缴纳异地的交通违章罚款

怎样在网上缴纳异地的交通违章罚款

如何合法查看酒店监控录像

如何合法查看酒店监控录像

低空物流 | 低空经济背景下无人机的物流配送应用研究

低空物流 | 低空经济背景下无人机的物流配送应用研究

看看汉朝有庙号的七位皇帝，你就知道含金量有多高？

看看汉朝有庙号的七位皇帝，你就知道含金量有多高？

单独一个眼睛眼眶疼想吐？可能是这些原因！

单独一个眼睛眼眶疼想吐？可能是这些原因！

眼眶疼？可能是这些原因导致的

眼眶疼？可能是这些原因导致的

郑州二七广场：城市中心的商业与文化地标

郑州二七广场：城市中心的商业与文化地标

何以中国·弦歌不辍｜“和为贵”调解室的文化秘方

何以中国·弦歌不辍｜“和为贵”调解室的文化秘方

美国学校学费究竟是多少

美国学校学费究竟是多少

营业执照变更经营范围所需材料全解析：合法合规经营必备指南

营业执照变更经营范围所需材料全解析：合法合规经营必备指南

一位年轻教师的肺结节之路：是否做手术，要看5个方面，8mm是个坎

一位年轻教师的肺结节之路：是否做手术，要看5个方面，8mm是个坎

全国大学英语CET四、六级考试成绩查询官网入口

全国大学英语CET四、六级考试成绩查询官网入口

如何全面了解金融行业的客户需求？这些客户需求如何进行精准满足？

如何全面了解金融行业的客户需求？这些客户需求如何进行精准满足？

冯彬：从山东农村到奥运会夺银，书写励志传奇

冯彬：从山东农村到奥运会夺银，书写励志传奇

兰州市水果市场迎来销售旺季多种水果接踵上市价格亲民

兰州市水果市场迎来销售旺季多种水果接踵上市价格亲民

佛像修补技巧分享：修复阿弥陀佛立像

佛像修补技巧分享：修复阿弥陀佛立像

枸杞大枣炖鸡有什么功效

枸杞大枣炖鸡有什么功效

民警现场执法的基本程序及其重要性

民警现场执法的基本程序及其重要性

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号