问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

密歇根大学发布Chumor 2.0:首个大规模中文幽默理解数据集

创作时间:
作者:
@小白创作中心

密歇根大学发布Chumor 2.0:首个大规模中文幽默理解数据集

引用
CSDN
1.
https://blog.csdn.net/weixin_46739757/article/details/145209016

密歇根大学研究团队最近发布了一个名为Chumor 2.0的中文幽默理解数据集,该数据集来源于中国知名幽默分享平台弱智吧。研究团队通过直接提示(DP)和链式思维提示(CoT)两种策略评估了10种不同LLMs的表现,并发现所有LLM在中文幽默理解任务上表现不佳,最佳准确率仅为60.3%,远低于人类的78.3%。

研究背景与意义

现有的幽默数据集和评估主要集中在英语上,为中文等非英语语言中的文化微妙幽默留下了有限的资源。为了解决这一差距,研究团队构建了Chumor,这是第一个超过现有幽默数据集大小的中国幽默解释数据集。

数据集构建与评估方法

Chumor数据集来源于弱智吧,一个类似Reddit的中国平台,以分享具有智力挑战性和文化特色的笑话而闻名。研究团队通过直接提示(DP)和链式思维提示(CoT)两种策略评估了10种不同LLMs的表现,并使用准确率、假阳性率(FPR)、假阴性率(FNR)和马修斯相关系数(MCC)等指标进行模型性能评估。

研究发现

  • 所有LLM在中文幽默理解任务上表现不佳,最佳准确率仅为60.3%,远低于人类的78.3%。
  • 链式思维提示(CoT)在某些情况下会降低模型性能,导致模型过度分析或过于批判。
  • 人类注释的笑话解释显著优于GPT-4o和ERNIE 4-turbo生成的解释。
  • LLM在文化特定笑话、双关笑话和同音笑话上表现较差,显示出对中文文化和语言理解的不足。
  • GPT-4o在理解上下文或双关方面表现较好,但在文化无知和同音错误上表现较差;ERNIE 4-turbo在文化笑话上表现较好,但在其他类型笑话上表现较差。

结论

研究揭示了当前LLM在中文幽默理解方面的显著不足,特别是在文化特定笑话、双关笑话和同音笑话等方面。这一发现对于推动AI在中文语言处理领域的研究具有重要意义。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号