密歇根大学发布Chumor 2.0:首个大规模中文幽默理解数据集
创作时间:
作者:
@小白创作中心
密歇根大学发布Chumor 2.0:首个大规模中文幽默理解数据集
引用
CSDN
1.
https://blog.csdn.net/weixin_46739757/article/details/145209016
密歇根大学研究团队最近发布了一个名为Chumor 2.0的中文幽默理解数据集,该数据集来源于中国知名幽默分享平台弱智吧。研究团队通过直接提示(DP)和链式思维提示(CoT)两种策略评估了10种不同LLMs的表现,并发现所有LLM在中文幽默理解任务上表现不佳,最佳准确率仅为60.3%,远低于人类的78.3%。
研究背景与意义
现有的幽默数据集和评估主要集中在英语上,为中文等非英语语言中的文化微妙幽默留下了有限的资源。为了解决这一差距,研究团队构建了Chumor,这是第一个超过现有幽默数据集大小的中国幽默解释数据集。
数据集构建与评估方法
Chumor数据集来源于弱智吧,一个类似Reddit的中国平台,以分享具有智力挑战性和文化特色的笑话而闻名。研究团队通过直接提示(DP)和链式思维提示(CoT)两种策略评估了10种不同LLMs的表现,并使用准确率、假阳性率(FPR)、假阴性率(FNR)和马修斯相关系数(MCC)等指标进行模型性能评估。
研究发现
- 所有LLM在中文幽默理解任务上表现不佳,最佳准确率仅为60.3%,远低于人类的78.3%。
- 链式思维提示(CoT)在某些情况下会降低模型性能,导致模型过度分析或过于批判。
- 人类注释的笑话解释显著优于GPT-4o和ERNIE 4-turbo生成的解释。
- LLM在文化特定笑话、双关笑话和同音笑话上表现较差,显示出对中文文化和语言理解的不足。
- GPT-4o在理解上下文或双关方面表现较好,但在文化无知和同音错误上表现较差;ERNIE 4-turbo在文化笑话上表现较好,但在其他类型笑话上表现较差。
结论
研究揭示了当前LLM在中文幽默理解方面的显著不足,特别是在文化特定笑话、双关笑话和同音笑话等方面。这一发现对于推动AI在中文语言处理领域的研究具有重要意义。
热门推荐
如何在银行办理信用卡新卡邮寄地址变更?
在Mac Numbers中使用数据分列功能的详细教程
办公沙发的功能性与美学:如何平衡实用与设计
如何制定高效的时间管理计划,让你的生活井井有条?
腕舟骨骨折的分型、诊治和 4 种手术步骤,看看你还有什么不懂的?
审判结果如何通知被告:法律规定与实践分析
早上跑步好处和坏处(每天都跑步会有害处吗)
旧床垫处理方法大全,小区不让扔怎么办?
多样本上下文学习:开拓大模型的新领域
工程采购固定总价合同:法律实务操作与风险防范
煤矸石变废为宝有新解
影响阅读速度的因素
轮胎龟裂的原因有哪些?如何预防和处理龟裂问题?
智能化适老化居住空间设计趋势:科技助力老年人独立生活
详解!调酒师:工作内容、考试内容、发展前景
中暑吃什么食物
胡辣汤“出息”了!短短一年就攻占北上广成为顶流?
炙甘草正确制作方法是什么
减脂与增肌:健身怎么刷脂又增肌
火星探测器"好奇号"发现纯硫晶体,或揭示火星生命线索
数据结构入门——06树
如何成为审核团队人员
A股市值指标函数有哪些?
港股百科:港股交易基础知识 – 配股、供股、发股息、停牌及退市
大车为什么要加尿素
996工作制好不好 为什么会有996工作制
刘伯承元帅的作战胜率为何较低?
国际古迹遗址日主题活动走进外滩 寻迹外滩背后的城市历史文脉
养老保险个人缴费基数的意义及其在保障体系中的作用
茶叶渣的全方位利用:超过20种家庭与生活小窍门