five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】Chumor 1.0 - 来自“弱智吧”的中文幽默理解数据集

五号雷达开源数据市场2024-06-21 14:47181
该数据集的发布,为研究者提供了一个挑战性的中文幽默理解资源,有助于推动多语言LLMs的发展和文化理解能力的增强。

Chumor 1.0由密歇根大学、卡内基梅隆大学和上海交通大学联合构建,是一个专注于中文幽默理解的数据集。该数据集从中国版Reddit平台“弱智吧”(RZB)收集而来,包含2018至2021年间的年度最佳帖子和版主推荐内容。Chumor的特点是,它不仅包含了笑话本身,还为每个笑话提供了手动注释的解释,这有助于深入理解笑话背后的文化和智力因素。Chumor 1.0拥有1951个笑话的注释,平均每则笑话的解释长度为78个中文字符,总字符数达到151,730,堪比一部中篇小说的规模。Chumor数据集对现有的最先进大型语言模型(LLMs)提出了挑战,实验评估表明,即使是最先进的LLMs在解释Chumor中的笑话时也存在困难,而人类提供的解释在质量上明显优于机器生成的解释。该数据集的发布,为研究者提供了一个挑战性的中文幽默理解资源,有助于推动多语言LLMs的发展和文化理解能力的增强。

详情请参见五号雷达:https://www.5radar.com/dataset?id=8a3821a7c7b2c53ea4a0b3011a445519

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们