Chumor 1.0 - 来自“弱智吧”的中文幽默理解数据集|中文幽默理解数据集|语言模型挑战数据集

Chumor 1.0 - 来自“弱智吧”的中文幽默理解数据集

github2024-06-18 更新2024-06-20 收录12330

中文幽默理解

语言模型挑战

资源简介：

Chumor 1.0由密歇根大学、卡内基梅隆大学和上海交通大学联合构建，是一个专注于中文幽默理解的数据集。该数据集从中国版Reddit平台“弱智吧”（RZB）收集而来，包含2018至2021年间的年度最佳帖子和版主推荐内容。Chumor的特点是，它不仅包含了笑话本身，还为每个笑话提供了手动注释的解释，这有助于深入理解笑话背后的文化和智力因素。Chumor 1.0拥有1951个笑话的注释，平均每则笑话的解释长度为78个中文字符，总字符数达到151,730，堪比一部中篇小说的规模。Chumor数据集对现有的最先进大型语言模型（LLMs）提出了挑战，实验评估表明，即使是最先进的LLMs在解释Chumor中的笑话时也存在困难，而人类提供的解释在质量上明显优于机器生成的解释。该数据集的发布，为研究者提供了一个挑战性的中文幽默理解资源，有助于推动多语言LLMs的发展和文化理解能力的增强。

原始地址：

立即探测

提供机构：

密歇根大学、卡内基梅隆大学和上海交通大学

创建时间：

2024-06-18