首页 / 开源数据市场 / 正文

威斯康星大学麦迪逊分校发布 New Yorker Caption Contest Dataset 数据集, 应用在幽默生成、语言模型领域

五号数据雷达开源数据市场2024-10-13 08:1771

New Yorker Caption Contest Dataset 是威斯康星大学麦迪逊分校发布的数据集,于 2024-06-15 首发在 arXiv 应用于幽默生成、语言模型领域

威斯康星大学麦迪逊分校本次发布的数据集 New Yorker Caption Contest Dataset, 本数据集名为‘New Yorker Caption Contest Dataset’，由威斯康星大学麦迪逊分校创建，包含超过250万条来自《纽约客》每周漫画标题竞赛的人类评分数据。数据集涵盖了过去八年的竞赛内容，总计超过2.5亿次人类评价。创建过程中，通过众包方式收集评分，使用多臂老虎机算法优化展示效果。该数据集主要用于支持大型语言模型和基于偏好的微调算法的发展，特别是在幽默标题生成领域的应用。

查看New Yorker Caption Contest Dataset

Dataset card 内容：

Files and versions 内容：

关于威斯康星大学麦迪逊分校 , 威斯康星大学麦迪逊分校是一所位于美国威斯康星州麦迪逊市的公立研究型大学，以其卓越的学术研究和教育质量闻名于世。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

威斯康星大学麦迪逊分校 发布 New Yorker Caption Contest Dataset 数据集, 应用在 幽默生成、语言模型 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

威斯康星大学麦迪逊分校发布 New Yorker Caption Contest Dataset 数据集, 应用在幽默生成、语言模型领域