首页 / 开源数据市场 / 正文

赫尔辛基大学发布annotated dataset数据集，应用在讽刺文本生成、计算幽默领域

五号数据雷达开源数据市场2026-05-13 04:4312

annotated dataset是赫尔辛基大学发布的数据集，于2026-05-12首发在arXiv应用于讽刺文本生成、计算幽默领域

赫尔辛基大学本次发布的数据集annotated dataset，该数据集由赫尔辛基大学研究团队创建，旨在支持基于检索增强生成的接地讽刺内容研究。数据集包含100条人工标注的讽刺性词典定义，每条定义均基于芬兰广播公司Yle的英文新闻内容生成，并由六位标注者从幽默性和政治相关性维度进行评分。数据通过自动化流程采集，包括网络爬取、时间戳过滤、情感分析和主题建模，最终利用RAG框架生成定义。该数据集主要应用于自然语言生成和计算幽默领域，用于评估模型在特定文化背景下生成具有政治意义的讽刺内容的能力，并探索LLM作为评估工具的可靠性。

查看annotated dataset

详情页内容：

社区讨论

近期热门