首页 / 开源数据市场 / 正文

Language and Intelligent Technology Competition 发布 Chinese Event Extraction Dataset (DuEE 1.0) 数据集, 应用在自然语言处理、事件抽取领域

五号数据雷达开源数据市场2025-10-06 10:3117

Chinese Event Extraction Dataset (DuEE 1.0) 是 Language and Intelligent Technology Competition 发布的数据集,于 2025-10-06 首发在 arXiv 应用于自然语言处理、事件抽取领域

Language and Intelligent Technology Competition 本次发布的数据集 Chinese Event Extraction Dataset (DuEE 1.0), 该数据集名为DuEE1.0，精选自百度热搜榜单，反映了大多数中国人的多样化兴趣。它包含了65个预定义的事件类型，分为训练集（12000句）、开发集（1500句）以及两个测试集（共3500句），总计17000句。在进行实验之前，该数据集需要使用斯坦福NLP工具进行预处理，包括命名实体识别（NER）、词性标注（POS）和依存句法分析（DP）。规模上，数据集包含了17000句话语（其中12000句用于训练，1500句用于开发，3500句用于测试），任务目标是事件抽取。

查看Chinese Event Extraction Dataset (DuEE 1.0)

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

Language and Intelligent Technology Competition 发布 Chinese Event Extraction Dataset (DuEE 1.0) 数据集, 应用在 自然语言处理、事件抽取 领域

社区讨论

Language and Intelligent Technology Competition 发布 Chinese Event Extraction Dataset (DuEE 1.0) 数据集, 应用在自然语言处理、事件抽取领域