five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

SemEval-2020 Task Organisers 发布 SemEval-2020 Task 5 Dataset 数据集, 应用在 自然语言处理、机器学习 领域

五号数据雷达开源数据市场2025-10-04 07:3620
SemEval-2020 Task 5 Dataset 是 SemEval-2020 Task Organisers 发布的数据集,于 2025-10-04 首发在 arXiv 应用于 自然语言处理、机器学习 领域

SemEval-2020 Task Organisers 本次发布的数据集 SemEval-2020 Task 5 Dataset, 该数据集包含了一种称为反事实的文本表达,这些表达描述了未曾发生或可能不会发生的事件。数据集在子任务1上的负样本与正样本的比例高达88:12,为了解决这一高度不平衡的问题,研究尝试了多种方法,包括过采样、SMOTE算法、欠采样以及加权交叉熵损失。具体规模上,子任务1拥有13,000个示例,子任务2有3,500个示例;而在测试集方面,子任务1有7,000个句子,子任务2有1,950个句子。该数据集的任务是检测反事实陈述,并将其解析为前提和结果。

查看SemEval-2020 Task 5 Dataset

README 内容: 

 

关于 SemEval-2020 Task Organisers , -

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们