首页 / 开源数据市场 / 正文

SemEval-2020 Task Organisers 发布 SemEval-2020 Task 5 Dataset 数据集, 应用在自然语言处理、机器学习领域

五号数据雷达开源数据市场2025-10-04 07:3620

SemEval-2020 Task 5 Dataset 是 SemEval-2020 Task Organisers 发布的数据集,于 2025-10-04 首发在 arXiv 应用于自然语言处理、机器学习领域

SemEval-2020 Task Organisers 本次发布的数据集 SemEval-2020 Task 5 Dataset, 该数据集包含了一种称为反事实的文本表达，这些表达描述了未曾发生或可能不会发生的事件。数据集在子任务1上的负样本与正样本的比例高达88:12，为了解决这一高度不平衡的问题，研究尝试了多种方法，包括过采样、SMOTE算法、欠采样以及加权交叉熵损失。具体规模上，子任务1拥有13,000个示例，子任务2有3,500个示例；而在测试集方面，子任务1有7,000个句子，子任务2有1,950个句子。该数据集的任务是检测反事实陈述，并将其解析为前提和结果。

查看SemEval-2020 Task 5 Dataset

README 内容：

关于 SemEval-2020 Task Organisers , -

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

SemEval-2020 Task Organisers 发布 SemEval-2020 Task 5 Dataset 数据集, 应用在 自然语言处理、机器学习 领域

README 内容：

社区讨论

SemEval-2020 Task Organisers 发布 SemEval-2020 Task 5 Dataset 数据集, 应用在自然语言处理、机器学习领域