首页 / 开源数据市场 / 正文

发布 DisSent Sentence Pair Dataset 数据集, 应用在自然语言处理、语篇分析领域

五号数据雷达开源数据市场2025-10-02 22:0418

DisSent Sentence Pair Dataset 是发布的数据集,于 2025-10-02 首发在 arXiv 应用于自然语言处理、语篇分析领域

本次发布的数据集 DisSent Sentence Pair Dataset, 该数据集包含了经过精心筛选的470万6292对句子，这些句子通过15个语篇标记词相互关联，是通过依赖性分析和明确的语篇关系提取出来的。数据集被划分为训练集、验证集和测试集，比例分别为0.9、0.05和0.05，尽管数据集不平衡，但这样的划分仍有助于学习较为罕见的类别。该数据集的规模达到了470万6292对句子，其任务是基于语篇标记词学习句子表征，并预测句子之间的关系。

查看DisSent Sentence Pair Dataset

README 内容：

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

发布 DisSent Sentence Pair Dataset 数据集, 应用在 自然语言处理、语篇分析 领域

README 内容：

社区讨论

发布 DisSent Sentence Pair Dataset 数据集, 应用在自然语言处理、语篇分析领域