five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

发布 DisSent Sentence Pair Dataset 数据集, 应用在 自然语言处理、语篇分析 领域

五号数据雷达开源数据市场2025-10-02 22:0418
DisSent Sentence Pair Dataset 是 发布的数据集,于 2025-10-02 首发在 arXiv 应用于 自然语言处理、语篇分析 领域

本次发布的数据集 DisSent Sentence Pair Dataset, 该数据集包含了经过精心筛选的470万6292对句子,这些句子通过15个语篇标记词相互关联,是通过依赖性分析和明确的语篇关系提取出来的。数据集被划分为训练集、验证集和测试集,比例分别为0.9、0.05和0.05,尽管数据集不平衡,但这样的划分仍有助于学习较为罕见的类别。该数据集的规模达到了470万6292对句子,其任务是基于语篇标记词学习句子表征,并预测句子之间的关系。

查看DisSent Sentence Pair Dataset

README 内容: 

 

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们