five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

CoAStaL NLP Group 发布 tydi_xor_rc 数据集, 应用在 多语言阅读理解、无法回答的问题 领域

五号数据雷达开源数据市场2024-12-13 08:1723
tydi_xor_rc 是 CoAStaL NLP Group 发布的数据集,于 2024-07-25 首发在 HuggingFace 应用于 多语言阅读理解、无法回答的问题 领域

CoAStaL NLP Group 本次发布的数据集 tydi_xor_rc, 数据集 tydi_xor_rc 是 XORQA 阅读理解数据和 XOR-AttriQA 英语数据的合并和简化版本。它是原始 TyDi QA 数据集的扩展,涵盖了 11 种类型多样的语言。XORQA 特别包括了无法回答的问题,其中上下文文档仅用英语,但问题可以用 7 种语言提出。该数据集包含训练集和验证集,分别有 15445 和 3646 个样本。数据集的列包括 lang(问题的语言)、question、context(英语的维基百科段落)、answertable(布尔值,表示问题是否可以回答)、answer_start(答案开始的索引,如果无法回答则为 -1)、answer(英语答案)和 answer_inlang(如果可用,则与问题相同语言的答案)。

查看tydi_xor_rc

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 CoAStaL NLP Group , CoAStaL NLP Group是一个专注于自然语言处理(NLP)研究的组织,致力于开发和应用先进的NLP技术,以解决语言处理中的挑战并推动相关领域的发展。

关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们