CoAStaL NLP Group 本次发布的数据集 tydi_xor_rc, 数据集 tydi_xor_rc 是 XORQA 阅读理解数据和 XOR-AttriQA 英语数据的合并和简化版本。它是原始 TyDi QA 数据集的扩展,涵盖了 11 种类型多样的语言。XORQA 特别包括了无法回答的问题,其中上下文文档仅用英语,但问题可以用 7 种语言提出。该数据集包含训练集和验证集,分别有 15445 和 3646 个样本。数据集的列包括 lang(问题的语言)、question、context(英语的维基百科段落)、answertable(布尔值,表示问题是否可以回答)、answer_start(答案开始的索引,如果无法回答则为 -1)、answer(英语答案)和 answer_inlang(如果可用,则与问题相同语言的答案)。
Dataset card 内容:
Files and versions 内容:
关于 CoAStaL NLP Group , CoAStaL NLP Group是一个专注于自然语言处理(NLP)研究的组织,致力于开发和应用先进的NLP技术,以解决语言处理中的挑战并推动相关领域的发展。
关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)