five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

库尔纳工程技术大学发布BiST数据集,应用在双语语法标注、自然语言处理领域

五号数据雷达开源数据市场2026-04-07 13:4723
BiST是库尔纳工程技术大学发布的数据集,于2026-04-06首发在arXiv应用于双语语法标注、自然语言处理领域

库尔纳工程技术大学本次发布的数据集BiST,BiST是由库尔纳工程技术大学与肯尼索州立大学联合构建的首个孟加拉语-英语双语语法标注语料库,包含30,534条句子(英语17,465条,孟加拉语13,069条),数据来源于维基百科和日常对话文本。该数据集通过多阶段预处理和三位独立标注者的维度级Fleiss’ Kappa一致性验证(结构标注κ=0.82,时态标注κ=0.88),标注了句法结构(简单/复合/复杂/复杂复合句)和时态(现在/过去/将来)双维度信息。其核心应用涵盖语法建模、跨语言表示学习及教育NLP系统开发,旨在解决低资源语言场景下双语语法标注数据匮乏的问题。

查看BiST

README内容:

 

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们