库尔纳工程技术大学本次发布的数据集BiST,BiST是由库尔纳工程技术大学与肯尼索州立大学联合构建的首个孟加拉语-英语双语语法标注语料库,包含30,534条句子(英语17,465条,孟加拉语13,069条),数据来源于维基百科和日常对话文本。该数据集通过多阶段预处理和三位独立标注者的维度级Fleiss’ Kappa一致性验证(结构标注κ=0.82,时态标注κ=0.88),标注了句法结构(简单/复合/复杂/复杂复合句)和时态(现在/过去/将来)双维度信息。其核心应用涵盖语法建模、跨语言表示学习及教育NLP系统开发,旨在解决低资源语言场景下双语语法标注数据匮乏的问题。
README内容:
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)