孟买印度理工学院本次发布的数据集Samasāmayik,Samasāmayik是由孟买印度理工学院等机构联合构建的大规模印地语-梵语平行语料库,包含92,196条当代文本句对。数据集整合了儿童杂志《Chandamama》、电台节目《Mann Ki Baat》等四大来源的语料,通过专业团队进行句子对齐与质量校验。其显著特点是覆盖现代散文语境,与现有古典文本数据集形成互补,平均句长12.97词(印地语)和8.9词(梵语)。该资源为低资源印度语言机器翻译提供了重要基准,支持跨文化知识传播和数字人文研究。
关于孟买印度理工学院,孟买印度理工学院(Indian Institute of Technology Bombay,简称IIT Bombay)是印度顶尖的工程与技术高等教育机构之一,成立于1958年,位于印度孟买。该校以其在工程、科学和技术领域的卓越教育和研究而闻名,是印度理工学院系统中最重要的成员之一。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)