five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

孟买印度理工学院发布Samasāmayik数据集,应用在机器翻译、数字人文领域

五号数据雷达开源数据市场2026-03-27 04:4613
Samasāmayik是孟买印度理工学院发布的数据集,于2026-03-25首发在arXiv应用于机器翻译、数字人文领域

孟买印度理工学院本次发布的数据集Samasāmayik,Samasāmayik是由孟买印度理工学院等机构联合构建的大规模印地语-梵语平行语料库,包含92,196条当代文本句对。数据集整合了儿童杂志《Chandamama》、电台节目《Mann Ki Baat》等四大来源的语料,通过专业团队进行句子对齐与质量校验。其显著特点是覆盖现代散文语境,与现有古典文本数据集形成互补,平均句长12.97词(印地语)和8.9词(梵语)。该资源为低资源印度语言机器翻译提供了重要基准,支持跨文化知识传播和数字人文研究。

查看Samasāmayik

关于孟买印度理工学院,孟买印度理工学院(Indian Institute of Technology Bombay,简称IIT Bombay)是印度顶尖的工程与技术高等教育机构之一,成立于1958年,位于印度孟买。该校以其在工程、科学和技术领域的卓越教育和研究而闻名,是印度理工学院系统中最重要的成员之一。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们