印度理工学院 本次发布的数据集 Anveshana, Anveshana数据集是一个为英语查询和梵文文档之间的跨语言信息检索(CLIR)量身定制的基准数据集,重点关注《斯里马德·巴格瓦塔姆》的章节。该数据集包含3,400个英语-梵文查询-文档对,涵盖334个不同文档。数据集经过精心设计,以代表文本中的广泛主题内容和复杂性。梵文文档经过详细预处理,以保留其诗歌结构,同时适应计算分析;而英文查询的预处理则最小化,以保持其原始意图。该数据集旨在通过英语查询检索梵文文献,提高这些古代文本的获取性,并促进对梵文经典的理解和传播。数据集公开可用,旨在促进进一步的研究和发展。
Dataset card 内容:
Files and versions 内容:
关于 印度理工学院 , 印度理工学院是印度的一个著名高等教育机构,以其高水平的教育质量和研究能力闻名于世,加尔各答分校是其多个校区之一。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)