five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

印度理工学院 发布 Anveshana 数据集, 应用在 跨语言信息检索、梵文文献 领域

五号数据雷达开源数据市场2025-05-28 07:3820
Anveshana 是 印度理工学院 发布的数据集,于 2025-05-26 首发在 arXiv 应用于 跨语言信息检索、梵文文献 领域

印度理工学院 本次发布的数据集 Anveshana, Anveshana数据集是一个为英语查询和梵文文档之间的跨语言信息检索(CLIR)量身定制的基准数据集,重点关注《斯里马德·巴格瓦塔姆》的章节。该数据集包含3,400个英语-梵文查询-文档对,涵盖334个不同文档。数据集经过精心设计,以代表文本中的广泛主题内容和复杂性。梵文文档经过详细预处理,以保留其诗歌结构,同时适应计算分析;而英文查询的预处理则最小化,以保持其原始意图。该数据集旨在通过英语查询检索梵文文献,提高这些古代文本的获取性,并促进对梵文经典的理解和传播。数据集公开可用,旨在促进进一步的研究和发展。

查看Anveshana

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 印度理工学院 , 印度理工学院是印度的一个著名高等教育机构,以其高水平的教育质量和研究能力闻名于世,加尔各答分校是其多个校区之一。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们