five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

印度理工学院帕特纳分校 发布 SANSKRITI 数据集, 应用在 印度文化、语言模型评估 领域

五号数据雷达开源数据市场2025-06-22 07:4822
SANSKRITI 是 印度理工学院帕特纳分校 发布的数据集,于 2025-06-18 首发在 arXiv 应用于 印度文化、语言模型评估 领域

印度理工学院帕特纳分校 本次发布的数据集 SANSKRITI, SANSKRITI是一个全面的文化基准数据集,旨在评估语言模型对印度丰富文化多样性的理解能力。该数据集包含21,853个精心策划的问答对,涵盖28个州和8个联邦属地,是测试印度文化知识最大的数据集。它覆盖了印度文化的16个关键属性,包括仪式和庆典、历史、旅游、美食、舞蹈和音乐、服装、语言、艺术、节日、宗教、医药、交通、体育、夜生活和名人,全面展现了印度的文化图景。通过提供广泛、丰富和多样化的数据集,SANSKRITI为评估和改进语言模型的文化理解能力设定了新的标准。

查看SANSKRITI

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们