首页 / 开源数据市场 / 正文

印度理工学院帕特纳分校发布 SANSKRITI 数据集, 应用在印度文化、语言模型评估领域

五号数据雷达开源数据市场2025-06-22 07:4822

SANSKRITI 是印度理工学院帕特纳分校发布的数据集,于 2025-06-18 首发在 arXiv 应用于印度文化、语言模型评估领域

印度理工学院帕特纳分校本次发布的数据集 SANSKRITI, SANSKRITI是一个全面的文化基准数据集，旨在评估语言模型对印度丰富文化多样性的理解能力。该数据集包含21,853个精心策划的问答对，涵盖28个州和8个联邦属地，是测试印度文化知识最大的数据集。它覆盖了印度文化的16个关键属性，包括仪式和庆典、历史、旅游、美食、舞蹈和音乐、服装、语言、艺术、节日、宗教、医药、交通、体育、夜生活和名人，全面展现了印度的文化图景。通过提供广泛、丰富和多样化的数据集，SANSKRITI为评估和改进语言模型的文化理解能力设定了新的标准。

查看SANSKRITI

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

印度理工学院帕特纳分校 发布 SANSKRITI 数据集, 应用在 印度文化、语言模型评估 领域

社区讨论

印度理工学院帕特纳分校发布 SANSKRITI 数据集, 应用在印度文化、语言模型评估领域