印度理工学院帕特纳分校 本次发布的数据集 SANSKRITI, SANSKRITI是一个全面的文化基准数据集,旨在评估语言模型对印度丰富文化多样性的理解能力。该数据集包含21,853个精心策划的问答对,涵盖28个州和8个联邦属地,是测试印度文化知识最大的数据集。它覆盖了印度文化的16个关键属性,包括仪式和庆典、历史、旅游、美食、舞蹈和音乐、服装、语言、艺术、节日、宗教、医药、交通、体育、夜生活和名人,全面展现了印度的文化图景。通过提供广泛、丰富和多样化的数据集,SANSKRITI为评估和改进语言模型的文化理解能力设定了新的标准。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)