five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

印度理工学院孟买分校 发布 BharatBBQ 数据集, 应用在 自然语言处理、偏见评估 领域

五号数据雷达开源数据市场2025-08-13 13:1323
BharatBBQ 是 印度理工学院孟买分校 发布的数据集,于 2025-08-10 首发在 arXiv 应用于 自然语言处理、偏见评估 领域

印度理工学院孟买分校 本次发布的数据集 BharatBBQ, BharatBBQ是一个针对印度多元语言和文化背景设计的多语言偏见评估基准数据集,旨在评估大型语言模型在印度社会文化场景中的社会偏见。该数据集包含13个社会类别,涵盖3个交叉群体,反映印度社会文化景观中普遍存在的偏见。数据集包含49,108个单语言示例,通过翻译和验证扩展到8种不同语言中的392,864个示例。数据集采用问答框架,通过构建包含模糊和清晰上下文的问答模板,来评估模型在不同社会类别和语言中的偏见程度。BharatBBQ数据集的创建过程包括文化适应、目标群体修改、新模板创建等步骤,确保数据集与印度社会文化背景相符,能够更全面地评估多语言模型中的社会偏见。该数据集的应用领域是评估和缓解大型语言模型中的社会偏见,旨在解决印度多语言社会中存在的文化差异和社会不平等问题。

查看BharatBBQ

README 内容: 

 

关于 印度理工学院孟买分校 , 印度理工学院孟买分校是印度顶尖的工程学院之一,以其在工程、科技和管理领域的卓越教育和研究而闻名。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们