five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

加拿大的Vector Institute 发布 HumaniBench 数据集, 应用在 人工智能模型评估、人工智能伦理 领域

五号数据雷达开源数据市场2025-05-20 06:4825
HumaniBench 是 加拿大的Vector Institute 发布的数据集,于 2025-05-17 首发在 arXiv 应用于 人工智能模型评估、人工智能伦理 领域

加拿大的Vector Institute 本次发布的数据集 HumaniBench, HumaniBench是一个包含32K真实世界图像-问题对的综合基准,通过可扩展的GPT-4o辅助流程进行注释,并由领域专家进行彻底验证。HumaniBench通过七个不同的任务探索了七个HCAI原则——公平性、道德、理解、推理、语言包容性、同理心和鲁棒性,这些任务包括开放式和封闭式视觉问答(VQA)、多语言QA、视觉定位、同理性标题和鲁棒性测试。对15个最先进的LMMs(开源和闭源)的基准测试表明,专有模型通常领先;然而,在鲁棒性和视觉定位方面仍存在一些差距,而一些开源模型在平衡准确性与遵守人类对齐原则(如道德和包容性)方面存在困难。HumaniBench是第一个围绕HCAI原则构建的基准。它提供了一个严格的测试平台,用于诊断对齐差距,并引导LMMs朝着既准确又负责任的社会行为发展。为了促进透明度和支持未来的研究,我们发布了数据集、注释提示和评估代码。

查看HumaniBench

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们