首页 / 开源数据市场 / 正文

加拿大的Vector Institute 发布 HumaniBench 数据集, 应用在人工智能模型评估、人工智能伦理领域

五号数据雷达开源数据市场2025-05-20 06:4825

HumaniBench 是加拿大的Vector Institute 发布的数据集,于 2025-05-17 首发在 arXiv 应用于人工智能模型评估、人工智能伦理领域

加拿大的Vector Institute 本次发布的数据集 HumaniBench, HumaniBench是一个包含32K真实世界图像-问题对的综合基准，通过可扩展的GPT-4o辅助流程进行注释，并由领域专家进行彻底验证。HumaniBench通过七个不同的任务探索了七个HCAI原则——公平性、道德、理解、推理、语言包容性、同理心和鲁棒性，这些任务包括开放式和封闭式视觉问答（VQA）、多语言QA、视觉定位、同理性标题和鲁棒性测试。对15个最先进的LMMs（开源和闭源）的基准测试表明，专有模型通常领先；然而，在鲁棒性和视觉定位方面仍存在一些差距，而一些开源模型在平衡准确性与遵守人类对齐原则（如道德和包容性）方面存在困难。HumaniBench是第一个围绕HCAI原则构建的基准。它提供了一个严格的测试平台，用于诊断对齐差距，并引导LMMs朝着既准确又负责任的社会行为发展。为了促进透明度和支持未来的研究，我们发布了数据集、注释提示和评估代码。

查看HumaniBench

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

加拿大的Vector Institute 发布 HumaniBench 数据集, 应用在 人工智能模型评估、人工智能伦理 领域

社区讨论

加拿大的Vector Institute 发布 HumaniBench 数据集, 应用在人工智能模型评估、人工智能伦理领域