随着大型视觉语言模型(LVLM)在自动驾驶、医疗影像辅助诊断、智能内容生成、政务智能审核等多个垂直场景的加速落地,其长期存在的“幻觉”问题正成为制约产业规模化应用的核心瓶颈——LVLM往往会过度依赖预训练阶段形成的语言先验,忽略实际输入的视觉证据,生成与图像内容不符的错误结论,甚至在高风险场景引发安全事故。针对这一行业共性难题,索邦大学本次发布的数据集HalluScope,是由索邦大学与Valeo.ai联合开发的多模态诊断基准数据集,旨在系统分析大型视觉语言模型(LVLM)中幻觉现象的产生根源。
该数据集包含从COCO图像库精选的3,000张覆盖多场景语义的多样性样本,为每张图像标注有实际存在物体、随机不存在物体及对抗性不存在物体三类对象,最大程度还原了LVLM在实际应用中可能遇到的各类幻觉触发场景;评估维度上,数据集设置了正向识别、随机识别、对抗识别及对抗预设属性四类问题,可从不同维度量化模型的幻觉发生概率,精准定位模型的技术缺陷。数据构建采用两阶段人工验证流程结合对象共现图分析,重点关注文本指令先验与视觉证据的冲突场景,保障了评估结果的严谨性与可信度。
作为面向LVLM幻觉诊断的专用基准数据集,HalluScope的核心应用覆盖多模态AI全生命周期的可靠性验证环节:在模型研发阶段,AI厂商可通过该数据集快速定位幻觉产生的技术根源,针对性优化模型的视觉-语言对齐能力,降低幻觉发生概率;在模型落地前的合规验证阶段,企业可依托该数据集的评估框架完成高风险场景的可靠性测试,避免模型上线后因幻觉问题引发安全风险。从具体落地领域来看,其评估逻辑可适配自动驾驶多模态感知、医疗影像智能解读、电商图文一致性校验等多个对AI输出准确性要求极高的垂直场景,为多模态AI的落地筑牢安全防线。当前全球数据要素市场正处于高速发展期,面向大模型研发的垂直基准数据集是支撑AI技术迭代的核心生产资料,HalluScope的发布填补了多模态幻觉评估领域的工具空白,不仅为LVLM的技术迭代提供了核心支撑,也为后续多模态AI的行业标准制定、可靠性认证体系建设提供了重要的参考依据,对推动多模态AI产业的健康、规模化发展具有重要意义。
首页 / 开源数据市场 / 正文
索邦大学联合Valeo.ai发布HalluScope基准数据集 破解多模态AI幻觉诊断核心痛点
五号数据雷达开源数据市场2026-04-25 04:4715
2026年4月24日,法国索邦大学联合人工智能研究机构Valeo.ai研发的多模态诊断基准数据集HalluScope首发于预印本平台arXiv,该数据集专门针对大型视觉语言模型的幻觉现象设计,为多模态AI可靠性验证提供标准化评估工具,支撑高风险场景下的多模态AI落地。

社区讨论
近期热门




_1769672084863.jpg)