首页 / 开源数据市场 / 正文

胡志明国家大学发布全球首个主题感知干扰物定位基准数据集SADL 填补多模态模型评估空白

五号数据雷达开源数据市场2026-07-01 06:184

胡志明国家大学研究团队于2026年6月29日在学术预印本平台arXiv首发全球首个面向主题感知干扰物定位任务的真实世界基准数据集SADL，可为视觉语言模型组合推理能力评估、图像编辑自动化干扰识别提供标准化测试工具，助力多模态AI技术落地。

随着多模态大模型技术的快速迭代，视觉语言模型（VLMs）已成为支撑AIGC内容创作、智能安防感知、自动驾驶环境理解等多个场景的核心技术底座，但其在细分任务下的组合推理能力评估，长期缺乏标准化、覆盖真实场景的基准数据集，成为制约多模态AI技术落地的行业共性痛点。近日，胡志明国家大学研究团队正式发布SADL数据集，作为全球首个面向主题感知干扰物定位任务的真实世界基准数据集，其推出填补了该细分领域的基准数据空白。

胡志明国家大学本次推出的SADL数据集，由其研究团队历时多轮迭代打磨完成，规模与标注质量均达到行业领先水平：数据集共包含1,000张高分辨率图像、1,800个主题感知案例，累计标注14,617个候选对象，其中专门设置了1,938个与目标特征高度相似、极易被模型误判的硬负例样本，可有效测试模型的识别鲁棒性。数据集的基础样本均来自COCO、Winoground、Visual Genome和Open Images等全球公认的权威公开数据集，保证了样本的通用性与场景覆盖度。在标注流程上，研究团队采用「智能预标注+人工精细校验」的混合标注机制：首先通过智能代理完成初步标注框选，再由专业标注人员严格遵循五类包含因子、三类排除规则进行逐样本校验，最大化保障标注逻辑的一致性与数据质量，为后续模型评估结果的可靠性奠定基础。

作为面向计算机视觉与多模态推理领域的专用基准数据集，SADL的核心价值在于为视觉语言模型的主题感知干扰物识别能力提供标准化的评估框架，可系统量化模型的组合推理水平，也为图像编辑场景下的自动化干扰对象识别技术研发提供专用诊断工具。从应用场景来看，该数据集除了可用于视觉语言模型的能力评测与迭代训练外，还可支撑多个商业化场景的技术落地：在AIGC图像编辑领域，可帮助提升模型对用户指令的理解精度，精准识别需要保留的主题对象与需要删除的干扰元素，减少修图过程中的误删、漏删问题；在智能安防场景中，可助力训练针对性的识别模型，在特定监控规则下快速筛选出不符合主题要求的异常人员、物品，提升预警准确率；在自动驾驶、电商内容审核等领域，该数据集训练评估的模型也可有效提升特定主题下的干扰目标识别效率，降低人工干预成本。

从数据要素产业视角来看，高质量的AI训练与测试基准数据集是人工智能产业发展的核心公共基础设施，本次SADL数据集的发布，不仅填补了主题感知干扰物定位细分领域的基准空白，也为全球多模态AI领域的技术研发提供了统一的评估标尺，有助于推动不同厂商、不同架构的视觉语言模型能力的横向对比，加速多模态AI技术的商业化落地进程，也为后续同类专用基准数据集的标注流程设计、质量管控体系构建提供了可参考的实践样本。

查看SADL

详情页内容：

社区讨论

近期热门