Ant Group 本次发布的数据集 multi-task IAD dataset, 本文提出了一种名为EMIT的框架,通过困难感知的组相对策略优化(GRPO)来增强多模态大型语言模型(MLLMs)在工业异常检测(IAD)中的表现。EMIT构建了一个多任务IAD数据集,并利用GPT生成的对象文本描述来补偿缺失的缺陷图像。对于少样本异常检测,它集成了软提示和热图引导的对比嵌入,这些嵌入来自图像块级别的比较。为了更好地处理困难的数据样本,即MLLM难以生成正确答案的情况,本文提出了一种困难感知的GRPO,通过引入响应重采样策略和优势重新加权机制来确保在采样的响应中包含正确答案并加强从困难数据样本中的学习。在MMAD基准上的广泛实验表明,EMIT显著增强了MLLMs的IAD性能,与基础模型(InternVL3-8B)相比,在七个任务上平均提高了7.77%。
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)