随着多模态大模型技术的快速落地,组合图像检索(CIR)作为实现“图像+文本”跨模态交互的核心技术,已成为时尚电商、智能搜索、内容推荐等多个领域的刚需应用。但长期以来,该领域的公开训练数据集普遍存在实体覆盖范围有限、文本描述与实体属性错位等问题,直接制约了CIR模型在复杂多修改需求场景下的性能表现,优质训练数据供给不足已成为行业共性痛点。
2026年4月24日,山东大学联合香港理工大学等机构研发的M-FashionIQ、M-CIRR两大多模态修改数据集正式在arXiv首发,为解决上述痛点提供了新的解决方案。
据介绍,本次发布的两大数据集是对现有主流FashionIQ、CIRR数据集的定向扩展,创新采用“多模态大语言模型(MLLM)生成多修改文本(MMT)+人工全量验证”的构建模式,既提升了数据的场景复杂度,也通过自动标注与人工审核的双重校验机制,确保了数据集的标注质量与实用价值,可直接用于复杂多修改场景下的CIR模型训练与效果评估。
两大数据集各有明确的场景定位:其中M-FashionIQ聚焦时尚垂直领域,全面覆盖服装的形状、颜色、材质、风格等多维度细粒度属性,针对性适配时尚图像检索的训练需求;M-CIRR则属于开放域通用数据集,重点强化多对象的细粒度描述能力,可支撑全场景多模态组合图像检索模型的研发。
从应用价值来看,M-FashionIQ未来可广泛应用于时尚电商智能搜款、服装供应链智能选品、时尚趋势AI分析等场景:消费者上传心仪服装图片后,可通过文字补充修改需求(如“换成长款、调整为米白色、换成亚麻材质”等组合条件),基于该数据集训练的检索模型可大幅提升匹配准确率,降低用户搜索成本的同时提升电商平台转化率。而M-CIRR作为开放域数据集,可应用于通用搜索引擎多模态搜索、智能安防跨模态目标检索、内容平台智能素材匹配、智能家居视觉交互等多个场景,有效提升复杂多条件组合下的检索精度。
当前,高质量AI训练数据已成为人工智能产业发展的核心生产要素,本次两大数据集的发布,不仅填补了组合图像检索领域的优质数据供给空白,其“大模型生成+人工校验”的数据集构建模式,也为行业高质量数据生产提供了可参考的范式,将进一步推动多模态交互技术在各垂直产业的落地,助力数字经济与实体经济的深度融合。
首页 / 开源数据市场 / 正文
山东大学联合港理工首发M-FashionIQ、M-CIRR数据集 破解多模态组合图像检索训练数据痛点
五号数据雷达开源数据市场2026-04-25 04:5212
2026年4月24日,山东大学联合香港理工大学等机构在arXiv首发M-FashionIQ、M-CIRR两大多模态修改数据集,可针对性解决当前组合图像检索(CIR)任务中普遍存在的实体覆盖不足、子句-实体错位等共性问题,为时尚产业数字化、通用多模态检索模型研发提供高质量数据支撑。

社区讨论
近期热门




_1769672084863.jpg)