香港科技大学本次发布的数据集Image-Relation-Pair Dataset (IRPD),IRPD是由香港科技大学构建的多模态关系推理数据集,包含18类语义关系及1500余对主客体组合,涵盖文本与图像双模态。数据源自ConceptNet知识库,经GPT-4筛选后通过FLUX文本生成模型生成对应图像,并经过CLIP评分与人工校验确保质量。该数据集支持视觉语义算术任务,如两元减法(关系推理)和三元运算(类比推理),旨在提升大模型在非结构化环境(如家庭服务机器人)中的跨模态关系推理能力,解决工具替代、任务泛化等实际问题。





_1769672084863.jpg)