法国国家信息与自动化研究所 本次发布的数据集 Fashion Automatic Caption (FACap), FACap 是一个大规模的时尚领域图像检索数据集,包含超过 227,680 个图像对和对应的修改文本,旨在解决现有时尚领域图像检索数据集规模小、标注质量低的问题。该数据集利用网络来源的时尚图像,并采用两阶段标注流程,通过视觉语言模型和大型语言模型生成准确详细的修改文本。FACap 的创建过程首先使用视觉语言模型对原始网络图像进行标注,然后利用大型语言模型分析参考图像和目标图像之间的差异,生成简洁准确的修改文本。该数据集的应用领域包括电子商务网站、时尚搜索任务等,旨在解决用户在搜索时尚产品时,需要对产品进行具体修改的问题,例如颜色、款式或特征等。
查看Fashion Automatic Caption (FACap)
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)