加州理工学院本次发布的数据集TWIN,TWIN是由加州理工学院团队构建的大规模视觉问答数据集,包含56.1万对家居物品图像对比查询,旨在提升视觉语言模型对细粒度视觉差异的感知能力。数据集涵盖1,836个物体实例的22,157张图像,通过人工标注和DreamBooth生成技术构建正负样本对,重点关注形状、纹理等细微特征差异。该数据集主要应用于增强模型在机器人交互、零售产品识别等需要精细视觉理解的场景中的表现,通过对比学习机制解决现有模型忽视细节差异的核心问题。
关于加州理工学院,加州理工学院(Caltech)是一所位于美国加利福尼亚州帕萨迪纳的私立研究型大学,以其在科学和工程领域的卓越研究和创新而闻名于世。
关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)