five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

加州理工学院发布TWIN数据集,应用在视觉问答、细粒度视觉识别领域

五号数据雷达开源数据市场2025-12-31 19:1766
TWIN是加州理工学院发布的数据集,于2025-12-30首发在arXiv应用于视觉问答、细粒度视觉识别领域

加州理工学院本次发布的数据集TWIN,TWIN是由加州理工学院团队构建的大规模视觉问答数据集,包含56.1万对家居物品图像对比查询,旨在提升视觉语言模型对细粒度视觉差异的感知能力。数据集涵盖1,836个物体实例的22,157张图像,通过人工标注和DreamBooth生成技术构建正负样本对,重点关注形状、纹理等细微特征差异。该数据集主要应用于增强模型在机器人交互、零售产品识别等需要精细视觉理解的场景中的表现,通过对比学习机制解决现有模型忽视细节差异的核心问题。

查看TWIN

关于加州理工学院,加州理工学院(Caltech)是一所位于美国加利福尼亚州帕萨迪纳的私立研究型大学,以其在科学和工程领域的卓越研究和创新而闻名于世。

关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们