five
五号数据雷达
资产融资
资源入表
产品交易
知识产权
首页 / 开源数据市场 / 正文

浙江大学 发布 ROVI 数据集, 应用在 文本到图像生成、视觉识别 领域

五号数据雷达开源数据市场2025-08-06 07:538
ROVI 是 浙江大学 发布的数据集,于 2025-08-02 首发在 arXiv 应用于 文本到图像生成、视觉识别 领域

浙江大学 本次发布的数据集 ROVI, ROVI是一个高质量的合成数据集,用于实例-grounded文本到图像生成,由标记了100万精选网络图像创建。该数据集的核心创新是在预检测阶段采用了一种称为重新描述的策略,其中VLM(视觉语言模型)生成全面的视觉描述,然后由LLM(大型语言模型)处理以提取一个潜在的类别列表,供OVD(开放词汇检测器)检测。这种方法产生了一个与实例注释固有联系的全球提示,同时捕捉人类通常忽视的二级视觉元素。评估表明,ROVI在图像质量和分辨率方面超过了现有的检测数据集,同时包含两个数量级的开放词汇类别。为了展示目的,一个在ROVI上训练的文本到图像模型GLIGEN显著优于现有技术在实例接地精度、提示保真度和美学质量方面的性能。

查看ROVI

README 内容: 

 

关于 浙江大学 , 浙江大学是中国的一所综合性全国重点大学,位于浙江省杭州市,是中国著名的高等学府之一,拥有多个学科领域的研究实力。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们