five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】ImageInWords - 高精度超详细图像描述数据集

五号雷达开源数据市场2024-05-08 11:4364
IIW数据集有助于提高文本到图像生成任务的性能,并在视觉-语言组合推理任务中展现了更高的准确性。

ImageInWords(IIW)数据集,由Google Research与Google DeepMind联合构建,旨在为视觉语言模型的训练提供超详细且无幻觉的图像描述。该数据集包含9018张图片,每张图片均配有详尽的描述,平均每个描述包含9.8个句子、52.5个名词、28个形容词、5个副词和19.1个动词。在创建过程中,IIW采用了迭代式的标注方法,首先通过对象检测器识别图像中的个体对象实例,然后由视觉语言模型生成每个检测到的对象的细粒度标题,作为人工注解过程的起点。随后,通过多轮人工注解和模型微调,逐步丰富和完善描述内容,直至形成一个高质量的数据集。IIW数据集有助于提高文本到图像生成任务的性能,并在视觉-语言组合推理任务中展现了更高的准确性。

详情请参见五号雷达:https://www.5radar.com/result?key=ImageInWords

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们