Jasper AI本次发布的数据集monet,MONET(大规模、开放、非冗余且丰富的文本到图像数据集)是一个专为训练文本到图像(T2I)系统而设计的大规模、经过筛选的图像-文本数据集。它包含从9个异构开放源(6个真实和3个合成)中经过安全过滤、基于域的过滤、精确和近重复去除以及多视觉-语言模型重新标注后提取的1.049亿高质量图像-文本对。每张图像都附带预计算的嵌入、结构化注释和预编码的VAE潜在表示,以加速下游使用。数据集支持多种任务,包括文本到图像预训练、图像检索和零样本图像分类。MONET的数据字段包括图像和几何信息、多种来源的标注、嵌入和潜在表示、结构化注释以及质量和安全信号。数据集还提供了详细的用法示例,包括如何加载和过滤数据。





_1769672084863.jpg)