Apple本次发布的数据集DFNDR-12M-bf16,DFNDR-12M-BFloat16 是一个图像-文本数据集,基于 DFN-12M(从 DFN-2B 中均匀采样的 12.8M 样本子集)生成。数据集包含合成标题、嵌入和元数据,通过预训练的图像-文本模型生成。DFNDR 采用了 MobileCLIP 和 MobileCLIP2 中引入的多模态增强策略,使用两个更强的 DFN 教师模型和改进的合成标题生成方法。每个样本包含一个随机增强的图像、一个真实标题和一个随机选择的合成标题。嵌入以 BFloat16 精度存储在压缩的 .pth.gz 格式中。数据集适用于文本到图像和图像到文本任务,训练效率相比标准 CLIP 训练有显著提升。数据集由 DataComp 提供原始数据,Apple 提供元数据,许可证为 CC-BY-NC-ND-4.0。





_1769672084863.jpg)