Apple本次发布的数据集DFNDR-12M,DFNDR-12M 是一个包含合成标题、嵌入和元数据的多模态数据集,基于 DFN-12M(DFN-2B 的一个均匀采样子集,包含 1280 万样本)构建。该数据集通过强化训练策略生成,使用了两个更强的 DFN 教师模型和改进的合成标题生成方法。数据集包含图像 URL、合成标题列表、增强参数以及图像和文本的嵌入(1536 维)。每个样本由一个随机增强的图像、一个真实标题和一个随机选取的合成标题组成。DFNDR-12M 在训练效率上显著优于标准 CLIP 训练,比 DataComp-1B 12M 高效 5 倍,比 DFN-12M 高效 3.3 倍,比 DataCompDR-12M 高效 1.3 倍。数据集由 DataComp 提供原始数据,Apple 生成元数据,分别遵循 CC-BY-4.0 和 Apple 的特定许可证。





_1769672084863.jpg)