当前多模态大模型正成为AI产业落地的核心方向,而高质量、低噪声的图文配对训练数据,是决定多模态模型性能、训练效率的核心生产要素,业界长期面临公开数据集规模不足、标注质量参差不齐、训练效率偏低等痛点。近日,苹果正式对外发布全新多模态数据集DFNDR-2B,该数据集于2026年4月23日首发于全球最大的AI模型开源社区HuggingFace,面向全球研发者开放下载。
作为苹果在多模态数据领域的最新成果,DFNDR-2B是专为图文多模态学习打造的训练数据集,其核心技术依托苹果此前在MobileCLIP、MobileCLIP2系列轻量级端侧多模态模型研发中沉淀的多模态数据集强化策略构建,对公开基准数据集DFN-2B(DataComp-12B的20亿样本过滤子集)进行了全链路的质量强化,新增了合成标题、嵌入向量及配套元数据,整体数据质量得到大幅提升。
据公开信息显示,DFNDR-2B的强化过程采用了DFN2B-CLIP-ViT-L-14、DFN2B-CLIP-ViT-L-14-39B两个能力更强的DFN教师模型,同时搭配由MobileCLIP2-CoCa-ViT-L-14生成的优化后合成标题,进一步提升了图文配对的准确性。数据集中每个样本均采用“随机增强图像+真实标题+随机合成标题”的三元组结构,配套的嵌入向量为1536维,由两个768维向量拼接生成,可直接适配主流多模态模型的训练流程。
在实测训练效果中,DFNDR-2B展现出远高于标准CLIP训练的学习效率,相比基准数据集DataCompDR-1B训练效率提升达1.7倍,这意味着研发团队采用该数据集进行多模态模型训练时,可在同等算力投入下将训练周期缩短近42%,或在同等训练周期下降低近41%的算力成本,对于资源有限的中小研发团队、学术研究机构而言具有极高的实用价值。
DFNDR-2B的数据集结构包含图像URL、合成标题列表、增强参数列表以及图像和文本的嵌入列表,整体由DataComp原始数据与苹果生产的元数据共同策划生成,遵循CC-BY-NC-ND-4.0开源许可协议,非商业用途的研发团队可免费使用该数据集开展相关研究。
从应用场景来看,DFNDR-2B可广泛支撑多模态学习领域的各类研发需求,典型应用方向包括端侧轻量级多模态模型训练、跨模态图文检索系统研发、AIGC模型的图文对齐模块优化、移动端智能视觉搜索、智能相册内容分类、多模态内容审核等多个场景,尤其适配端侧AI的研发需求,也可为全球多模态AI生态提供高质量的数据底座支撑。





_1769672084863.jpg)