five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Apple发布DFNDR-12M-bf16数据集,应用在多模态学习、图像-文本任务领域

五号数据雷达开源数据市场2026-04-24 03:2214
DFNDR-12M-bf16是Apple发布的数据集,于2026-04-23首发在HuggingFace应用于多模态学习、图像-文本任务领域

Apple本次发布的数据集DFNDR-12M-bf16,DFNDR-12M-BFloat16 是一个图像-文本数据集,基于 DFN-12M(从 DFN-2B 中均匀采样的 12.8M 样本子集)生成。数据集包含合成标题、嵌入和元数据,通过预训练的图像-文本模型生成。DFNDR 采用了 MobileCLIP 和 MobileCLIP2 中引入的多模态增强策略,使用两个更强的 DFN 教师模型和改进的合成标题生成方法。每个样本包含一个随机增强的图像、一个真实标题和一个随机选择的合成标题。嵌入以 BFloat16 精度存储在压缩的 .pth.gz 格式中。数据集适用于文本到图像和图像到文本任务,训练效率相比标准 CLIP 训练有显著提升。数据集由 DataComp 提供原始数据,Apple 提供元数据,许可证为 CC-BY-NC-ND-4.0。

查看DFNDR-12M-bf16

Dataset card内容:

 

Files and versions内容:

 

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们