five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Apple发布DFNDR-12M数据集,应用在多模态学习、计算机视觉领域

五号数据雷达开源数据市场2026-04-24 03:1815
DFNDR-12M是Apple发布的数据集,于2026-04-23首发在HuggingFace应用于多模态学习、计算机视觉领域

Apple本次发布的数据集DFNDR-12M,DFNDR-12M 是一个包含合成标题、嵌入和元数据的多模态数据集,基于 DFN-12M(DFN-2B 的一个均匀采样子集,包含 1280 万样本)构建。该数据集通过强化训练策略生成,使用了两个更强的 DFN 教师模型和改进的合成标题生成方法。数据集包含图像 URL、合成标题列表、增强参数以及图像和文本的嵌入(1536 维)。每个样本由一个随机增强的图像、一个真实标题和一个随机选取的合成标题组成。DFNDR-12M 在训练效率上显著优于标准 CLIP 训练,比 DataComp-1B 12M 高效 5 倍,比 DFN-12M 高效 3.3 倍,比 DataCompDR-12M 高效 1.3 倍。数据集由 DataComp 提供原始数据,Apple 生成元数据,分别遵循 CC-BY-4.0 和 Apple 的特定许可证。

查看DFNDR-12M

Dataset card内容:

 

Files and versions内容:

 

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们