five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

艾伦AI研究院上线1.1TB级OlmoEarth嵌入数据集 覆盖26个遥感大模型 降低地球观测AI研发门槛

五号数据雷达开源数据市场2026-05-21 20:3714
2026年5月15日,艾伦人工智能研究院(Allen Institute for AI)在Hugging Face首发olmoearth-paper-embeddings预提取嵌入数据集,覆盖26个主流地球观测基础模型、24类典型下游任务,可免去研究者重复运行模型提取特征的环节,直接支撑遥感图像分类、分割、模型性能评估等研发工作,大幅降低行业研发成本。

近年来,随着全球卫星组网观测能力提升,地球观测数据呈爆发式增长,AI技术在遥感影像解译、自然资源监测、灾害应急响应、农业估产、城市精细化治理等领域的应用需求持续攀升。但垂直领域AI研发普遍面临基础模型特征提取环节算力消耗大、不同模型性能评估缺乏统一基准的痛点,大量研究资源被重复消耗在同质化的前置工作中。

针对这一行业痛点,全球知名AI研究机构艾伦人工智能研究院(Allen Institute for AI)本次发布的数据集olmoearth-paper-embeddings——即OlmoEarth论文表2基础模型嵌入数据集,是一个专门为地球观测领域设计的大规模预提取嵌入集合。该数据集旨在支持下游任务(如KNN分类、线性探针和微调)的性能评估与比较,避免研究人员重复运行模型编码器进行特征提取,2026年5月15日已率先在Hugging Face上线开放获取。

该数据集核心内容包含26个不同的地球观测基础模型在24个下游任务上生成的嵌入向量,这些任务与论文《OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation》(arXiv:2511.13655)中的表2完全对应。每个支持的(模型,任务)组合都使用论文中确定的最佳超参数(来自原始搜索的验证集最佳值)在任务的训练/验证/测试分割上运行模型编码器,并将每个分割保存为单个.pt文件。

数据规模方面,数据集总磁盘占用约1.1 TB。数据以PyTorch的.pt文件格式存储,每个文件是一个包含两个键的字典:embeddings(bfloat16张量)和labels(int64张量)。对于分类任务,嵌入形状为(N, D),标签形状为(N,)(单标签)或(N, num_classes)(多标签的m_bigearthnet)。对于分割任务,嵌入在模型的补丁网格上(例如(N, 16, 16, 768)),标签则在全图像分辨率上(例如(N, 64, 64)或(N, 256, 256))。维度D因模型而异,从最小模型的128到DINOv3-7B的4096不等,可满足不同量级下游研发的需求。

数据集涵盖的26个模型组包括AnySat、Clay、CopernicusFM、CROMA、DINOv3系列、Galileo系列、Panopticon、Presto、Prithvi v2系列、Satlas、TerraMind、TESSERA以及OlmoEarth自身的nano、tiny、base和large变体,基本覆盖了当前地球观测领域主流的开源基础模型。并非所有模型都为每个任务生成嵌入,部分模型因模态限制(例如DINOv3仅限Sentinel-2,TESSERA仅限多模态时间序列任务)而缺少某些组合,数据集已对相关缺失情况做了明确标注。

24个下游任务涵盖多种地球观测模态和应用,包括Sentinel-1(S1)、Sentinel-2(S2)、Landsat-8(L8)以及多模态时间序列数据。任务类型包括分类(如m_bigearthnet、m_so2sat、m_eurosat等)和分割(如m_cashew_plant、PASTIS、Sen1Floods11等),评估方法包括K最近邻(KNN)和线性探针(LP),指标包括准确率、微平均F1(µF1)和平均交并比(mIoU)。具体任务包括来自Geobench的m_bigearthnet、m_so2sat、m_brick_kiln、m_forestnet、m_eurosat、m_cashew_plant、m_sa_crop_type,时间序列分类任务BreizhCrops、CropHarvest(中国和多哥变体),分割任务PASTIS、MADOS、Sen1Floods11,以及真实世界任务AWF和Nandi的不同模态变体。从应用场景来看,这些任务对应的研发成果可直接支撑地物分类、作物识别、洪水监测、非法工业热源排查、经济作物种植面积统计等实际落地需求。

除核心数据外,数据集还提供了用于复现论文结果的评估设置文件(eval_settings/),其中包含每个(模型,任务)组合的论文最佳超参数。已知注意事项文档中解释了少数嵌入结果与论文表2报告值存在差异的原因(如Prithvi v2的波段映射修正、AnySat的特定处理等),方便研究者对齐研究基准。数据集采用CC BY 4.0许可证,基础模型保留其原始许可证,对商业应用友好度较高。

从行业价值来看,该数据集是当前地球观测领域覆盖模型最全、任务场景最丰富的预提取嵌入公开数据集之一,一方面大幅降低了中小研发团队的准入门槛,无需投入大量算力运行大模型提取特征即可开展下游研发;另一方面也为行业提供了统一的模型性能评估基准,有助于推动不同技术路线的横向对比,加速地球观测AI技术从实验室走向产业落地,为自然资源管理、灾害应急、数字孪生城市建设等数字化场景提供技术支撑。

查看olmoearth-paper-embeddings

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们