首页 / 开源数据市场 / 正文

艾伦AI研究院上线1.1TB级OlmoEarth嵌入数据集覆盖26个遥感大模型降低地球观测AI研发门槛

五号数据雷达开源数据市场2026-05-21 20:3714

2026年5月15日，艾伦人工智能研究院（Allen Institute for AI）在Hugging Face首发olmoearth-paper-embeddings预提取嵌入数据集，覆盖26个主流地球观测基础模型、24类典型下游任务，可免去研究者重复运行模型提取特征的环节，直接支撑遥感图像分类、分割、模型性能评估等研发工作，大幅降低行业研发成本。

近年来，随着全球卫星组网观测能力提升，地球观测数据呈爆发式增长，AI技术在遥感影像解译、自然资源监测、灾害应急响应、农业估产、城市精细化治理等领域的应用需求持续攀升。但垂直领域AI研发普遍面临基础模型特征提取环节算力消耗大、不同模型性能评估缺乏统一基准的痛点，大量研究资源被重复消耗在同质化的前置工作中。

针对这一行业痛点，全球知名AI研究机构艾伦人工智能研究院（Allen Institute for AI）本次发布的数据集olmoearth-paper-embeddings——即OlmoEarth论文表2基础模型嵌入数据集，是一个专门为地球观测领域设计的大规模预提取嵌入集合。该数据集旨在支持下游任务（如KNN分类、线性探针和微调）的性能评估与比较，避免研究人员重复运行模型编码器进行特征提取，2026年5月15日已率先在Hugging Face上线开放获取。

该数据集核心内容包含26个不同的地球观测基础模型在24个下游任务上生成的嵌入向量，这些任务与论文《OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation》（arXiv:2511.13655）中的表2完全对应。每个支持的（模型，任务）组合都使用论文中确定的最佳超参数（来自原始搜索的验证集最佳值）在任务的训练/验证/测试分割上运行模型编码器，并将每个分割保存为单个.pt文件。

数据规模方面，数据集总磁盘占用约1.1 TB。数据以PyTorch的.pt文件格式存储，每个文件是一个包含两个键的字典：embeddings（bfloat16张量）和labels（int64张量）。对于分类任务，嵌入形状为(N, D)，标签形状为(N,)（单标签）或(N, num_classes)（多标签的m_bigearthnet）。对于分割任务，嵌入在模型的补丁网格上（例如(N, 16, 16, 768)），标签则在全图像分辨率上（例如(N, 64, 64)或(N, 256, 256)）。维度D因模型而异，从最小模型的128到DINOv3-7B的4096不等，可满足不同量级下游研发的需求。

数据集涵盖的26个模型组包括AnySat、Clay、CopernicusFM、CROMA、DINOv3系列、Galileo系列、Panopticon、Presto、Prithvi v2系列、Satlas、TerraMind、TESSERA以及OlmoEarth自身的nano、tiny、base和large变体，基本覆盖了当前地球观测领域主流的开源基础模型。并非所有模型都为每个任务生成嵌入，部分模型因模态限制（例如DINOv3仅限Sentinel-2，TESSERA仅限多模态时间序列任务）而缺少某些组合，数据集已对相关缺失情况做了明确标注。

24个下游任务涵盖多种地球观测模态和应用，包括Sentinel-1（S1）、Sentinel-2（S2）、Landsat-8（L8）以及多模态时间序列数据。任务类型包括分类（如m_bigearthnet、m_so2sat、m_eurosat等）和分割（如m_cashew_plant、PASTIS、Sen1Floods11等），评估方法包括K最近邻（KNN）和线性探针（LP），指标包括准确率、微平均F1（µF1）和平均交并比（mIoU）。具体任务包括来自Geobench的m_bigearthnet、m_so2sat、m_brick_kiln、m_forestnet、m_eurosat、m_cashew_plant、m_sa_crop_type，时间序列分类任务BreizhCrops、CropHarvest（中国和多哥变体），分割任务PASTIS、MADOS、Sen1Floods11，以及真实世界任务AWF和Nandi的不同模态变体。从应用场景来看，这些任务对应的研发成果可直接支撑地物分类、作物识别、洪水监测、非法工业热源排查、经济作物种植面积统计等实际落地需求。

除核心数据外，数据集还提供了用于复现论文结果的评估设置文件（eval_settings/），其中包含每个（模型，任务）组合的论文最佳超参数。已知注意事项文档中解释了少数嵌入结果与论文表2报告值存在差异的原因（如Prithvi v2的波段映射修正、AnySat的特定处理等），方便研究者对齐研究基准。数据集采用CC BY 4.0许可证，基础模型保留其原始许可证，对商业应用友好度较高。

从行业价值来看，该数据集是当前地球观测领域覆盖模型最全、任务场景最丰富的预提取嵌入公开数据集之一，一方面大幅降低了中小研发团队的准入门槛，无需投入大量算力运行大模型提取特征即可开展下游研发；另一方面也为行业提供了统一的模型性能评估基准，有助于推动不同技术路线的横向对比，加速地球观测AI技术从实验室走向产业落地，为自然资源管理、灾害应急、数字孪生城市建设等数字化场景提供技术支撑。

查看olmoearth-paper-embeddings

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

艾伦AI研究院上线1.1TB级OlmoEarth嵌入数据集 覆盖26个遥感大模型 降低地球观测AI研发门槛

Dataset card内容：

Files and versions内容：

社区讨论

艾伦AI研究院上线1.1TB级OlmoEarth嵌入数据集覆盖26个遥感大模型降低地球观测AI研发门槛