近年来,随着全球对地观测网络的不断完善,多模态遥感数据已成为支撑城市数字化治理、自然资源监测、应急灾害响应等领域的核心数据资源,而AI技术在遥感场景的落地,高度依赖高质量、多模态的标注训练数据集。此前行业内公开的中等分辨率遥感数据集普遍存在模态单一、自动标注语义误差大、样本重复率高等问题,制约了多模态场景理解模型的研发进度。在此背景下,由巴黎大学牵头、欧洲多国研究机构联合构建的多模态遥感图像描述数据集Sentinel2Cap正式发布,为全球科研及产业领域提供了全新的基准训练数据源。
据悉,本次发布的Sentinel2Cap数据集精选自reBEN基准库,包含12000组Sentinel-1 SAR与Sentinel-2多光谱图像的配对数据,空间分辨率覆盖10-20米,所有样本均通过人工标注确保语义准确性和语言质量,每幅图像配备对应专业描述文本。相较于现有公开数据集,Sentinel2Cap的核心创新性体现在两大维度:一是同时整合SAR伪RGB、多光谱和光学三种模态的数据标注,解决了传统数据集模态单一、无法支撑多模态模型训练的痛点;二是采用地理分割策略避免样本重叠,大幅降低了模型训练过程中的过拟合风险,可有效弥补现有数据集中自动标注精度不足的缺陷。
作为面向计算机视觉与遥感交叉领域的专用训练数据集,Sentinel2Cap可支撑中等分辨率对地观测场景下的多类AI模型研发,典型应用方向包括城市建成区土地利用分类、流域生态环境动态监测、大宗农作物种植面积与长势估产、洪涝地震等自然灾害的灾后快速排查等,三类模态数据的融合标注也为多模态大模型在遥感领域的训练提供了高质量的数据源支撑。当前全球数据要素市场建设持续提速,遥感数据作为空间数据要素的核心组成部分,其标准化、标注化数据集的供给能力,直接决定了遥感AI产业的落地效率。本次Sentinel2Cap数据集的发布,填补了全球中等分辨率多模态标注遥感数据集的供给空白,为全球科研院所、科技企业开展多模态遥感场景理解技术研发提供了统一的基准训练数据源,将进一步推动计算机视觉技术与遥感应用场景的深度融合,助力数字地球、智慧城市等领域的数字化建设。





_1769672084863.jpg)