首页 / 开源数据市场 / 正文

Multimodal Vision Research Laboratory @ WashU发布SoundingEarth数据集，应用在多模态学习、地理空间音频识别领域

五号数据雷达开源数据市场2026-04-27 12:1514

SoundingEarth是Multimodal Vision Research Laboratory @ WashU发布的数据集，于2026-04-26首发在HuggingFace应用于多模态学习、地理空间音频识别领域

Multimodal Vision Research Laboratory @ WashU本次发布的数据集SoundingEarth，该数据集是一个多模态数据集，包含音频、图像和文本数据。主要特征包括音频文件（采样率为32kHz）、谷歌地球图像、音频字幕及其来源、梅尔频谱特征（形状为5x1x1001x64的浮点数组）、基于LLaVA模型的谷歌地球图像字幕、经纬度坐标以及录制日期。数据集分为训练集（40,241个样本）、验证集（3,242个样本）和测试集（5,801个样本），总大小约为498GB。该数据集适用于多模态学习任务，如音频-图像关联分析、地理空间音频识别等。

查看SoundingEarth

Dataset card内容：

Files and versions内容：

社区讨论

近期热门