five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Multimodal Vision Research Laboratory @ WashU发布SoundingEarth数据集,应用在多模态学习、地理空间音频识别领域

五号数据雷达开源数据市场2026-04-27 12:1514
SoundingEarth是Multimodal Vision Research Laboratory @ WashU发布的数据集,于2026-04-26首发在HuggingFace应用于多模态学习、地理空间音频识别领域

Multimodal Vision Research Laboratory @ WashU本次发布的数据集SoundingEarth,该数据集是一个多模态数据集,包含音频、图像和文本数据。主要特征包括音频文件(采样率为32kHz)、谷歌地球图像、音频字幕及其来源、梅尔频谱特征(形状为5x1x1001x64的浮点数组)、基于LLaVA模型的谷歌地球图像字幕、经纬度坐标以及录制日期。数据集分为训练集(40,241个样本)、验证集(3,242个样本)和测试集(5,801个样本),总大小约为498GB。该数据集适用于多模态学习任务,如音频-图像关联分析、地理空间音频识别等。

查看SoundingEarth

Dataset card内容:

 

Files and versions内容:

 

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们