首页 / 开源数据市场 / 正文

圣路易斯华盛顿大学发布1.2TB级GeoSound多模态数据集填补跨模态生物声学研究数据缺口

五号数据雷达开源数据市场2026-04-27 12:2337

美国圣路易斯华盛顿大学（WashU）多模态视觉研究实验室于2026年4月26日在HuggingFace首发开源GeoSound多模态生物声学数据集，覆盖声学、卫星影像、地理时空等多维度标注数据，可广泛应用于生物声学研究、多模态AI模型训练等场景。

随着多模态大模型技术快速落地，垂直领域高质量标注数据集已成为AI技术向细分场景渗透的核心瓶颈，尤其是在生物声学、生态监测等交叉科研领域，过往公开数据集普遍存在数据维度单一、缺乏时空与环境上下文关联等问题，难以支撑复杂场景下的AI模型训练与科研工作。近日，全球顶尖的多模态AI与计算机视觉研究机构——圣路易斯华盛顿大学（WashU）多模态视觉研究实验室正式对外发布全新多模态生物声学数据集GeoSound，该数据集率先在HuggingFace平台上线，为全球科研人员与AI开发者提供了覆盖声学、视觉、时空、生物分类等多维度的标准化研究资源。

作为目前全球规模领先的开源多模态生物声学数据集，GeoSound总容量达1.2TB，共包含293718个训练样本、4999个验证样本以及9931个测试样本，数据维度覆盖7大类核心特征：一是采样率达32kHz的高保真音频数据及对应的人工标注文字描述，可满足高精度声学分析的需求；二是来自Bing Maps和Sentinel的多尺度卫星影像数据，搭配LLaVA大模型生成的标准化图像描述，实现声学数据与采集点周边环境视觉信息的一一对应；此外数据集还包含音频的梅尔频谱特征（5×1×1001×64维）、采集点精确经纬度与采集日期、对应物种的学名/俗名等生物分类信息、音频原始采样率与格式等技术参数，以及全量样本的标题、标签字段，可灵活适配不同场景下的研究与开发需求。

从应用价值来看，GeoSound可广泛覆盖多模态机器学习、生物声学研究、生态保护等多个领域的需求：在生物声学与生态保护方向，科研人员可依托该数据集结合音频特征、地理坐标与卫星影像，开展濒危物种栖息地监测、种群数量动态评估、外来入侵物种预警等研究，为区域生态系统健康评估提供数据支撑；在多模态AI研发领域，该数据集可支撑音频-图像跨模态对齐、自动标注生成、多模态大模型垂直领域微调等任务，尤其是针对需要结合声学、视觉、时空多维度信息的复杂AI模型，GeoSound提供了标准化的训练与测试基准；此外，基于数据集的时间与地理标注，研究人员还可开展气候变化对物种分布影响、区域生物多样性变化趋势等时空维度的研究工作。

此次发布的GeoSound数据集，进一步填补了垂直领域多模态公开数据集的空白，对于推动多模态AI技术落地生态保护、生物研究等场景，加快数据要素在交叉科研领域的流通复用具有重要意义。

查看GeoSound

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

圣路易斯华盛顿大学发布1.2TB级GeoSound多模态数据集 填补跨模态生物声学研究数据缺口

Dataset card内容：

Files and versions内容：

社区讨论

圣路易斯华盛顿大学发布1.2TB级GeoSound多模态数据集填补跨模态生物声学研究数据缺口