five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

圣路易斯华盛顿大学发布1.2TB级GeoSound多模态数据集 填补跨模态生物声学研究数据缺口

五号数据雷达开源数据市场2026-04-27 12:2337
美国圣路易斯华盛顿大学(WashU)多模态视觉研究实验室于2026年4月26日在HuggingFace首发开源GeoSound多模态生物声学数据集,覆盖声学、卫星影像、地理时空等多维度标注数据,可广泛应用于生物声学研究、多模态AI模型训练等场景。

随着多模态大模型技术快速落地,垂直领域高质量标注数据集已成为AI技术向细分场景渗透的核心瓶颈,尤其是在生物声学、生态监测等交叉科研领域,过往公开数据集普遍存在数据维度单一、缺乏时空与环境上下文关联等问题,难以支撑复杂场景下的AI模型训练与科研工作。近日,全球顶尖的多模态AI与计算机视觉研究机构——圣路易斯华盛顿大学(WashU)多模态视觉研究实验室正式对外发布全新多模态生物声学数据集GeoSound,该数据集率先在HuggingFace平台上线,为全球科研人员与AI开发者提供了覆盖声学、视觉、时空、生物分类等多维度的标准化研究资源。

作为目前全球规模领先的开源多模态生物声学数据集,GeoSound总容量达1.2TB,共包含293718个训练样本、4999个验证样本以及9931个测试样本,数据维度覆盖7大类核心特征:一是采样率达32kHz的高保真音频数据及对应的人工标注文字描述,可满足高精度声学分析的需求;二是来自Bing Maps和Sentinel的多尺度卫星影像数据,搭配LLaVA大模型生成的标准化图像描述,实现声学数据与采集点周边环境视觉信息的一一对应;此外数据集还包含音频的梅尔频谱特征(5×1×1001×64维)、采集点精确经纬度与采集日期、对应物种的学名/俗名等生物分类信息、音频原始采样率与格式等技术参数,以及全量样本的标题、标签字段,可灵活适配不同场景下的研究与开发需求。

从应用价值来看,GeoSound可广泛覆盖多模态机器学习、生物声学研究、生态保护等多个领域的需求:在生物声学与生态保护方向,科研人员可依托该数据集结合音频特征、地理坐标与卫星影像,开展濒危物种栖息地监测、种群数量动态评估、外来入侵物种预警等研究,为区域生态系统健康评估提供数据支撑;在多模态AI研发领域,该数据集可支撑音频-图像跨模态对齐、自动标注生成、多模态大模型垂直领域微调等任务,尤其是针对需要结合声学、视觉、时空多维度信息的复杂AI模型,GeoSound提供了标准化的训练与测试基准;此外,基于数据集的时间与地理标注,研究人员还可开展气候变化对物种分布影响、区域生物多样性变化趋势等时空维度的研究工作。

此次发布的GeoSound数据集,进一步填补了垂直领域多模态公开数据集的空白,对于推动多模态AI技术落地生态保护、生物研究等场景,加快数据要素在交叉科研领域的流通复用具有重要意义。

查看GeoSound

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们