five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

小米集团 发布 MECAT 数据集, 应用在 音频理解、机器学习 领域

五号数据雷达开源数据市场2025-08-02 08:3347
MECAT 是 小米集团 发布的数据集,于 2025-07-31 首发在 arXiv 应用于 音频理解、机器学习 领域

小米集团 本次发布的数据集 MECAT, MECAT是一个多专家构建的细粒度音频理解任务基准数据集,由MiLM Plus和小米集团的研究人员创建。该数据集包含约20,000个音频剪辑,涵盖了八个不同的音频领域,包括纯音域(如寂静、语音、声音事件和音乐)以及所有可能的混合音域。数据集提供了丰富的标注,包括细粒度的音频描述和开放式的问答对,旨在评估模型在复杂音频场景下的理解能力。MECAT的创建过程结合了专门的专家模型和大型语言模型的推理,以提供多角度、细粒度的描述和开放式的问答对。数据集的应用领域包括音频描述、音频问答等,旨在解决现有基准数据集在评估音频理解方面的局限性,提高模型的感知准确性和描述细节。

查看MECAT

关于 小米集团 , 小米集团是一家位于中国北京的知名电子科技公司,主要从事智能硬件和电子产品的研发,包括智能手机、智能穿戴设备等,同时也是互联网服务提供商。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们