five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

麻省理工学院 发布 Spoken ObjectNet 数据集, 应用在 音视频数据集、图像检索 领域

五号数据雷达开源数据市场2024-10-13 07:2024
Spoken ObjectNet 是 麻省理工学院 发布的数据集,于 2021-10-15 首发在 arXiv 应用于 音视频数据集、图像检索 领域

麻省理工学院 本次发布的数据集 Spoken ObjectNet, Spoken ObjectNet是由麻省理工学院计算机科学与人工智能实验室创建的一个大型口语描述数据集,旨在减少现有音视频数据集的偏见,并提高模型在真实世界场景中的性能。该数据集基于ObjectNet图像数据集,通过改进的数据收集流程,包括自动语言模型检查,提高了描述质量。Spoken ObjectNet包含50,273条口语描述,用于评估音视频模型在偏见控制环境下的表现,特别是在图像检索和音频检索任务中。数据集的应用领域主要集中在提高模型对真实世界复杂性的适应能力,解决因数据集偏见导致的模型性能下降问题。

查看Spoken ObjectNet

关于 麻省理工学院 , 麻省理工学院(Massachusetts Institute of Technology,简称MIT)是一所位于美国马萨诸塞州剑桥市的私立研究型大学,成立于1861年。MIT以其在工程、计算机科学、物理学、经济学等领域的卓越研究和教育而闻名于世,是全球顶尖的高等教育机构之一。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们