法国国家视听研究所本次发布的数据集INA广播音频语料库,该数据集由法国国家视听研究所构建,包含从1940至2022年法国113个电视频道与广播电台的47.3万小时原始音频,经去重和分段处理后形成12M条30秒音频片段,总时长10万小时。内容涵盖新闻、广告、纪录片等多种类型,通过Whisper等工具自动标注语音/音乐片段及说话人性别。研究团队进一步构建6个千小时子集用于自监督音频编码器训练,旨在探索多模态音频表示学习,解决语音识别、音乐检测等下游任务的领域适配问题。
关于法国国家视听研究所,法国国家视听研究所是法国的一个公共机构,负责保存和传播法国的视听遗产,包括广播、电视和其他媒体内容。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)