密歇根大学 本次发布的数据集 Structured Podcast Research Corpus (SPoRC), Structured Podcast Research Corpus (SPoRC) 是由密歇根大学信息学院创建的一个大规模播客数据集,涵盖了2020年5月至6月期间通过公共RSS订阅的所有英语播客的110万条转录记录。该数据集不仅包含文本转录,还包括音频特征和说话者转换信息,以及说话者角色推断和其他元数据。数据集的创建过程包括从Podcast Index获取RSS订阅信息,使用Whisper进行自动语音识别转录,以及使用pyannote进行说话者识别。SPoRC旨在解决播客生态系统的大规模计算分析问题,特别是在内容、结构和响应性方面的研究,为社区身份、信息扩散和偶然新闻曝光等现象的研究提供了基础。
查看Structured Podcast Research Corpus (SPoRC)
README 内容:
关于 密歇根大学 , 密歇根大学(University of Michigan)是一所位于美国密歇根州安娜堡的公立研究型大学,成立于1817年。它是美国历史最悠久的公立大学之一,也是美国大学协会的创始成员之一。密歇根大学在多个学科领域都有卓越的研究和教学成果,尤其在工程、医学、商学和法学等领域享有盛誉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)