约翰霍普金斯大学 本次发布的数据集 Spoken DialogSum, Spoken DialogSum是由约翰霍普金斯大学团队构建的首个融合语音、文本与副语言信息的多模态对话摘要数据集。该数据集包含13,460条情感丰富的对话(总时长约165小时),每条对话均配有事实性摘要和情感聚焦摘要,并标注了说话人年龄、性别及 utterance 级情感标签。数据通过两阶段生成:首先利用LLM将DialogSum文本改写成包含自然填充词和反馈词的对话,再通过Zonos TTS引擎合成带副语言标签的语音。该数据集旨在推动端到端语音建模研究,解决现有文本摘要数据缺乏声学信息、语音数据缺乏摘要标注的双向局限,适用于情感感知的对话摘要、多模态语言模型训练等前沿领域。
关于 约翰霍普金斯大学 , 约翰霍普金斯大学是一所位于美国马里兰州巴尔的摩的私立研究型大学,成立于1876年,以医学、公共卫生、国际关系等领域的卓越研究和教育闻名。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)