微软 本次发布的数据集 MEDIASUM, MEDIASUM是一个大规模的媒体采访数据集,包含463.6K条来自NPR和CNN的采访转录及其摘要。该数据集通过收集NPR和CNN的采访转录,并使用概述和主题描述作为摘要来创建。MEDIASUM不仅规模大,还包含了多领域的复杂多方对话,适用于对话摘要研究。数据集的创建过程中,对CNN的采访进行了主题匹配的分割处理,以提高数据集的质量和适用性。MEDIASUM主要用于改进对话摘要模型的性能,特别是在转移学习方面,能够提升模型在其他对话摘要任务上的表现。
关于 微软 , 微软是一家全球知名的科技公司,主要从事软件、硬件和服务业务,包括操作系统、办公软件、云服务和人工智能等领域的研发和应用。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)