five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

微软 发布 MEDIASUM 数据集, 应用在 媒体采访、对话摘要 领域

五号数据雷达开源数据市场2024-10-13 21:4149
MEDIASUM 是 微软 发布的数据集,于 2021-03-12 首发在 arXiv 应用于 媒体采访、对话摘要 领域

微软 本次发布的数据集 MEDIASUM, MEDIASUM是一个大规模的媒体采访数据集,包含463.6K条来自NPR和CNN的采访转录及其摘要。该数据集通过收集NPR和CNN的采访转录,并使用概述和主题描述作为摘要来创建。MEDIASUM不仅规模大,还包含了多领域的复杂多方对话,适用于对话摘要研究。数据集的创建过程中,对CNN的采访进行了主题匹配的分割处理,以提高数据集的质量和适用性。MEDIASUM主要用于改进对话摘要模型的性能,特别是在转移学习方面,能够提升模型在其他对话摘要任务上的表现。

查看MEDIASUM

关于 微软 , 微软是一家全球知名的科技公司,主要从事软件、硬件和服务业务,包括操作系统、办公软件、云服务和人工智能等领域的研发和应用。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们