five

五号数据雷达

资产融资
资源入表
产品交易
知识产权
首页 / 开源数据市场 / 正文
卑尔根大学 发布 NorSumm 数据集, 应用在 自然语言处理、新闻摘要 领域
五号数据雷达开源数据市场2025-01-16 12:214
NorSumm 是 卑尔根大学 发布的数据集,于 2025-01-14 首发在 arXiv 应用于 自然语言处理、新闻摘要 领域

卑尔根大学 本次发布的数据集 NorSumm, NorSumm数据集由卑尔根大学和奥斯陆大学的研究团队创建,包含378条挪威新闻文章的人工摘要。数据集旨在为生成式语言模型的抽象摘要能力提供基准测试,每个新闻文章提供三个不同的候选摘要,分别以Bokmål和Nynorsk两种挪威语书面形式呈现。数据集来源于挪威事件抽取数据集EDEN的子集,包含63篇新闻文章,每篇文章由三名具有新闻学背景的挪威语母语者撰写摘要。摘要的创建过程遵循详细的指南,确保摘要自然、多样且符合新闻学标准。该数据集的应用领域主要集中在挪威语生成式语言模型的评估和优化,旨在解决挪威语新闻摘要生成中的挑战。

查看NorSumm

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 卑尔根大学 , 卑尔根大学位于挪威卑尔根,是挪威的一所著名大学,成立于1946年。该大学以其在海洋研究、气候研究以及人文社会科学领域的卓越研究而闻名。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们