five

五号数据雷达

资产融资
资源入表
产品交易
知识产权
首页 / 开源数据市场 / 正文
耶路撒冷希伯来大学 发布 HEBTEASESUM 数据集, 应用在 自然语言处理、多文档摘要 领域
五号数据雷达开源数据市场2025-11-20 09:314
HEBTEASESUM 是 耶路撒冷希伯来大学 发布的数据集,于 2025-11-18 首发在 arXiv 应用于 自然语言处理、多文档摘要 领域

耶路撒冷希伯来大学 本次发布的数据集 HEBTEASESUM, HEBTEASESUM是由耶路撒冷希伯来大学研究团队构建的首个希伯来语多文档摘要数据集,基于历史报纸的前页提要自动提取而成。该数据集包含7,774条高质量摘要-文档对,数据源自数字化报纸档案,通过两阶段流程实现:首先识别前页提要中的关键词短语定位摘要,随后匹配对应版面的完整新闻文档。该资源专门针对低资源语言场景设计,有效解决了希伯来语等语言缺乏高质量摘要训练数据的问题,为跨语言摘要模型评估与优化提供了重要基准。

查看HEBTEASESUM

关于 耶路撒冷希伯来大学 , 耶路撒冷希伯来大学是位于以色列耶路撒冷的一所著名研究型大学,成立于1918年。它是以色列最古老、最负盛名的大学之一,以其卓越的学术研究和国际声誉而闻名。该校在多个学科领域,包括计算机科学、医学、人文科学等,都有显著的成就。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们