布达佩斯技术与经济大学 本次发布的数据集 HunSum-1, HunSum-1是一个专为匈牙利语抽象摘要任务设计的数据集,由布达佩斯技术与经济大学和计算机科学与控制研究所联合创建。该数据集包含114万篇新闻文章,这些文章是从9个主要的匈牙利新闻网站通过CommonCrawl收集、清洗和去重处理得到的。数据集的创建过程涉及复杂的网页抓取和数据预处理技术。HunSum-1数据集主要用于训练和评估抽象摘要模型,特别是在处理匈牙利语内容时,旨在提高摘要的准确性和相关性。
README 内容:
关于 布达佩斯技术与经济大学 , 布达佩斯技术与经济大学(Budapest University of Technology and Economics)是匈牙利最古老的技术大学,成立于1782年,提供工程、自然科学和经济学的教育与研究。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)