首页 / 开源数据市场 / 正文

LMU Munich 发布 SynTerm 数据集, 应用在自然语言处理、自动术语提取领域

五号数据雷达开源数据市场2025-10-10 07:4122

SynTerm 是 LMU Munich 发布的数据集,于 2025-10-08 首发在 arXiv 应用于自然语言处理、自动术语提取领域

LMU Munich 本次发布的数据集 SynTerm, SynTerm是一个用于自动术语提取（ATE）的合成数据集，由MaiNLP、LMU慕尼黑大学信息与语言处理中心和Fraunhofer IMW国际管理与知识经济中心联合创建。该数据集包含来自七个不同领域的数据，包括生物医学、腐败、马术、心力衰竭、海岸地理、计算语言学和风能，旨在解决多领域ATE场景的挑战。数据集大小为83261条数据，来源于The Pile和arXiv摘要，并通过LLM进行伪标签生成。该数据集可用于训练和评估ATE模型，以提高跨领域鲁棒性和文档级一致性。

查看SynTerm

Dataset card 内容：

Files and versions 内容：

关于 LMU Munich , LMU Munich（路德维希马克西米利安大学慕尼黑）是德国一所著名的公立研究型大学，位于慕尼黑市，是德国最古老的大学之一，也是欧洲最杰出的学术机构之一。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

LMU Munich 发布 SynTerm 数据集, 应用在 自然语言处理、自动术语提取 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

LMU Munich 发布 SynTerm 数据集, 应用在自然语言处理、自动术语提取领域