首页 / 开源数据市场 / 正文

哈佛大学发布 BioClinical ModernBERT 数据集, 应用在生物医学文本、自然语言处理领域

五号数据雷达开源数据市场2025-06-14 06:5965

BioClinical ModernBERT 是哈佛大学发布的数据集,于 2025-06-13 首发在 arXiv 应用于生物医学文本、自然语言处理领域

哈佛大学本次发布的数据集 BioClinical ModernBERT, BioClinical ModernBERT是一个基于最新ModernBERT发布的领域自适应编码器，专为生物医学和临床自然语言处理（NLP）设计。该数据集通过在迄今为止最大的生物医学和临床语料库上持续预训练而成，包含超过53.5亿个tokens，并利用了来自不同机构、领域和地理区域的20个数据集，而非依赖单一来源的数据。这些数据集包括PubMed摘要、PMC全文文章、MIMIC-IV临床笔记以及其他多种来源的临床文本，共计2.8B tokens。该数据集旨在解决现有临床编码器在去识别任务上的性能问题，并提高在生物医学和临床NLP任务中的表现。

查看BioClinical ModernBERT

关于哈佛大学 , 哈佛大学是一所位于美国马萨诸塞州剑桥市的私立研究型大学，是美国常春藤盟校之一，以其在多个学术领域的卓越研究和教育而闻名。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

哈佛大学 发布 BioClinical ModernBERT 数据集, 应用在 生物医学文本、自然语言处理 领域

社区讨论

哈佛大学发布 BioClinical ModernBERT 数据集, 应用在生物医学文本、自然语言处理领域