哈佛大学 本次发布的数据集 BioClinical ModernBERT, BioClinical ModernBERT是一个基于最新ModernBERT发布的领域自适应编码器,专为生物医学和临床自然语言处理(NLP)设计。该数据集通过在迄今为止最大的生物医学和临床语料库上持续预训练而成,包含超过53.5亿个tokens,并利用了来自不同机构、领域和地理区域的20个数据集,而非依赖单一来源的数据。这些数据集包括PubMed摘要、PMC全文文章、MIMIC-IV临床笔记以及其他多种来源的临床文本,共计2.8B tokens。该数据集旨在解决现有临床编码器在去识别任务上的性能问题,并提高在生物医学和临床NLP任务中的表现。
关于 哈佛大学 , 哈佛大学是一所位于美国马萨诸塞州剑桥市的私立研究型大学,是美国常春藤盟校之一,以其在多个学术领域的卓越研究和教育而闻名。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)