five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

法国索邦大学 发布 Biomed-Enriched 数据集, 应用在 生物医学文本挖掘、自然语言处理 领域

五号数据雷达开源数据市场2025-11-28 14:4123
Biomed-Enriched 是 法国索邦大学 发布的数据集,于 2025-06-25 首发在 arXiv 应用于 生物医学文本挖掘、自然语言处理 领域

法国索邦大学 本次发布的数据集 Biomed-Enriched, Biomed-Enriched是一个通过两阶段标注过程构建的生物医学文本数据集,从PubMed中获取数据。第一阶段,使用大型语言模型对PubMed科学文章中的40万个段落进行标注,为它们的类型(综述、研究、临床案例、其他)、领域(临床、生物医学、其他)和教育质量分配分数。然后,使用这些标注来微调一个小型语言模型,从而在完整的PMC-OA语料库上传播标签。结果元数据允许我们从PubMed中提取精炼的子集,包括200万个临床案例段落,其中超过45万个来自具有商业使用许可证的文章的高质量段落。由于隐私限制,临床文本通常难以访问,因此我们的数据集提供了一个大型、公开可用的PubMed临床案例集合的替代方案,使其成为生物医学和临床自然语言处理的宝贵资源。初步的持续预训练实验表明,这些精心挑选的子集可以实现有针对性的改进,临床数据上采样在MMLU ProfMed上的性能提高了5%,教育质量过滤使MedQA和MedMCQA的医学问答任务提高了1%。这些技术的组合导致更快地收敛,使用三分之一的训练标记即可达到相同的性能,这表明了更高效和有效的生物医学预训练策略的潜力。

查看Biomed-Enriched

关于 法国索邦大学 , 法国索邦大学是一所位于法国巴黎的著名综合性大学,拥有悠久的历史和卓越的教学研究传统。它是法国高等教育和研究的重要机构之一。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们