five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

洛桑联邦理工学院发布Fully Open Meditron Corpus数据集,应用在医疗大语言模型训练、临床决策支持系统领域

五号数据雷达开源数据市场2026-05-19 05:5013
Fully Open Meditron Corpus是洛桑联邦理工学院发布的数据集,于2026-05-16首发在arXiv应用于医疗大语言模型训练、临床决策支持系统领域

洛桑联邦理工学院本次发布的数据集Fully Open Meditron Corpus,Fully Open Meditron Corpus是由洛桑联邦理工学院LiGHT实验室构建的首个全开放临床决策支持系统数据集,旨在通过可审计的数据管道提升医疗大语言模型的透明度和可复现性。该数据集整合了八个公开医疗问答数据集,并扩展了三个经临床医生审核的合成组件,涵盖考试风格问答、基于临床指南的问答及临床情景案例,通过系统级去污染处理确保与评估基准无重叠。数据构建过程采用临床医生参与的提示工程和GPT-OSS-120B生成技术,并辅以黄金标签拒绝采样控制幻觉。该数据集专门用于训练和评估医疗领域大语言模型,致力于解决临床决策支持系统中数据来源不透明、评估基准污染及医疗场景覆盖不足等关键问题。

查看Fully Open Meditron Corpus

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们