洛桑联邦理工学院本次发布的数据集Fully Open Meditron Corpus,Fully Open Meditron Corpus是由洛桑联邦理工学院LiGHT实验室构建的首个全开放临床决策支持系统数据集,旨在通过可审计的数据管道提升医疗大语言模型的透明度和可复现性。该数据集整合了八个公开医疗问答数据集,并扩展了三个经临床医生审核的合成组件,涵盖考试风格问答、基于临床指南的问答及临床情景案例,通过系统级去污染处理确保与评估基准无重叠。数据构建过程采用临床医生参与的提示工程和GPT-OSS-120B生成技术,并辅以黄金标签拒绝采样控制幻觉。该数据集专门用于训练和评估医疗领域大语言模型,致力于解决临床决策支持系统中数据来源不透明、评估基准污染及医疗场景覆盖不足等关键问题。





_1769672084863.jpg)