莫菲特癌症中心 本次发布的数据集 TheBlueScrubs-v1, TheBlueScrubs-v1是由莫菲特癌症中心等机构创建的医学数据集,从互联网上广泛收集,包含了超过25亿个医学Token,是PubMed的三倍之大。数据集由11.5百万份文档组成,每份文档都经过细致的医疗相关性和质量评估,标注有医学概率分数、三个大型语言模型评估的质量分数以及癌症相关标签。该数据集旨在为医学大型语言模型的开发提供支持,能够应用于模型训练、合成数据生成、错误信息检测和安全测试等多个领域。
Dataset card 内容:
Files and versions 内容:
关于 莫菲特癌症中心 , 莫菲特癌症中心与研究所是美国著名的癌症研究和治疗机构,位于佛罗里达州坦帕市。该中心致力于癌症的预防、诊断、治疗和研究,拥有先进的医疗设施和多学科的专家团队,为患者提供全面的癌症护理。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。




_1769672084863.jpg)