M42 本次发布的数据集 HC4: Healthcare Comprehensive Commons Corpus, HC4是一个超过890亿tokens的新的、广泛校对的前训练数据集,专为医疗保健应用设计。它的创建涉及一个精心设计的从数据收集到预处理的流程,强调数据质量、多样性的来源(包括科学期刊、医学档案、教科书和临床指南)以及严格的文档级别的去重技术。HC4为社区提供了一个大规模的、公开可用的资源,它不仅是一个重大的贡献,还为我们所提出的偏见分析框架提供了一个关键的测试对象。数据集旨在支持医疗保健领域语言模型的公平性和安全性,并解决因数据偏差可能导致的不公平结果问题。
查看HC4: Healthcare Comprehensive Commons Corpus
Dataset card 内容:
Files and versions 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)