five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

M42 发布 HC4: Healthcare Comprehensive Commons Corpus 数据集, 应用在 医疗健康、自然语言处理 领域

五号数据雷达开源数据市场2025-10-23 14:1114
HC4: Healthcare Comprehensive Commons Corpus 是 M42 发布的数据集,于 2025-10-21 首发在 arXiv 应用于 医疗健康、自然语言处理 领域

M42 本次发布的数据集 HC4: Healthcare Comprehensive Commons Corpus, HC4是一个超过890亿tokens的新的、广泛校对的前训练数据集,专为医疗保健应用设计。它的创建涉及一个精心设计的从数据收集到预处理的流程,强调数据质量、多样性的来源(包括科学期刊、医学档案、教科书和临床指南)以及严格的文档级别的去重技术。HC4为社区提供了一个大规模的、公开可用的资源,它不仅是一个重大的贡献,还为我们所提出的偏见分析框架提供了一个关键的测试对象。数据集旨在支持医疗保健领域语言模型的公平性和安全性,并解决因数据偏差可能导致的不公平结果问题。

查看HC4: Healthcare Comprehensive Commons Corpus

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们