five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】ApolloCorpora - 多语言医疗数据集

五号雷达开源数据市场2024-03-11 17:04124
ApolloCorpora是深圳市大数据研究院和香港中文大学的研究团队联合构建的一个多语言医疗数据集。该数据集为多语言医疗AI模型的开发与评估提供了坚实基础,有助于推动医疗AI技术的全球应用。

ApolloCorpora是深圳市大数据研究院和香港中文大学的研究团队联合构建的一个多语言医疗数据集。该数据集涵盖了全球61亿人口使用的六种主要语言,包括英语、中文、印地语、西班牙语、法语和阿拉伯语。数据收集涉及书籍、临床指南、百科全书、论文、论坛和考试等。数据处理方面,研究者将原始预训练语料转换为问答对,以增强模型的医疗能力。ApolloCorpora还注重本地化特征,如症状诊断、药物名称、沟通术语及医疗实践标准,以适应不同文化和医疗体系。该数据集为多语言医疗AI模型的开发与评估提供了坚实基础,有助于推动医疗AI技术的全球应用。

数据集地址:
https://github.com/FreedomIntelligence/Apollo
https://huggingface.co/datasets/FreedomIntelligence/ApolloCorpus
数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们