five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

HIPOLE Jena 发布 ChemPile 数据集, 应用在 化学信息学、人工智能 领域

五号数据雷达开源数据市场2025-05-21 07:4365
ChemPile 是 HIPOLE Jena 发布的数据集,于 2025-05-19 首发在 arXiv 应用于 化学信息学、人工智能 领域

HIPOLE Jena 本次发布的数据集 ChemPile, ChemPile是一个超过750亿tokens的开放化学数据集,专为化学科学中通用模型的训练和评估而构建。数据集涵盖了从教育基础到专业知识的化学学习过程,包括多种模态和内容类型,如结构化的化学表示(SMILES、SELFIES、IUPAC名称、InChI、分子渲染)、科学和教育文本、可执行代码以及化学图像。ChemPile集成了基础知识、专业知识和高级推理,反映了人类化学家通过多样学习材料和经验发展专业知识的历程。数据集通过数百小时的专家整理和注释,捕捉了基础概念和特定领域的复杂性,并提供了标准化的训练、验证和测试分割,以实现强大的基准测试。ChemPile通过HuggingFace以一致的应用程序编程接口、许可和详细文档公开发布,旨在作为化学人工智能的催化剂,促进下一代化学基础模型的发展。

查看ChemPile

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们