HIPOLE Jena 本次发布的数据集 ChemPile, ChemPile是一个超过750亿tokens的开放化学数据集,专为化学科学中通用模型的训练和评估而构建。数据集涵盖了从教育基础到专业知识的化学学习过程,包括多种模态和内容类型,如结构化的化学表示(SMILES、SELFIES、IUPAC名称、InChI、分子渲染)、科学和教育文本、可执行代码以及化学图像。ChemPile集成了基础知识、专业知识和高级推理,反映了人类化学家通过多样学习材料和经验发展专业知识的历程。数据集通过数百小时的专家整理和注释,捕捉了基础概念和特定领域的复杂性,并提供了标准化的训练、验证和测试分割,以实现强大的基准测试。ChemPile通过HuggingFace以一致的应用程序编程接口、许可和详细文档公开发布,旨在作为化学人工智能的催化剂,促进下一代化学基础模型的发展。
Dataset card 内容:
Files and versions 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)