SMolInstruct是俄亥俄州立大学提出的一个大规模、全面且高质量的化学指令微调数据集,该数据集包含14个不同的化学任务,共超过300万个样本,涵盖160万个独特的分子。其从多个来源收集与化学任务相关的数据,涵盖了IUPAC名称、SMILES表示、分子式等化学知识表示,以及分子属性预测、化学反应预测、分子描述等任务。构建流程包括四个步骤:数据收集、质量控制、数据划分和指令构建。该数据集是训练化学领域大模型的基础和关键,它的构建对化学大模型的发展具有重要意义。
数据集地址:
https://github.com/OSU-NLP-Group/LLM4Chem
https://huggingface.co/datasets/osunlp/SMolInstruct





_1769672084863.jpg)