five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】SMolInstruct - 化学指令微调数据集

五号雷达开源数据市场2024-03-04 16:34107
SMolInstruct是俄亥俄州立大学提出的一个大规模、全面且高质量的化学指令微调数据集,该数据集包含14个不同的化学任务,共超过300万个样本,涵盖160万个独特的分子。

SMolInstruct是俄亥俄州立大学提出的一个大规模、全面且高质量的化学指令微调数据集,该数据集包含14个不同的化学任务,共超过300万个样本,涵盖160万个独特的分子。其从多个来源收集与化学任务相关的数据,涵盖了IUPAC名称、SMILES表示、分子式等化学知识表示,以及分子属性预测、化学反应预测、分子描述等任务。构建流程包括四个步骤:数据收集、质量控制、数据划分和指令构建。该数据集是训练化学领域大模型的基础和关键,它的构建对化学大模型的发展具有重要意义。

数据集地址:
https://github.com/OSU-NLP-Group/LLM4Chem
https://huggingface.co/datasets/osunlp/SMolInstruct
数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们