同济大学 本次发布的数据集 M3-20M, M3-20M是由同济大学和复旦大学联合创建的一个大规模多模态分子数据集,包含超过2000万种分子。该数据集整合了一维SMILES、二维分子图、三维分子结构、理化性质和文本描述,旨在支持AI驱动的药物设计和发现。数据集通过网络爬虫和GPT-3.5生成文本描述,提供了前所未有的数据规模和多样性。M3-20M的创建过程包括从PubChem、ZINC和QM9数据库中收集分子数据,并进行多模态处理。该数据集主要应用于药物设计、分子生成、分子性质预测等领域,旨在提升AI模型在药物发现中的性能。
README 内容:
关于 同济大学 , 同济大学是中国的一所著名综合性大学,位于上海市,以工科见长,尤其在土木工程、建筑学和环境科学等领域享有盛誉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)