IBM研究院本次发布的数据集IP5-M; USPTO-MOL-M,IP5-M是由IBM研究院与苏黎世联邦理工学院联合构建的化学结构多模态识别基准数据集,包含从IP5专利局文件中手工标注的真实Markush结构。USPTO-MOL-M则是通过自动管道从USPTO提供的MOL文件中提取的大规模训练数据集,包含23.5万条图像-CXSMILES对,涵盖2010至2025年的专利数据。这些数据集通过融合视觉、文本和布局信息,支持化学结构识别模型的训练与评估,主要应用于化学专利分析、分子检索和药物发现等领域,旨在解决化学文献中复杂Markush结构的自动化识别难题。
README内容:
关于IBM研究院,IBM研究院是IBM公司的研究部门,成立于1945年,是全球领先的企业研究机构之一,专注于计算机科学、人工智能、量子计算等前沿技术领域的研究与创新。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)