five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

IBM研究院发布IP5-M; USPTO-MOL-M数据集,应用在化学结构识别、专利分析领域

五号数据雷达开源数据市场2026-04-01 05:0143
IP5-M; USPTO-MOL-M是IBM研究院发布的数据集,于2026-03-30首发在arXiv应用于化学结构识别、专利分析领域

IBM研究院本次发布的数据集IP5-M; USPTO-MOL-M,IP5-M是由IBM研究院与苏黎世联邦理工学院联合构建的化学结构多模态识别基准数据集,包含从IP5专利局文件中手工标注的真实Markush结构。USPTO-MOL-M则是通过自动管道从USPTO提供的MOL文件中提取的大规模训练数据集,包含23.5万条图像-CXSMILES对,涵盖2010至2025年的专利数据。这些数据集通过融合视觉、文本和布局信息,支持化学结构识别模型的训练与评估,主要应用于化学专利分析、分子检索和药物发现等领域,旨在解决化学文献中复杂Markush结构的自动化识别难题。

查看IP5-M; USPTO-MOL-M

README内容:

 

关于IBM研究院,IBM研究院是IBM公司的研究部门,成立于1945年,是全球领先的企业研究机构之一,专注于计算机科学、人工智能、量子计算等前沿技术领域的研究与创新。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们