矢量研究所 本次发布的数据集 OPEN-PMC-18M, OPEN-PMC-18M是一个大规模的高质量生物医学视觉-语言数据集,包含1800万个临床相关的子图-标题对,涵盖放射学、显微镜和可见光摄影。该数据集由矢量研究所和约克大学的研究人员创建,旨在解决大规模子图提取问题,通过基于Transformer的对象检测技术,从500,000个合成复合图中提取子图,并取得了突破性的性能。该数据集的创建过程包括从BIOMEDICA语料库中筛选出6百万个图像-标题对,然后使用DAB-DETR模型进行子图提取,并进一步筛选出18百万个高质量图像-标题对。OPEN-PMC-18M数据集旨在支持生物医学视觉-语言模型的训练和评估,并解决医疗领域的视觉-语言表示学习问题。
Dataset card 内容:
Files and versions 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)