five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

矢量研究所 发布 OPEN-PMC-18M 数据集, 应用在 生物医学成像、深度学习 领域

五号数据雷达开源数据市场2025-06-05 07:2447
OPEN-PMC-18M 是 矢量研究所 发布的数据集,于 2025-06-03 首发在 arXiv 应用于 生物医学成像、深度学习 领域

矢量研究所 本次发布的数据集 OPEN-PMC-18M, OPEN-PMC-18M是一个大规模的高质量生物医学视觉-语言数据集,包含1800万个临床相关的子图-标题对,涵盖放射学、显微镜和可见光摄影。该数据集由矢量研究所和约克大学的研究人员创建,旨在解决大规模子图提取问题,通过基于Transformer的对象检测技术,从500,000个合成复合图中提取子图,并取得了突破性的性能。该数据集的创建过程包括从BIOMEDICA语料库中筛选出6百万个图像-标题对,然后使用DAB-DETR模型进行子图提取,并进一步筛选出18百万个高质量图像-标题对。OPEN-PMC-18M数据集旨在支持生物医学视觉-语言模型的训练和评估,并解决医疗领域的视觉-语言表示学习问题。

查看OPEN-PMC-18M

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们