首页 / 开源数据市场 / 正文

Salesforce 发布 blip3-ocr-200m 数据集, 应用在视觉语言模型、光学字符识别领域

五号数据雷达开源数据市场2024-12-13 01:4541

blip3-ocr-200m 是 Salesforce 发布的数据集,于 2024-09-05 首发在 HuggingFace 应用于视觉语言模型、光学字符识别领域

Salesforce 本次发布的数据集 blip3-ocr-200m, BLIP3-OCR-200M数据集是一个专门设计用于增强视觉语言模型（VLMs）处理和解释文本丰富图像（如文档和图表）的数据集。它通过在预训练阶段整合光学字符识别（OCR）数据，解决了传统图像文本数据集的局限性，提供了详细的文本信息以及视觉数据。该数据集以Parquet格式存储，便于高效存储、处理和检索OCR元数据和图像。它包含约200万个样本，组织成50个Parquet文件，每个文件包含扁平化和清理后的数据。该数据集的主要目标是通过在预训练数据集中丰富详细的文本信息，提高VLMs在处理复杂文本丰富图像任务中的跨模态推理能力。

查看blip3-ocr-200m

Dataset card 内容：

Files and versions 内容：

关于 Salesforce , Salesforce是全球领先的云计算公司，专注于提供CRM软件和服务。

关于 HuggingFace , Hugging Face是一个机器学习社区协作平台，专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型，包括文本、图像、视频、音频和3D数据，并提供开源工具和付费计算及企业解决方案。

社区讨论

近期热门

Salesforce 发布 blip3-ocr-200m 数据集, 应用在 视觉语言模型、光学字符识别 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

Salesforce 发布 blip3-ocr-200m 数据集, 应用在视觉语言模型、光学字符识别领域