Salesforce 本次发布的数据集 blip3-grounding-50m, BLIP3-GROUNDING-50M数据集是一个大规模的精选数据集,旨在提升视觉语言模型(VLM)在视觉特征中定位语义概念的能力。该数据集包含5000万张图像,每张图像都通过最先进的开放世界图像标签和对象检测模型进行了详细的接地信息标注。数据集包括边界框坐标、文本描述和位置上下文,以增强模型将语义概念与精确视觉特征关联的能力。该数据集的主要目的是提升VLM在需要精确对象定位和复杂图像中语义理解的任务中的性能。数据集被分为18个parquet文件,每个文件大约3GB,并包含元数据字段,如唯一标识符、图像下载的URL、详细程度不同的标题以及检测到的对象的边界框信息。
Dataset card 内容:
Files and versions 内容:
关于 Salesforce , Salesforce是全球领先的云计算公司,专注于提供CRM软件和服务。
关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)