首页 / 数据知识产权登记 / 正文

多模态大模型图像-文本数据集已成功在北京市数据知识产权进行登记，应用在图文多模态学习、人工智能生成模型领域

五号数据雷达数据知识产权登记2024-10-11 17:3847

2024-05-08 , 数据堂（北京）科技股份有限公司旗下多模态大模型图像-文本数据集数据知识产权在北京市数据知识产权完成登记 , 应用于图文多模态学习、人工智能生成模型领域

数据堂（北京）科技股份有限公司本次登记的数据知识产权多模态大模型图像-文本数据集, “多模态大模型图像-文本数据集”主要用于人工智能领域图文多模态大模型训练及测试，具体任务包括多语种文生图、图像描述、图像问答、图像对齐等。首先，数据集提供高质量原始图像，原始图像分辨率高，长宽比适宜且具备美学元素，可帮助开发人员训练出可生成高质量优美图像的大模型。其次，数据集整体经过严格数据去重操作，避免数据的重复性和相似性对模型训练带来的损害，并保证了数据特征分布的丰富性。该丰富性可使训练出的大模型支持多种场景、多种类型的图像生成，极大增强模型的泛化能力。最后，数据集中的所有图像均配备了高质量的文本描述，该描述可保证文本描述内容和图像内容的严格对应。高质量文本描述在大模型训练中有助于大模型中的文本编码器和图像编码器特征对齐，便于大模型理解图像和文本内容，使训练出的大模型更好读懂用户的文本输入，生成更符合用户文本描述的图像。

查看多模态大模型图像-文本数据集

登记内容：

关于数据堂（北京）科技股份有限公司 , 数据堂（北京）科技股份有限公司是一家专注于技术开发、技术服务以及数据处理的公司，其业务还涵盖基础与应用软件服务、市场调查、货物与技术进出口、以及人工智能系统服务等。该公司在数据领域拥有显著实力，其数据集资源覆盖多个领域，包括但不仅限于文本、语音、图像等。其数据集特点为多样性和专业性，例如，拥有大模型内容安全文本数据集、多模态大模型视频-文本数据集等，体现了公司在多模态数据处理方面的能力。此外，数据堂还在人工智能多语言处理方面有着丰富的数据集资源，如多语言平行语料文本数据集、多语言自然对话语音数据集等，显示了其在语言处理领域的深厚积累。

关于北京市数据知识产权 , 北京市数据知识产权是一个提供数据交易、数据服务和数据应用解决方案的平台，旨在促进政府、企业和社会公众之间的数据资源整合与利用。

社区讨论

近期热门