five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】Square-10M - 文本中心视觉问答千万级高质量指令微调数据集

五号雷达开源数据市场2024-04-27 10:1952
该数据集的创建是为了弥补现有开源模型与领先闭源模型之间的性能差距,为提升文本中心视觉问答任务的性能提供了重要的资源。

Square-10M是一个由字节跳动、华东师范大学和华中科技大学联合创建的千万级文本中心视觉问答(VQA)指令微调数据集。该数据集包含约3800万个丰富文本元素的图像,涵盖了自然场景、图表、表格、收据、书籍、幻灯片、PDF文档、产品和网络图片等多样化场景。该数据集的构建过程被称为Square,包括自我提问(Self-Questioning)、回答(Answering)、推理(Reasoning)和评估(Evaluation)四个步骤。基于Square流程,研究人员从这些图像中生成了2000万个问答对,并通过一系列评估和筛选步骤,最终提炼出910万个高质量的问答对及其推理上下文。该数据集的创建是为了弥补现有开源模型与领先闭源模型之间的性能差距,为提升文本中心视觉问答任务的性能提供了重要的资源。

详情请参见五号雷达:https://www.5radar.com/result?key=Square-10M

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们