阿里巴巴集团本次发布的数据集OmniParsingBench,OmniParsingBench是由阿里巴巴集团提出的一个多模态解析基准数据集,旨在支持文档、图像和视听流的统一解析。该数据集包含丰富的知识密集型图像样本和优化的视频注释,用于细粒度分析和长教育内容理解。数据集构建过程采用了三阶段渐进式解析框架,从整体检测到细粒度识别再到多级解释,最终输出标准化的JSON格式数据。该数据集主要应用于多模态大语言模型的训练和评估,旨在解决复杂视听信号到结构化知识的转换问题,提升模型在检索增强生成、问答等下游任务中的可靠性。
关于阿里巴巴集团,阿里巴巴集团是中国最大的电子商务公司之一,成立于1999年,总部位于杭州。公司业务涵盖电子商务、云计算、数字媒体和娱乐等多个领域,是全球领先的互联网科技公司之一。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)