five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

阿里巴巴集团发布OmniParsingBench数据集,应用在多模态解析、大语言模型领域

五号数据雷达开源数据市场2026-03-12 03:2138
OmniParsingBench是阿里巴巴集团发布的数据集,于2026-03-10首发在arXiv应用于多模态解析、大语言模型领域

阿里巴巴集团本次发布的数据集OmniParsingBench,OmniParsingBench是由阿里巴巴集团提出的一个多模态解析基准数据集,旨在支持文档、图像和视听流的统一解析。该数据集包含丰富的知识密集型图像样本和优化的视频注释,用于细粒度分析和长教育内容理解。数据集构建过程采用了三阶段渐进式解析框架,从整体检测到细粒度识别再到多级解释,最终输出标准化的JSON格式数据。该数据集主要应用于多模态大语言模型的训练和评估,旨在解决复杂视听信号到结构化知识的转换问题,提升模型在检索增强生成、问答等下游任务中的可靠性。

查看OmniParsingBench

关于阿里巴巴集团,阿里巴巴集团是中国最大的电子商务公司之一,成立于1999年,总部位于杭州。公司业务涵盖电子商务、云计算、数字媒体和娱乐等多个领域,是全球领先的互联网科技公司之一。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们