Glint Lab本次发布的数据集UniDoc-RL,UniDoc-RL是由Glint Lab构建的高质量视觉文档检索增强生成(RAG)数据集,旨在支持多模态强化学习研究。该数据集包含丰富的推理轨迹数据,并带有细粒度的动作标注,为模型训练提供了详尽的监督信号。数据来源包括复杂视觉文档(如图表、扫描报告)的检索、选择及感知过程,通过层次化动作空间实现从粗粒度到细粒度的语义对齐。该数据集主要应用于提升大型视觉语言模型(LVLM)在复杂视觉推理任务中的性能,解决现有视觉RAG系统在检索准确性、视觉利用效率和优化奖励机制方面的核心挑战。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)