首页 / 开源数据市场 / 正文

中科大联合小红书发布VideoSeeker数据集攻关实例级视频理解痛点赋能多模态AI交互场景

五号数据雷达开源数据市场2026-05-19 05:5213

中国科学技术大学联合小红书等机构于2026年5月15日在arXiv首发大规模视觉提示问答数据集VideoSeeker，瞄准当前实例级视频理解技术普遍存在的细粒度时空定位、多对象推理能力不足的痛点，将为多模态大模型训练、具身智能交互等领域提供高质量训练数据支撑。

当前多模态大模型正进入场景落地的关键阶段，视频作为互联网内容生态中占比最高、信息密度最大的载体，对AI的理解能力提出了远超静态图像的要求：不仅要识别整体内容，更要实现时序维度的细粒度实例定位、多对象关联推理，而高质量标注数据集的缺失，一直是该领域技术突破的核心瓶颈之一。

近日，中国科学技术大学联合小红书公司等机构发布的大规模视觉提示问答数据集VideoSeeker正是瞄准这一行业痛点打造，该数据集于2026年5月15日首发于学术预印本平台arXiv，是国内为数不多面向实例级视频理解场景的专用训练数据集。

据公开信息显示，VideoSeeker通过四阶段全自动数据合成管道高效生成，无需依赖高成本的人工逐帧标注，流程覆盖低成本文本过滤、视频级验证、像素级掩码生成与视觉提示渲染四大环节，最终形成了包含高质量视频-视觉提示-问答三元组的训练数据集，实现了多样化视觉提示类型与自然语言描述的高精度对齐，可有效弥补现有训练数据在细粒度时空标注维度的不足。

从应用方向来看，该数据集可广泛覆盖多个高价值AI落地场景：在内容平台领域，可支撑短视频、直播场景的智能内容检索、智能交互客服升级，用户无需遍历完整视频，即可通过自然语言提问直接定位到特定商品、特定片段的对应信息，大幅提升内容消费效率；在安防与城市治理领域，可辅助公共监控系统实现特定实例的时序追踪、异常事件关联推理，提升事件回溯、风险预判的精准度；在具身智能与智能家居领域，可用于训练服务机器人的动态场景理解能力，支持响应“把刚才桌上放的蓝色文件夹拿过来”这类包含时序信息的复杂交互指令；在自动驾驶领域，也可为动态路况下的多目标行为预判、复杂场景决策提供训练支撑。

该数据集的核心价值在于推动智能体化推理与实例级视频理解的深度融合，为AI模型提供精准的空间与时间参考，显著提升复杂多对象场景下的交互效率与用户体验。作为AI训练数据要素领域的最新成果，VideoSeeker的发布不仅填补了国内实例级视觉提示问答数据集的供给空白，其首创的全自动数据合成管道也为后续大规模AI训练数据集的低成本、高质量构建提供了可复用的技术路径，对推动多模态AI技术落地、数字内容产业智能化升级都具备积极的行业价值。

查看VideoSeeker

详情页内容：

社区讨论

近期热门

中科大联合小红书发布VideoSeeker数据集 攻关实例级视频理解痛点 赋能多模态AI交互场景

详情页内容：

社区讨论

中科大联合小红书发布VideoSeeker数据集攻关实例级视频理解痛点赋能多模态AI交互场景