随着多模态大模型的落地应用加速,视频理解能力已成为衡量大模型通用智能水平的核心指标之一,但当前行业内多数视频大语言模型普遍存在「运动方向盲区」——对画面中物体的移动方向识别准确率偏低,甚至出现完全颠倒的判断误差,这一短板直接限制了多模态大模型在智能驾驶、安防监控、机器人交互等对感知精度要求较高的场景落地。针对这一行业共性痛点,庆熙大学联合普林斯顿大学研究团队近日正式发布专用数据集家族MODIRECT,专为系统诊断和改善视频大语言模型对图像平面符号化运动方向的识别能力设计,是当前全球范围内首个针对运动方向感知场景的垂直化专用数据集体系。
该数据集家族共包含三大功能明确的子集:MODIRECT-INST子集专为模型指令微调场景打造,可提供标准化的运动方向标注训练数据;MODIRECT-SYNBENCH子集面向合成视频评估场景,MODIRECT-REALBENCH子集则面向真实视频评估场景,三者形成了从训练到全场景评测的完整数据支撑体系。其中合成部分采用2×2控制设计,涵盖几何图元与真实物体剪影两种前景类型,搭配合成与真实两类背景的多维度组合变体,可实现对不同场景下运动方向感知能力的交叉验证。
在构建逻辑上,MODIRECT通过程序化生成高精度合成视频,并整合Something-Something-V2等行业通用真实视频源完成数据集搭建,构建过程中严格控制运动轨迹与背景变量,最大程度隔离方向感知信号,避免其他环境要素对模型方向识别能力评测的干扰,可为视频大语言模型提供精准的运动方向监督信号,推动模型在基础时空感知能力上的实质性突破。
从应用价值来看,MODIRECT的落地场景覆盖多模态大模型研发全流程:在模型评测环节,可作为标准化基准工具,快速定位不同模型在运动方向识别上的能力短板;在训练环节,可通过高质量标注数据提升模型微调效率。下游潜在应用场景也十分广阔:在智能驾驶领域,可用于优化舱内多模态交互模型对驾驶员手势方向、车外移动物体运动方向的识别精度,降低感知误差;在安防监控领域,可助力异常行为识别模型准确判断人员、车辆的移动方向,提升入侵预警、轨迹追踪的准确率;在内容创作领域,可用于优化AI视频生成工具对运动指令的理解能力,避免生成的视频出现运动方向与用户指令不符的问题;此外在机器人导航、体感游戏交互、体育赛事智能分析等领域,该数据集也能为相关多模态模型的能力迭代提供核心数据支撑。
作为人工智能基础数据资源体系的重要组成部分,垂直领域专用数据集是大模型能力迭代的核心底座,MODIRECT的发布填补了视频大语言模型运动方向感知领域的专用数据空白,对推动多模态大模型从「感知内容」向「感知逻辑」升级、加速多模态技术落地实体产业具有重要的行业价值。
首页 / 开源数据市场 / 正文
庆熙大学联合普林斯顿发布MODIRECT专用数据集 破解视频大语言模型时空感知盲区
五号数据雷达开源数据市场2026-05-23 06:0113
韩国庆熙大学联合美国普林斯顿大学研究团队于2026年5月22日在预印本平台arXiv首发MODIRECT数据集家族,专为视频大语言模型的运动方向理解能力优化提供标准化训练与评测基准,可广泛应用于多模态大模型时空感知能力迭代、智能交互场景模型优化等领域。

社区讨论
近期热门




_1769672084863.jpg)