Meta AI 本次发布的数据集 OneStory多镜头视频数据集, 该数据集由Meta AI与哥本哈根大学联合构建,包含约6万条高质量多镜头视频序列,专为长程叙事一致性建模而设计。数据内容聚焦人类中心活动,通过三阶段流程(镜头检测、两阶段标注、质量过滤)从原始视频中提取,每个镜头配备具有指代关系的渐进式文本描述。区别于传统全局脚本标注,采用镜头级参照性标注策略,确保叙事灵活性与真实拍摄场景相符,支持复杂场景下的跨镜头上下文建模。数据集主要应用于多镜头视频生成领域,旨在解决现有方法在长程叙事一致性和时空推理方面的局限性。
关于 Meta AI , Meta AI是Meta公司(原Facebook)旗下的人工智能研究实验室,专注于推动人工智能领域的前沿研究,涵盖机器学习、计算机视觉、自然语言处理等多个方向。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)