首页 / 开源数据市场 / 正文

Multimedia Computing Group-Nanjing University发布LongVPO-Training-Data数据集,应用在长视频理解、多模态学习领域

五号数据雷达开源数据市场2026-03-08 01:2637

LongVPO-Training-Data是Multimedia Computing Group-Nanjing University发布的数据集,于2026-03-07首发在HuggingFace应用于长视频理解、多模态学习领域

Multimedia Computing Group-Nanjing University本次发布的数据集LongVPO-Training-Data,LongVPO是一个用于长视频偏好优化的多模态数据集，旨在通过两个渐进式训练阶段提升模型的视频理解能力。第一阶段（Anchored Cues Optimization）使用来自LLaVA-Video-178K的短到长视频对齐数据，专注于锚定关键时间事件以防止注意力漂移。第二阶段（Self-Reasoning Optimization）则利用Vript的长视频数据集，训练模型自主推理跨视频的多个事件。数据集规模在10K到100K之间，适用于视频文本到文本和视觉问答任务。

查看LongVPO-Training-Data

关于Multimedia Computing Group-Nanjing University,Multimedia Computing Group-Nanjing University是南京大学的一个研究组织，专注于多媒体计算技术的研究与应用，致力于推动多媒体技术的发展和创新。

关于HuggingFace,Hugging Face是一个机器学习社区协作平台，专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型，包括文本、图像、视频、音频和3D数据，并提供开源工具和付费计算及企业解决方案。

社区讨论

近期热门