Multimedia Computing Group-Nanjing University本次发布的数据集LongVPO-Training-Data,LongVPO是一个用于长视频偏好优化的多模态数据集,旨在通过两个渐进式训练阶段提升模型的视频理解能力。第一阶段(Anchored Cues Optimization)使用来自LLaVA-Video-178K的短到长视频对齐数据,专注于锚定关键时间事件以防止注意力漂移。第二阶段(Self-Reasoning Optimization)则利用Vript的长视频数据集,训练模型自主推理跨视频的多个事件。数据集规模在10K到100K之间,适用于视频文本到文本和视觉问答任务。
关于Multimedia Computing Group-Nanjing University,Multimedia Computing Group-Nanjing University是南京大学的一个研究组织,专注于多媒体计算技术的研究与应用,致力于推动多媒体技术的发展和创新。
关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)