five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Multimedia Computing Group-Nanjing University发布LongVPO-Training-Data数据集,应用在长视频理解、多模态学习领域

五号数据雷达开源数据市场2026-03-08 01:2637
LongVPO-Training-Data是Multimedia Computing Group-Nanjing University发布的数据集,于2026-03-07首发在HuggingFace应用于长视频理解、多模态学习领域

Multimedia Computing Group-Nanjing University本次发布的数据集LongVPO-Training-Data,LongVPO是一个用于长视频偏好优化的多模态数据集,旨在通过两个渐进式训练阶段提升模型的视频理解能力。第一阶段(Anchored Cues Optimization)使用来自LLaVA-Video-178K的短到长视频对齐数据,专注于锚定关键时间事件以防止注意力漂移。第二阶段(Self-Reasoning Optimization)则利用Vript的长视频数据集,训练模型自主推理跨视频的多个事件。数据集规模在10K到100K之间,适用于视频文本到文本和视觉问答任务。

查看LongVPO-Training-Data

关于Multimedia Computing Group-Nanjing University,Multimedia Computing Group-Nanjing University是南京大学的一个研究组织,专注于多媒体计算技术的研究与应用,致力于推动多媒体技术的发展和创新。

关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们