首页 / 开源数据市场 / 正文

中山大学发布 ActionArt 数据集, 应用在视频理解、多模态学习领域

五号数据雷达开源数据市场2025-04-29 07:0335

ActionArt 是中山大学发布的数据集,于 2025-04-25 首发在 arXiv 应用于视频理解、多模态学习领域

中山大学本次发布的数据集 ActionArt, ActionArt是一个细粒度视频字幕数据集，旨在推动以人为中心的多模态理解研究。该数据集包含数千个视频，捕捉了广泛的人类动作、人-物交互和多样化的场景，每个视频都伴有详细的注释，精确地标注了每个肢体动作。我们开发了八个子任务，以评估现有大型多模态模型在不同维度上的细粒度理解能力。实验结果表明，尽管当前的大型多模态模型在各种任务上表现良好，但它们往往在实现细粒度理解方面有所欠缺。我们认为，这种局限性主要归因于精细标注数据的稀缺，这些数据既昂贵又难以手动扩展。由于手动注释既昂贵又难以扩展，我们提出了代理任务来增强模型在空间和时间维度上的感知能力。这些代理任务经过精心设计，由现有大型语言模型自动生成的数据驱动，从而减少了对外部昂贵手动标签的依赖。实验结果表明，提出的代理任务显著缩小了与手动标注细粒度数据相比的性能差距。

查看ActionArt

关于中山大学 , 中山大学是中国一所综合性大学，位于广东省的广州市，是中国教育部直属的全国重点大学，也是国家“211工程”和“985工程”重点支持的大学之一。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

中山大学 发布 ActionArt 数据集, 应用在 视频理解、多模态学习 领域

社区讨论

中山大学发布 ActionArt 数据集, 应用在视频理解、多模态学习领域