中山大学 本次发布的数据集 ActionArt, ActionArt是一个细粒度视频字幕数据集,旨在推动以人为中心的多模态理解研究。该数据集包含数千个视频,捕捉了广泛的人类动作、人-物交互和多样化的场景,每个视频都伴有详细的注释,精确地标注了每个肢体动作。我们开发了八个子任务,以评估现有大型多模态模型在不同维度上的细粒度理解能力。实验结果表明,尽管当前的大型多模态模型在各种任务上表现良好,但它们往往在实现细粒度理解方面有所欠缺。我们认为,这种局限性主要归因于精细标注数据的稀缺,这些数据既昂贵又难以手动扩展。由于手动注释既昂贵又难以扩展,我们提出了代理任务来增强模型在空间和时间维度上的感知能力。这些代理任务经过精心设计,由现有大型语言模型自动生成的数据驱动,从而减少了对外部昂贵手动标签的依赖。实验结果表明,提出的代理任务显著缩小了与手动标注细粒度数据相比的性能差距。
关于 中山大学 , 中山大学是中国一所综合性大学,位于广东省的广州市,是中国教育部直属的全国重点大学,也是国家“211工程”和“985工程”重点支持的大学之一。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)