爱丁堡大学 本次发布的数据集 Implicit-VidSRL, Implicit-VidSRL数据集由爱丁堡大学和达姆施塔特工业大学联合创建,旨在帮助AI更好地理解和推理程序视频中的上下文和动作序列。该数据集包含231个视频,每个视频都包含多步骤的烹饪说明,并标注了显式和隐式论元,以帮助模型学习如何从视觉和文本上下文中推断出这些隐式论元。数据集的创建过程包括三个阶段:识别隐式实体、将多步骤指令转换为语义角色标签、手动校正自动生成的标签。该数据集可用于评估多模态模型的上下文推理能力和实体跟踪能力,旨在解决多模态程序数据中隐式论元预测的问题。
关于 爱丁堡大学 , 爱丁堡大学是一所位于英国苏格兰爱丁堡的世界顶尖学府,拥有悠久的历史和卓越的学术声誉,提供广泛的本科和研究生课程。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)