波士顿大学 本次发布的数据集 BabyVLM-V2, BabyVLM-V2是由波士顿大学和索尼集团公司联合开发的婴儿启发的视觉语言建模框架,旨在通过发展心理学原理进行样本高效的预训练。该数据集包含768,000条图像-话语对,以及181,000条视频-话语对和63,000条交错序列,数据来源于SAYCam的婴儿中心视角的纵向视听语料库。数据集创建过程最大限度地减少了人工干预,以保持儿童感官摄入的真实性。BabyVLM-V2的应用领域主要集中在发展合理的视觉基础模型预训练,旨在解决早期儿童感知能力的模拟和评估问题。
关于 波士顿大学 , 波士顿大学是一所位于美国马萨诸塞州波士顿的著名私立研究型大学,成立于1839年,是美国大学协会成员。该校在医学、法学、商学等领域享有盛誉,拥有多个知名研究中心和实验室。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)