苹果公司 本次发布的数据集 Hypersim, Hypersim是由苹果公司创建的一个用于室内场景全面理解的高真实度合成数据集。该数据集包含77,400张图像,涵盖461个室内场景,每张图像都附有详细的逐像素标签和相应的地面真实几何信息。数据集完全依赖公开可用的3D资产,包括每个场景的完整场景几何、材质信息和光照信息。此外,每张图像都包含密集的逐像素语义实例分割和完整的相机信息,以及将每张图像分解为漫反射反射、漫反射照明和一个捕捉视依赖光照效果的非漫反射残差项。Hypersim数据集适用于需要直接3D监督的几何学习问题、需要联合处理多种输入和输出模式的多任务学习问题,以及逆渲染问题。数据集的创建过程涉及从在线市场下载的场景集合,通过一个新颖的计算管道生成带有地面真实标签和相应几何的图像集合。通过分析场景、对象和像素级别的数据,以及在金钱、计算时间和标注努力方面的成本,研究发现从头开始生成整个数据集的成本大约是训练一个流行的开源自然语言处理模型成本的一半。此外,数据集在两个真实世界的场景理解任务——语义分割和3D形状预测——上进行了评估,发现预训练在Hypersim数据集上显著提高了两个任务的性能,并在最具挑战性的Pix3D测试集上达到了最先进水平。
关于 苹果公司 , 苹果公司是一家总部位于美国的跨国科技公司,专注于消费电子产品和软件服务。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)