清华大学本次发布的数据集Vision2Web,Vision2Web是由清华大学与智谱AI联合构建的多层次视觉网站开发基准数据集,涵盖从静态页面生成到全栈开发的193项任务,包含918张原型图像和1255个测试用例。数据集通过严格的三阶段流程(结构评估、内容筛选、人工审核)从真实网站中提取,确保功能丰富性和视觉一致性。其核心任务分为静态网页、交互式前端和全栈网站三个层级,旨在系统性评估多模态编码代理的跨模态推理、长程规划及系统构建能力,为端到端软件开发提供标准化测试平台。
关于清华大学,清华大学是中国著名的高等学府,位于北京市海淀区,创建于1911年。作为中国顶尖的综合性研究型大学之一,清华大学在工程、计算机科学、经济管理等领域具有卓越的学术声誉和科研实力。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)