清华大学 本次发布的数据集 ChartGalaxy, ChartGalaxy是一个包含高质量真实和合成信息图表的大规模数据集,旨在促进自动理解和生成。数据集通过归纳过程构建,从真实信息图表中识别75种图表类型、330种图表变化和68种布局模板,并使用这些模式程序化地创建合成图表。该数据集包括1,151,087个程序化创建的信息图表和104,519个真实信息图表,每个图表都与用于创建它的表格数据配对。数据集的应用领域包括信息图表理解、代码生成和信息图表生成,旨在解决大型视觉语言模型在理解和生成信息图表方面的挑战。
Dataset card 内容:
Files and versions 内容:
关于 清华大学 , 清华大学是中国的一所综合性研究型大学,位于北京市,是中国的顶尖学府之一,也是世界知名的高等教育机构。该校在工程、计算机科学、材料科学等多个领域都有显著的研究成果和国际影响力。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)