five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

清华大学 发布 ChartGalaxy 数据集, 应用在 信息图表、自然语言处理 领域

五号数据雷达开源数据市场2025-05-28 07:3867
ChartGalaxy 是 清华大学 发布的数据集,于 2025-05-24 首发在 arXiv 应用于 信息图表、自然语言处理 领域

清华大学 本次发布的数据集 ChartGalaxy, ChartGalaxy是一个包含高质量真实和合成信息图表的大规模数据集,旨在促进自动理解和生成。数据集通过归纳过程构建,从真实信息图表中识别75种图表类型、330种图表变化和68种布局模板,并使用这些模式程序化地创建合成图表。该数据集包括1,151,087个程序化创建的信息图表和104,519个真实信息图表,每个图表都与用于创建它的表格数据配对。数据集的应用领域包括信息图表理解、代码生成和信息图表生成,旨在解决大型视觉语言模型在理解和生成信息图表方面的挑战。

查看ChartGalaxy

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 清华大学 , 清华大学是中国的一所综合性研究型大学,位于北京市,是中国的顶尖学府之一,也是世界知名的高等教育机构。该校在工程、计算机科学、材料科学等多个领域都有显著的研究成果和国际影响力。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们