首页 / 开源数据市场 / 正文

新加坡管理大学发布Chart2NCode基准数据集填补多语言图表代码生成领域空白

五号数据雷达开源数据市场2026-04-29 04:548

新加坡管理大学于2026年4月27日在预印本平台arXiv首发跨语言图表-代码对齐数据集Chart2NCode，覆盖17.6万组多语言脚本匹配样本，为图表代码生成、多语言脚本转换等领域的技术研发与模型评测提供首个专用基准支撑。

随着开放科学理念的普及与科研大模型赛道的快速发展，科学图表的可复现性、跨平台适配需求持续攀升，而高质量的跨模态、跨语言对齐标注数据集，一直是制约图表代码生成、多语言脚本自动转换等技术落地的核心瓶颈。此前全球范围内尚未出现同时覆盖多类编程语言、经过严格质量校验的图表-代码对齐基准数据集，相关研究往往受限于样本规模不足、类型覆盖不全、标注精度不高等问题。

2026年4月27日，新加坡管理大学在预印本平台arXiv正式发布跨语言图表-代码对齐数据集Chart2NCode，填补了这一领域的空白。据介绍，Chart2NCode是由新加坡管理大学构建的专用基准数据集，共包含17.6万组图表图像与Python/R/LaTeX多语言脚本的四元组匹配样本，覆盖20种常见科研图表类型，三类语言脚本的平均token长度分别为Python(384.1)、R(591.8)和LaTeX(637.1)。该数据集通过自动化元数据提取和模板实例化流程完成批量构建，所有样本均经过渲染验证和人工质量双重检查，确保图表与代码的匹配精度、脚本可运行性均符合科研级应用要求。作为全球首个支持多语言图表代码生成研究的基准数据集，其通过视觉对齐的跨语言脚本监督机制，旨在从数据层支撑技术研发，提升科学图表的重现性、编辑性和多平台适用性。

从应用场景来看，Chart2NCode的落地价值覆盖科研全流程多个环节：在图表代码生成方向，基于该数据集训练的多模态模型可直接识别输入的图表图像，自动输出对应可运行的多语言代码，大幅降低科研人员复刻论文图表、调整可视化方案的时间成本，解决传统场景下旧论文无配套代码、手动编写图表脚本效率低的痛点；在多语言脚本转换方向，该数据集的跨语言对齐标注可支撑模型实现Python、R、LaTeX三类脚本的自动转换，适配不同数据分析环境、期刊出版格式的差异化要求；此外，该数据集还可作为科研大模型的专用评测基准，用于验证大模型在科学可视化、代码生成领域的能力精度，推动科研辅助大模型的技术迭代。

业内分析指出，科研类高质量标注数据集是当前数据要素市场中的稀缺资源，Chart2NCode的发布不仅为相关技术研发提供了核心数据支撑，也为开放科学生态建设、科研数字化转型提供了新的基础设施级工具，有望进一步推动科学成果的可复用性，降低科研创新的门槛。

查看Chart2NCode

详情页内容：

社区讨论

近期热门

新加坡管理大学发布Chart2NCode基准数据集 填补多语言图表代码生成领域空白

详情页内容：

社区讨论

新加坡管理大学发布Chart2NCode基准数据集填补多语言图表代码生成领域空白