随着开放科学理念的普及与科研大模型赛道的快速发展,科学图表的可复现性、跨平台适配需求持续攀升,而高质量的跨模态、跨语言对齐标注数据集,一直是制约图表代码生成、多语言脚本自动转换等技术落地的核心瓶颈。此前全球范围内尚未出现同时覆盖多类编程语言、经过严格质量校验的图表-代码对齐基准数据集,相关研究往往受限于样本规模不足、类型覆盖不全、标注精度不高等问题。
2026年4月27日,新加坡管理大学在预印本平台arXiv正式发布跨语言图表-代码对齐数据集Chart2NCode,填补了这一领域的空白。据介绍,Chart2NCode是由新加坡管理大学构建的专用基准数据集,共包含17.6万组图表图像与Python/R/LaTeX多语言脚本的四元组匹配样本,覆盖20种常见科研图表类型,三类语言脚本的平均token长度分别为Python(384.1)、R(591.8)和LaTeX(637.1)。该数据集通过自动化元数据提取和模板实例化流程完成批量构建,所有样本均经过渲染验证和人工质量双重检查,确保图表与代码的匹配精度、脚本可运行性均符合科研级应用要求。作为全球首个支持多语言图表代码生成研究的基准数据集,其通过视觉对齐的跨语言脚本监督机制,旨在从数据层支撑技术研发,提升科学图表的重现性、编辑性和多平台适用性。
从应用场景来看,Chart2NCode的落地价值覆盖科研全流程多个环节:在图表代码生成方向,基于该数据集训练的多模态模型可直接识别输入的图表图像,自动输出对应可运行的多语言代码,大幅降低科研人员复刻论文图表、调整可视化方案的时间成本,解决传统场景下旧论文无配套代码、手动编写图表脚本效率低的痛点;在多语言脚本转换方向,该数据集的跨语言对齐标注可支撑模型实现Python、R、LaTeX三类脚本的自动转换,适配不同数据分析环境、期刊出版格式的差异化要求;此外,该数据集还可作为科研大模型的专用评测基准,用于验证大模型在科学可视化、代码生成领域的能力精度,推动科研辅助大模型的技术迭代。
业内分析指出,科研类高质量标注数据集是当前数据要素市场中的稀缺资源,Chart2NCode的发布不仅为相关技术研发提供了核心数据支撑,也为开放科学生态建设、科研数字化转型提供了新的基础设施级工具,有望进一步推动科学成果的可复用性,降低科研创新的门槛。





_1769672084863.jpg)