当前多模态大语言模型的商业化与科研落地进程加快,图表理解与描述生成能力已经成为衡量多模态模型通用能力的核心指标之一。但长期以来,行业内针对图表描述的评估基准普遍存在覆盖场景单一、评估维度片面的问题:多数现有基准仅能验证模型对图表表层数值的识别准确率,无法评估描述内容的事实忠实度、核心信息突出性以及能否输出符合领域逻辑的深度洞察,也难以适配学术、工业等领域复杂图表的评估需求,成为制约多模态技术在图表相关场景落地的核心痛点之一。
针对这一行业空白,复旦大学研究团队正式发布Chart Faithfulness and Insightfulness Benchmark(ChartFI-Bench)高质量图表描述基准数据集,为多模态大模型的图表描述能力提供系统化、多维度的评估标尺。据公开信息显示,ChartFI-Bench由复旦大学等机构联合构建,共包含896对图表-描述样本,所有图表均来自arXiv公开的学术论文,覆盖自然科学、工程技术、社会科学等多个学科领域,视觉复杂度普遍高于通用场景下的简易图表,对应的描述内容也兼顾了事实准确性与深层语义价值。为保障数据集质量,研究团队设置了严格的过滤与人工核验流程,整个构建过程以事实准确性、显著特征强调、领域知识引导及图文互补性四个维度为核心指导原则,确保每一条样本都能满足多维度评估的需求。
作为行业内少数同时围绕忠实性与洞察力两大核心指标构建的图表评估基准,ChartFI-Bench的应用空间十分广阔。在多模态模型研发侧,厂商可依托该数据集完成模型的图表理解能力评测,针对性优化模型输出的准确性,减少“幻觉”问题;在科研服务领域,该数据集可用于训练面向视障群体的学术论文图表无障碍解读工具,生成的描述既能准确还原图表核心数据,也能传递关键研究结论,提升科研资源的可访问性;在商业智能与政务数字化领域,该数据集可用于优化BI工具的自动报表解读功能、政务可视化大屏的智能分析功能,生成的解读内容不仅能规避数据错误,还能突出核心趋势、异常波动等关键信息,为业务决策提供有效支撑;此外,该数据集还可支撑跨模态检索、数据洞察自动提取等相关技术的研发迭代。
从数据要素市场建设的角度来看,多模态数据是当前数据要素流通与应用的热门品类,而图表作为结构化数据的可视化载体,是科研、商业、政务领域价值密度极高的信息资产,ChartFI-Bench的发布不仅填补了现有基准在复杂图表和深层语义描述评估方面的不足,也为后续同类数据集的构建提供了可参考的标准范式,将进一步推动多模态技术在各垂直领域的落地进程,助力数字经济场景下的非结构化数据价值释放。
查看Chart Faithfulness and Insightfulness Benchmark (ChartFI-Bench)





_1769672084863.jpg)