⭐ [ICLR 2025] ChartMimic: Evaluating LMM’s Cross-Modal Reasoning Capability via Chart-to-Code Generation

Published in ICLR, 2025

关键词

多模态大模型 / Large Multimodal Models (LMMs)
图表理解 / Chart Understanding
代码生成 / Code Generation
跨模态推理 / Cross-modal Reasoning
基准评测 / Benchmark Evaluation
可视化 / Visualization

Arxiv地址：https://arxiv.org/abs/2406.09961

项目地址: https://github.com/ChartMimic/ChartMimic

背景

随着大规模多模态模型（LMMs）的发展，AI在复杂认知任务（如视觉、语言、代码生成等）上展现出巨大潜力。然而，传统代码生成评测只依赖文本输入，而真实编程往往需要结合视觉信息。尤其是在学术与科研领域，研究者常常需要根据已有的图表快速生成可复现的绘图代码，然而原始代码缺失或专业性不足的问题普遍存在。因此，如何评估和提升LMMs基于视觉输入进行代码生成与推理的能力，成为当前AI研究的重要方向。

方法

本论文提出了ChartMimic基准，用于系统评估LMM的图表理解与代码生成能力。其主要方法包括：

任务设定：
- Direct Mimic：模型需根据输入图表和指令，生成能够复现原图的代码，考察其视觉理解与推理能力。
- Customized Mimic：模型需根据图表、定制化指令和新数据，生成保持原图美学和设计风格的新代码，考察其跨模态综合能力。
数据集构建：
- 收集和筛选来自arXiv等科学论文的图表，以及Matplotlib Gallery、Stack Overflow等平台的图表，涵盖22类、201个子类别。
- 人工标注4,800组“图表-指令-代码”三元组，涵盖物理、计算机、经济等多个学科领域。
- 数据样本包括多种复杂度（易/中/难），保证数据多样性和真实性。
多级自动化评测指标：
- 高层指标：用GPT-4o为代表的大模型对生成图与真值图的整体相似度评分（0-100分）。
- 低层指标：量化对图中文本、布局、类型、颜色等元素的还原度（通过F1分数）。
- 总分：高层与低层分均值，自动衡量模型整体表现。

实验

模型评测：基准覆盖17个主流LMMs（包括GPT-4o、Claude-3-opus、GeminiProVision等商用模型，以及InternVL2-Llama3-76B、Phi-3-Vision等开源模型），参数规模从2.2B到76B。
任务流程：
1. 输入图表和任务指令。
2. LMM生成代码。
3. 执行代码，渲染生成图表。
4. 用多级自动化指标与人工打分比对结果。
分组与难度：测试集共4,800例，分为test和testmini（便于快速验证），并按类型和难度均衡分布。

结果

模型表现：
- GPT-4o等商用模型表现最佳，Direct Mimic与Customized Mimic任务总分分别为81.2和83.2分。
- 最强开源模型InternVL2-Llama3-76B，得分分别为58.5和64.7，仍与GPT-4o有较大差距。
- 低参数模型（如Phi-3-Vision-128K）在优化训练下也可获得有竞争力的成绩。
- Open-weight模型在代码可执行性和视觉理解上仍有提升空间，多数执行成功率低于75%。

影响因素与分析：
- 难度提升（从easy到hard）显著降低所有模型的得分。
- 定制化数据（Customized Mimic）能提升弱模型的易任务表现，但复杂任务仍需更强推理与生成能力。
- 不同提示（prompting）策略如Self-Reflection能有效提升强模型表现，反映了“系统2”推理的重要性。
- 误差分析显示，当前LMM易在数据维度、文本理解、图类型识别及颜色还原等方面出现问题，尤其是信息密集型图表。
- 多级评测指标与人工打分高度相关，验证了评测方法的有效性。

总结

ChartMimic为LMMs跨模态推理和代码生成能力的系统性评测提供了新基准。其高密度、多样化的数据集与细粒度、多层次的自动化评测指标，有效推动了AI模型在真实科研场景下的能力提升。当前，开源模型与顶级商用模型仍存在显著差距，主要体现在复杂图表的视觉理解、推理和代码生成能力上。未来研究可探索更高效的提示策略和数据增强方式，进一步缩小开源与闭源模型之间的差距，助力通用人工智能的发展。

Share on

Bluesky Facebook LinkedIn X (formerly Twitter)

Junjie Wang (王军杰)

背景

方法

实验

结果

总结

Share on