随着多模态大语言模型(MLLMs)在各行业的落地应用逐步深入,纯文本思维链在处理细粒度图像感知、空间变换推理、复杂图表解读等任务时的局限性逐渐凸显,高质量的垂直场景监督微调(SFT)数据已成为支撑多模态模型能力升级的核心稀缺资源。近日,开源大模型体系InternLM正式发布ETCHR-SFT-400K大规模视觉推理数据集,为行业填补了这一供给空白。
据悉,ETCHR-SFT-400K于2026年5月22日率先在HuggingFace上线,是专门面向视觉推理场景打造的监督微调数据集,核心目标是将基于FLUX.2-klein-base-9B构建的被动指令跟随图像编辑器,转化为自主的、以问题为条件的视觉推理助手。该数据集总样本量达400,000条,覆盖五大核心视觉推理赛道:细粒度感知、图表理解、迷宫求解、拼图以及空间理解,完整覆盖了当前多模态大模型落地时最常遇到的视觉推理痛点场景。每个数据样本由三部分构成:原始图像、针对该图像提出的理解性问题(同时作为图像编辑的提示词),以及经过标注的真实编辑后图像(该编辑结果可辅助大模型快速定位问题核心、完成推理回答)。数据集整体采用DiffSynth-Studio的训练格式组织,存储于`SFT-400K.parquet`文件中,开发者可直接适配现有训练框架,大幅降低数据预处理成本。
该数据集是ETCHR(Editing To Clarify and Harness Reasoning)项目的核心组成部分,该项目创新性地引入了解耦、可插拔的专用图像编辑模块,可直接接入现有多模态大语言模型的推理链路,辅助模型完成复杂视觉推理任务,彻底突破了纯文本思维链在细粒度信息聚焦、空间变换推演上的能力短板。从应用场景来看,该数据集可广泛支撑多个行业的多模态应用研发:在智慧教育领域,可用于训练能够自动批改几何题、数理化图表题的智能助教产品;在工业质检领域,可辅助多模态模型快速识别、标注工业零部件的微小瑕疵;在数字文创领域,可优化多模态图像编辑工具的指令理解能力,实现“边推理边编辑”的交互体验;在自动驾驶、家用服务机器人领域,可提升模型对空间环境的感知推理能力,优化路径规划、场景理解效果。
从数据要素市场建设的角度来看,ETCHR-SFT-400K的开源不仅降低了中小研发团队训练视觉推理类多模态模型的门槛,也为国内多模态训练数据集的标准化构建提供了可参考的范式,助力多模态大模型从“感知交互”向“认知推理”的代际升级,进一步支撑数字经济领域多模态创新应用的落地普及。





_1769672084863.jpg)