首页 / 开源数据市场 / 正文

InternLM开源ETCHR-SFT-400K监督微调数据集填补多模态视觉推理训练数据空白

五号数据雷达开源数据市场2026-05-24 05:5123

开源大模型体系InternLM于2026年5月22日在HuggingFace首发40万样本规模的ETCHR-SFT-400K视觉推理监督微调数据集，可广泛应用于多模态大模型微调、多模态图像编辑等领域，为破解当前多模态模型复杂视觉理解能力瓶颈提供核心数据支撑。

随着多模态大语言模型（MLLMs）在各行业的落地应用逐步深入，纯文本思维链在处理细粒度图像感知、空间变换推理、复杂图表解读等任务时的局限性逐渐凸显，高质量的垂直场景监督微调（SFT）数据已成为支撑多模态模型能力升级的核心稀缺资源。近日，开源大模型体系InternLM正式发布ETCHR-SFT-400K大规模视觉推理数据集，为行业填补了这一供给空白。

据悉，ETCHR-SFT-400K于2026年5月22日率先在HuggingFace上线，是专门面向视觉推理场景打造的监督微调数据集，核心目标是将基于FLUX.2-klein-base-9B构建的被动指令跟随图像编辑器，转化为自主的、以问题为条件的视觉推理助手。该数据集总样本量达400,000条，覆盖五大核心视觉推理赛道：细粒度感知、图表理解、迷宫求解、拼图以及空间理解，完整覆盖了当前多模态大模型落地时最常遇到的视觉推理痛点场景。每个数据样本由三部分构成：原始图像、针对该图像提出的理解性问题（同时作为图像编辑的提示词），以及经过标注的真实编辑后图像（该编辑结果可辅助大模型快速定位问题核心、完成推理回答）。数据集整体采用DiffSynth-Studio的训练格式组织，存储于`SFT-400K.parquet`文件中，开发者可直接适配现有训练框架，大幅降低数据预处理成本。

该数据集是ETCHR（Editing To Clarify and Harness Reasoning）项目的核心组成部分，该项目创新性地引入了解耦、可插拔的专用图像编辑模块，可直接接入现有多模态大语言模型的推理链路，辅助模型完成复杂视觉推理任务，彻底突破了纯文本思维链在细粒度信息聚焦、空间变换推演上的能力短板。从应用场景来看，该数据集可广泛支撑多个行业的多模态应用研发：在智慧教育领域，可用于训练能够自动批改几何题、数理化图表题的智能助教产品；在工业质检领域，可辅助多模态模型快速识别、标注工业零部件的微小瑕疵；在数字文创领域，可优化多模态图像编辑工具的指令理解能力，实现“边推理边编辑”的交互体验；在自动驾驶、家用服务机器人领域，可提升模型对空间环境的感知推理能力，优化路径规划、场景理解效果。

从数据要素市场建设的角度来看，ETCHR-SFT-400K的开源不仅降低了中小研发团队训练视觉推理类多模态模型的门槛，也为国内多模态训练数据集的标准化构建提供了可参考的范式，助力多模态大模型从“感知交互”向“认知推理”的代际升级，进一步支撑数字经济领域多模态创新应用的落地普及。

查看ETCHR-SFT-400K

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

InternLM开源ETCHR-SFT-400K监督微调数据集 填补多模态视觉推理训练数据空白

Dataset card内容：

Files and versions内容：

社区讨论

InternLM开源ETCHR-SFT-400K监督微调数据集填补多模态视觉推理训练数据空白