首页 / 开源数据市场 / 正文

LAION eV发布exp_rle_minimal_instructions-v3代码类数据集优化大模型训练、自动化测试场景优质数据供给

五号数据雷达开源数据市场2026-05-21 19:398

全球知名AI数据集研发机构LAION eV于2026年5月15日在HuggingFace平台首发迭代版代码任务数据集exp_rle_minimal_instructions-v3，该版本针对上一版的故障问题优化了三层过滤逻辑，为代码生成模型训练、自动化测试评估等场景提供更高可用性的结构化数据支撑。

随着代码大模型、研发效能自动化工具的快速迭代，带完整运行环境、测试用例的高质量结构化代码类数据集，已成为AI研发、软件测试等领域的核心稀缺资源。作为全球知名的非营利AI数据集研发机构，LAION eV此前主导推出的LAION-5B等系列数据集，曾为Stable Diffusion等多款现象级生成式AI产品提供核心训练数据支撑，其发布的公开数据集始终以高可用性、强场景适配性受到行业认可。

2026年5月15日，LAION eV正式在HuggingFace平台上线exp_rle_minimal_instructions-v3数据集，该版本是对laion/exp_rle_minimal_instructions-v2数据集的修补迭代，核心目标是通过优化过滤逻辑，解决v2版本中暴露的样本失效、环境适配错误等故障问题。

从数据结构来看，该数据集面向代码生成、自动化测试两类核心场景设计，所有样本均采用gzipped tar压缩包存储，每个样本都包含完整的任务链路文件：包括明确需求描述的instruction.md（任务说明）、标准化配置文件task.toml、可直接复现运行环境的environment/Dockerfile（环境定义）、用于校验结果正确性的tests/*（测试文件），以及对应任务的标准解决方案solution/*（解决方案文件）。完整的链路配置意味着开发者无需额外做数据清洗、环境适配工作，可直接将数据集接入训练或评测流程，大幅降低数据使用成本。

为了提升样本可用性，v3版本新增了三层过滤机制：一是Fixture pass机制，通过AST语法解析检查pytest fixture的可用性，从根源上避免测试用例本身存在语法或依赖错误导致的样本失效；二是Deep-submodule blocklist机制，自动阻止导入pandas、numpy等主流开源库已被移除的私有子路径，避免因依赖库版本迭代导致的旧代码无法运行的问题；三是Niche-package blocklist机制，阻止导入容器pip安装集之外的小众第三方包（如pipelinewise、jasmine等），进一步降低数据集的环境适配门槛，提升跨场景通用性。数据规模方面，此前的v2版本共包含699行有效数据，v3版本的具体样本规模可通过官方发布的tasks.parquet元数据查看。

从应用场景来看，该数据集可覆盖三大核心方向：在代码生成模型训练场景中，研发团队可借助“需求-配置-环境-测试-标准方案”的完整样本结构，让模型学习到从需求理解到生成可落地代码的完整链路，还可通过自带的测试用例自动校验生成代码的正确性，提升训练效率与模型输出质量；在自动化测试评估场景中，软件企业的测试团队可依托标准化的任务样本，校验自动化测试工具的覆盖率、错误检出率，也可用于训练测试用例自动生成类AI工具；在任务解决基准测试场景中，科研机构、大模型厂商可将该数据集作为统一的代码能力评测基准，客观衡量不同代码大模型的任务解决能力，解决此前行业内评测标准不统一、结果可比性差的问题。查看exp_rle_minimal_instructions-v3

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

LAION eV发布exp_rle_minimal_instructions-v3代码类数据集 优化大模型训练、自动化测试场景优质数据供给

Dataset card内容：

Files and versions内容：

社区讨论

LAION eV发布exp_rle_minimal_instructions-v3代码类数据集优化大模型训练、自动化测试场景优质数据供给