近年来,AI技术在软件工程领域的渗透速度持续加快,自动化测试、智能依赖管理、代码自动生成等AIGC应用已成为DevOps效能提升的核心方向。但当前市面上的多数通用代码数据集普遍存在可运行性不足、依赖项配置缺失等问题,直接用于模型训练往往会导致生成的代码无法编译、测试用例无效等问题,具备场景化校验能力的高质量代码数据集,已成为制约软件工程智能化落地的核心瓶颈。作为全球开源AI数据领域的核心参与者,LAION eV曾推出支撑Stable Diffusion落地的LAION-5B等标杆级开源数据集,在大规模数据清洗、场景化数据加工领域拥有广泛的行业影响力,本次推出的专项数据集正是针对代码开发场景痛点的定向解决方案。
LAION eV本次发布的exp_rpt_softwareheritage-large-v2数据集,是DCAgent/exp_rpt_softwareheritage-large数据集的修补后重新上传版本,专为LAION组织打造。该数据集经过多轮筛选和定向修改,最终保留了原始数据集中46.8%的有效任务,共计2340个(原数据集共4998个任务)。本次修补流程覆盖多维度校验:首先对所有测试文件运行py_compile做语法合规性校验,其次对所有导入项做统一解析和分类,最终在test.sh文件中注入对应匹配的pip安装命令,整套修补策略的核心目标是确保测试文件的可编译性和依赖项的可安装性,完全适配软件测试相关的任务训练需求。据悉,本次数据集修补器的完整源代码已开源,位于OpenThoughts-Agent仓库的data/patchers/patch_softwareheritage_tasks.py文件中。
查看exp_rpt_softwareheritage-large-v2
从应用价值来看,该数据集为软件工程智能化领域提供了经过可用性校验的高质量训练数据底座,可覆盖多类落地场景:在软件测试自动化领域,基于该数据集训练的大模型可生成符合语法规范、依赖匹配的可运行测试用例,覆盖单元测试、集成测试等多个研发环节,有望大幅降低企业研发流程中的测试人力投入,提升DevOps全链路效率;在依赖项管理领域,基于该数据集训练的智能模型可自动识别代码文件的导入项需求、排查跨版本依赖冲突,给出兼容的安装配置方案,有效解决Python等开发生态中常见的“依赖地狱”问题;除此之外,该数据集还可支撑代码智能修复、低代码平台逻辑生成、AI开发助手迭代等多个软件工程智能化场景的研发需求。
值得关注的是,本次数据集的发布也为垂直领域数据要素的加工提供了可参考的范式:相较于通用大规模数据集,针对特定场景需求做定向清洗、可用性校验的专项数据集,能够直接降低下游研发团队的数据预处理成本,加速技术落地效率,对推动代码AI领域的产业化落地、完善数据要素在软件开发领域的价值流转体系均有积极意义。





_1769672084863.jpg)