随着生成式AI在软件工程领域的渗透提速,代码智能、AI辅助研发已经成为工业软件数字化转型的核心方向,但长期以来,业内可用于模型训练的代码数据集多以通用开源代码为主,普遍存在工业场景覆盖度不足、垂直行业适配性差的痛点,难以满足工业级软件研发的高质量训练需求。
2026年5月12日,Fermatix AI正式对外发布大规模工业源代码数据集CIDR (Curated Industrial Developer Repository),瞄准开源代码在工业软件多样性上的短板定向补位,为工业场景的代码智能研发提供核心数据支撑。据公开信息显示,CIDR是Fermatix AI联合12家工业合作伙伴共同构建的专有代码数据集,囊括2440个真实工业代码仓库,覆盖138种编程语言,累计代码量达3.73亿行,同时附带完整的结构化元数据。为保障数据合规性与隐私安全,所有数据均经过多阶段严格的收集、过滤及匿名化处理,在保证数据原生工业属性的同时,规避了源代码泄露、知识产权侵权等合规风险。
从应用价值来看,CIDR可广泛落地于多个工业软件相关领域:在代码智能赛道,基于该数据集训练的AI模型可显著提升工业场景下代码补全、漏洞智能筛查、代码自动生成的准确率,解决通用代码大模型面对工业专有场景“水土不服”的问题;在软件质量分析领域,可支撑工业控制软件、高端制造嵌入式软件、能源管控系统等关键领域的质量检测模型研发,提前识别工业场景特有的逻辑漏洞,降低工业软件上线后的运行安全风险;在开发者工具领域,可为工业领域专属智能编码助手、研发效能管理工具的优化提供数据底座,提升工业软件开发者的编码效率;同时也可为高校、科研机构的软件工程相关研究提供贴近真实工业场景的研究数据,推动产学研成果快速落地。
作为当前国内少见的大规模合规工业源代码数据集,CIDR的发布也为数据要素市场的垂直领域数据供给提供了参考样本,有望推动代码智能技术从通用消费级场景向工业垂直场景渗透,助力我国工业软件研发效能与质量水平的双提升。
查看CIDR (Curated Industrial Developer Repository)





_1769672084863.jpg)