five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Fermatix AI发布工业级源代码数据集CIDR 填补开源场景短板 赋能代码智能与工业软件研发

五号数据雷达开源数据市场2026-05-15 07:4710
2026年5月12日,人工智能企业Fermatix AI在学术预印本平台arXiv首发大规模工业源代码数据集CIDR,依托12家工业合作伙伴的真实专有代码资源,填补了现有开源代码数据集的工业场景适配缺口,可为代码智能、工业软件质量分析等领域的AI模型训练提供高价值数据支撑。

随着生成式AI在软件工程领域的渗透提速,代码智能、AI辅助研发已经成为工业软件数字化转型的核心方向,但长期以来,业内可用于模型训练的代码数据集多以通用开源代码为主,普遍存在工业场景覆盖度不足、垂直行业适配性差的痛点,难以满足工业级软件研发的高质量训练需求。

2026年5月12日,Fermatix AI正式对外发布大规模工业源代码数据集CIDR (Curated Industrial Developer Repository),瞄准开源代码在工业软件多样性上的短板定向补位,为工业场景的代码智能研发提供核心数据支撑。据公开信息显示,CIDR是Fermatix AI联合12家工业合作伙伴共同构建的专有代码数据集,囊括2440个真实工业代码仓库,覆盖138种编程语言,累计代码量达3.73亿行,同时附带完整的结构化元数据。为保障数据合规性与隐私安全,所有数据均经过多阶段严格的收集、过滤及匿名化处理,在保证数据原生工业属性的同时,规避了源代码泄露、知识产权侵权等合规风险。

从应用价值来看,CIDR可广泛落地于多个工业软件相关领域:在代码智能赛道,基于该数据集训练的AI模型可显著提升工业场景下代码补全、漏洞智能筛查、代码自动生成的准确率,解决通用代码大模型面对工业专有场景“水土不服”的问题;在软件质量分析领域,可支撑工业控制软件、高端制造嵌入式软件、能源管控系统等关键领域的质量检测模型研发,提前识别工业场景特有的逻辑漏洞,降低工业软件上线后的运行安全风险;在开发者工具领域,可为工业领域专属智能编码助手、研发效能管理工具的优化提供数据底座,提升工业软件开发者的编码效率;同时也可为高校、科研机构的软件工程相关研究提供贴近真实工业场景的研究数据,推动产学研成果快速落地。

作为当前国内少见的大规模合规工业源代码数据集,CIDR的发布也为数据要素市场的垂直领域数据供给提供了参考样本,有望推动代码智能技术从通用消费级场景向工业垂直场景渗透,助力我国工业软件研发效能与质量水平的双提升。

查看CIDR (Curated Industrial Developer Repository)

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们