five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 数据知识产权登记 / 正文

代码生成大模型训练用代码编程题算法数据已成功在浙江省数据知识产权登记平台进行登记,应用在代码生成、算法训练领域

五号数据雷达数据知识产权登记2025-03-20 01:4923
2025-03-19 , 杭州景联文科技有限公司 旗下 代码生成大模型训练用代码编程题算法数据 数据知识产权在 浙江省数据知识产权登记平台 完成登记 , 应用于 代码生成、算法训练 领域

杭州景联文科技有限公司 本次登记的数据知识产权 代码生成大模型训练用代码编程题算法数据, 用于AI大模型领域中代码生成大模型训练: 1.提升大模型对用户提出的代码需求文字的上下文理解能力,使大模型能精准回答用户所需代码 2.扩展大模型的代码知识库,包含python、java、c、c#、c++、php、delphi、pascal等编程语言对应代码,使大模型能用多种编程语言解答用户的算法需求 3.扩展大模型的算法知识库,使大模型能解答用户的包含经典排序算法、经典搜索算法及各类衍生的实际应用算法需求 4.提升大模型所生成的代码性能,该数据中包含“代码运行时间““代码运行内存”字段,标记出高性能质量的代码,使大模型能识别并生成高性能代码1.数据预处理:整理经典代码编程问题,清洗数据,保证问题内容、问题属性(即答案代码性能要求)无缺失。 2.数据标准化:对上述字段设计字段标准,将各字段的长度、格式、精度等进行统一转换 3.生产答案代码:使用公司自有的人工标注平台进行人工生产答案代码,并自动化运行、记录答案状态(即代码运行结果)、代码语言、代码运行时间、代码运行内存 4.人工内容抽检:聘请专业技术人员对生成代码正确性、规范性、题目相关性以1%抽检率(共两千万条数据,抽检二十万条)进行人工检查,抽检不合格率为7.66%,符合业内大部分大模型对训练数据的质量要求 5.敏感词检测:调用算法对所有数据进行敏感词检测,包括涉黄、涉暴、涉恐及政治敏感词检测及过滤

查看代码生成大模型训练用代码编程题算法数据

登记内容:

 

关于 杭州景联文科技有限公司 , 杭州景联文科技有限公司是一家致力于技术服务、开发、咨询及交流的公司,同时也涉足物联网技术研发、信息系统集成、数据处理与存储支持等多个领域。其业务范围广泛,还包括软件开发与销售、计算机软硬件及辅助设备的批发与零售等。值得一提的是,该公司在数据集领域也有显著表现,其“行人检测数”数据产品已在上海数据交易所成功挂牌,显示了其在数据资源领域的实力与布局。

关于 浙江省数据知识产权登记平台 , 浙江省数据知识产权登记平台是浙江省市场监督管理局(省知识产权局)联合多个部门开发建设的数字化应用,属于‘浙江知识产权在线’的应用场景之一。该平台旨在提供数据知识产权登记公共服务,通过区块链存证或数据保全公证,对数据知识产权进行登记,颁发登记证书,用于数据流通交易、收益分配和权益保护。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们