广州博依特智能信息科技有限公司本次登记的数据知识产权造纸工艺大模型训练数据集,本数据集面向造纸及制浆工业领域的智能化转型需求,基于“全流程工艺知识图谱化”范式构建。数据内容涵盖从植物纤维原料备料、化学/机械制浆、漂白、打浆、造纸机抄造到成品整理及废水处理的全生命周期工艺知识。数据来源汇集了近二十年来的造纸工程核心教材、国家标准(GB/T)、行业技术手册及权威期刊文献。数据处理采用“自动化解析+专家知识增强”双重路径:利用OCR与文档版面分析技术提取非结构化文本与图表数据,结合NLP技术进行去噪与结构化分块;通过引入造纸领域专家进行SFT(监督微调)指令对的构建与校验,确保了工艺参数、故障诊断逻辑的准确性。 数据集经过严格的数据清洗与去重处理,删除了非必要的页眉页脚及冗余信息,并对涉及具体企业敏感生产数据的部分进行了脱敏处理,符合工业数据安全流通规范。本数据集可为工业大模型的预训练、微调(SFT)及检索增强生成(RAG)知识库构建提供高质量语料基础。
关于广州博依特智能信息科技有限公司,广州博依特智能信息科技有限公司是一家专注于智能制造和工业大数据领域的高科技企业,致力于为制造业企业提供智能化生产解决方案。公司通过数据分析和人工智能技术,帮助客户优化生产流程、提升效率。
关于广东省数据知识产权存证登记平台,广东省公共数据授权运营平台,提供公共数据服务。





_1769672084863.jpg)