之江实验室 本次登记的数据知识产权 多语言、高精度的地学大模型训练语料数据, 该数据知识产权数据量大于30万条。能够直接用于地学领域大语言模型训练,使其可以学习地学领域的专业术语、概念和语义信息,从而具备处理各种地学自然语言处理任务的能力,如文献分类、创新点挖掘、专业知识问答等。此外,利用该该数据知识产权可以构建一个大规模的地学知识图谱。通过实体识别和关系抽取技术,从论文标题、摘要和正文中提取地学领域的关键实体(如地质构造、岩石类型、矿物成分等)及其相互关系,形成结构化的知识网络。知识图谱结合检索增强生成能够使地学大模型生成更准确、更个性化的响应,从而帮助研究人员快速了解地学领域的研究现状、发现知识空白,并促进跨学科的研究合作。该数据知识产权也可以用于构建智能文献检索系统,从而使地学大模型能够具备地学文献检索的能力,为研究人员提供个性化的文献推荐服务,提高文献获取效率。1. 从互联网数据开放管理平台,比如spring nature等网站,广泛收集地球科学领域允许公开访问的论文数据集。 2. 对论文数据集做清洗和去重。清洗规则为没有标题或标题无意义(比如Untitled)、没有摘要、标题与摘要相等;去重规则为DOI(数字对象唯一标识)相等或者标题、期刊、年份全部相等。 3. 对论文的PDF(可携带文件格式)内容进行预处理,包括拆分、矫正、对齐和增强。 4. 对论文的PDF内容进行内容解析。包含版面分析和内容识别。版面分析包括基于文本解析的版面分析和基于视觉解析的版面分析两种。内容识别包括文本识别、表格识别、图片识别和公式识别。对每页图片应用目标检测技术,获取段落、公式、表格、图片等文档元素的位置和分类标签;对段落区域应用OCR(光学字符识别)技术,获取段落文本;对公式区域应用公式检测技术,获取公式latex表达;对表格区域应用表格识别技术,得到表示latex表达;根据坐标和识别结果,对所有内容进行合并,得到文本markdown。 5. 对论文的PDF内容进行后处理。后处理的步骤包括:数据清洗、信息过滤、内容去重、文档结构化。对于CPT(继续预训练)数据的后处理方法包括:去重、基于大模型的表格公式修复、页眉页脚去除、语言过滤、乱码去除、主题筛选(基于知识图谱或其他方式)。对于SFT(监督微调训练)数据的后处理方法主要包括基于解析后的markdown文本内容,利用大模型生成对话标注数据。 6. 将论文元数据与解析结果格式文件内容进行一一对应,形成用于地学大模型训练的语料数据,数据量为30万条左右。 7. 使用产出的论文元数据和解析结果对地学大模型进行训练。
关于 之江实验室 , 之江实验室是一家依托于浙江大学的高科技研发机构,主要聚焦于人工智能、大数据、云计算等前沿技术的创新和应用。实验室拥有强大的科研团队,与国内外多家知名企业和高校开展深度合作,推动技术成果转化。
关于 浙江省数据知识产权登记平台 , 浙江省数据知识产权登记平台是浙江省市场监督管理局(省知识产权局)联合多个部门开发建设的数字化应用,属于‘浙江知识产权在线’的应用场景之一。该平台旨在提供数据知识产权登记公共服务,通过区块链存证或数据保全公证,对数据知识产权进行登记,颁发登记证书,用于数据流通交易、收益分配和权益保护。





_1769672084863.jpg)