之江实验室 本次登记的数据知识产权 开放式、多任务地学专业知识问答对数据, 该数据知识产权数据的总数大于50万条,能够直接用于地学领域大模型训练,使其学习地学领域专有的知识结构和表达术语,从而具备在地质、气候、环境等多个子学科领域上的文本任务处理和复杂问题推理能力。面相全球科研工作者打造开源开放的专业地学领域大语言模型,通过简单自然语言指令即可实现复杂地学科研任务的高效及时处理。该数据集不仅支持科研、教育、决策等多种应用场景,还能通过大模型助手工具在矿产勘探、环境监测等实际场景中发挥重要作用,推动地学领域的技术创新和知识传播。1. 从全球OA地学期刊中采集英文论文摘要,筛选保留标题与摘要内容完整且非空的样本,并通过标题去重,构建地学领域基础数据库。 2. 基于大规模语言模型自动抽取摘要信息和实体,通过实体重叠度和摘要相似性构建地学知识图谱。 3. 利用知识图谱和大规模语言模型自动生成多样化的提问角色和场景,涵盖单源和多源的事实型、推理型、应用型等不同类型问题,并通过上下文关联算法生成准确的答案,构建初始问答对数据集。 4. 对问题进行地学领域的二分类判断,并分析地学二级学科的分布,剔除偏离地学领域的边缘问题。 5. 构建五维评价模型:专业度(学科知识准确性)、清晰度(表述明确无歧义)、研究价值(反映学科前沿)、聚焦程度(问题边界清晰)、难度(逻辑推理分级),进行综合评分,保留各维度评分均大于60%的高质量问答对作为最终输出。
登记内容:
关于 之江实验室 , 之江实验室是一家依托浙江大学的高科技研发机构,主要聚焦于信息技术、生物科技等前沿领域的研究。该实验室致力于打造国际一流的创新平台,推动科技成果转化。
关于 浙江省数据知识产权登记平台 , 浙江省数据知识产权登记平台是浙江省市场监督管理局(省知识产权局)联合多个部门开发建设的数字化应用,属于‘浙江知识产权在线’的应用场景之一。该平台旨在提供数据知识产权登记公共服务,通过区块链存证或数据保全公证,对数据知识产权进行登记,颁发登记证书,用于数据流通交易、收益分配和权益保护。





_1769672084863.jpg)