当前我国数据要素市场化配置改革进入深水区,文化数据作为兼具公共属性与产业价值的核心数据资源,长期面临权属界定模糊、质量标准缺失、流通合规性不足等痛点;与此同时,随着传统文化垂域大模型、数字文博、智慧文教等应用的快速落地,行业对高质量、可溯源、权威合规的传统文化结构化数据的需求持续攀升,且普遍存在供给缺口。
2026年4月10日,浙江大学长三角智慧绿洲创新中心林洺锋、范志忠、刘俊、林玮、吴昱苇团队研发的中华传统文化知识图谱实体本体数据,正式在浙江省数据知识产权登记平台完成知识产权登记。作为全国首批数据知识产权登记试点省份的官方服务载体,浙江省数据知识产权登记平台出具的登记证明可作为数据资产确权评估、流通交易、权益保护的有效凭证,本次登记也标志着该套传统文化核心数据资产的权属得到官方认可,具备了市场化流通、合规赋能产业的基础条件。
浙江大学长三角智慧绿洲创新中心是浙江大学布局长三角生态绿色一体化发展示范区的跨学科创新平台,重点聚焦数字文化、未来健康、绿色低碳等领域的技术攻关与成果转化,本次登记的数据集正是该中心数字文化方向的核心研发成果,旨在为中华优秀传统文化领域大语言模型及智能应用提供高质量、结构化、可追溯的实体知识基座。
据披露,该数据集的原始数据来源于开源古籍数字化平台“Anna’s Archive”的中华传统文化相关书籍PDF文件,总大小约1107MB,涵盖约550万字的权威古籍内容。数据处理采用“OCR识别-大模型初筛-规则归因-专家校准”的混合流水线:首先使用paddleocr框架提取文本数据,分块后通过本地化部署的Qwen2.5-14B大语言模型开展命名实体识别;实体分类体系由领域专家结合聚类结果共同制定,涵盖概念、器具、书籍、人物、属性、物产、地名、材料、时间、机构十大类别,确保分类覆盖全面且符合学术规范;随后通过正则表达式规则匹配算法,将每个识别出的实体精准锚定回原文中的具体句子及位置坐标,强制建立“实体-证据原句-文献出处”的可追溯链路;最终经过实体聚合、去重、名称标准化后,由资深领域专家集中审阅校正,形成最终本体数据。
本次登记的数据集最终产出超过10万条高质量中华传统文化实体数据记录,每条实体均为结构化数据,包含唯一标识符、标准名称、原始同义表述、所属类别、权威解释、证据原句、文献出处、细分领域归属等9个核心字段,构成了一套可机读、可验证、具备学术严谨性的中华传统文化实体“标准身份证”库。
从应用价值来看,该数据集的落地场景覆盖文化数字化多个核心赛道:其一可作为高质量SFT数据用于大模型领域知识注入与精调,对齐传统文化垂域大模型的参数,使其在生成典籍、人物、器物等实体的解释时,严格基于权威出处输出结构化知识,有效抑制行业普遍存在的事实性幻觉问题,未来可支撑古籍解读大模型、历史问答AI等产品的研发;其二可作为底层知识库支撑各类文化智能应用开发,包括文化教育App的智能知识点答疑、数字文博AR导览的实体识别与解释输出、文创内容创作的史实核验、文化出海场景下的标准化内容生产等,全面降低相关应用的内容研发成本,提升内容权威性与准确性。
业内人士指出,本次登记是国内文化领域数据知识产权确权的标杆性实践,既为传统文化类数据资源的资产化、流通化提供了可复制的操作路径,也为数据要素市场细分领域的合规治理提供了参考样本,对于推动中华优秀传统文化的数字化传承、创新应用,以及数字文化产业的高质量发展都具有重要的示范意义。





_1769672084863.jpg)