火石创造科技有限公司本次登记的数据知识产权金融产业链结构文本训练数据,本数据集服务于金融产业链智能分类与业务图谱构建模型的训练与开发,通过关联企业文本与资管租赁业务标签,为金融行业分析与监管提供数据工具。其主要应用于:不良资产处置与特殊机会投资:赋能资产管理公司(AMC)、银行及投资机构,精准识别从事特殊资产收购、处置、交易平台运营的专业服务商,优化资产包定价与处置策略。融资租赁与设备金融分析:帮助融资租赁公司、设备制造商及金融机构,识别不同领域(如船舶、光伏、农机、汽车)的租赁服务商,分析区域租赁市场供给结构与业务模式创新。金融监管与产业规划:辅助地方金融监管局及产业规划部门,摸清辖区内资产管理、融资租赁等持牌或非持牌机构的业务分布、资本实力与合规情况,为风险监测与产业引导提供依据。一、加工前数据说明 本数据集旨在构建用于金融产业链智能分析的人工智能模型训练语料。在加工前,数据已进行严格的匿名化与去标识化处理。原始企业名称被统一替换为不可逆的规范标识符,并彻底移除所有的个人及商业敏感信息,确保数据完全符合隐私保护与安全合规要求,为模型训练提供了洁净、可靠的输入基础。 二、数据处理规则 数据处理严格遵循 “体系先行、业务匹配、特征抽取” 的核心规则,形成了一套从分类框架构建到最终标签生成的完整流程:1.首先,依据金融行业监管分类与业务模式,预先定义了以“金融”为一级节点,按业务类型划分为“投资与资产管理”和“租赁”两个二级节点,并进一步细分为“资产管理AMC”和“融资租赁”(三级节点)的树状分类体系,为数据加工提供了清晰的金融业务逻辑框架。2.业务匹配:采用“自动化规则匹配与人工校验相结合”的策略。首先,依托Spark大数据处理框架,对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的金融产业语义规则库自动计算并推荐初步分类节点。随后,由具备金融行业知识的标注专家进行审核与最终判定,确保企业被精准归入对应的业务类型。3.特征抽取:在完成业务匹配的同时,从同一段企业简介文本中,系统性地抽取代表其核心业务模式与产品类型的关键术语与名词性短语,经过去重与标准化格式化,组合成“正向词”特征串,并归纳其所属的“产业标签”,共同作为对分类标签的精准语义补充。 三、加工后数据内容 加工后的数据集为一条条结构化的“文本-标签”数据。每条数据均包含经过脱敏处理的原始企业描述文本,以及与之对应、经人工校验的完整分类标签(一至三级节点)、细化的业务特征词(正向词)与产业标签。数据内容全面覆盖了金融领域的两大核心板块——资产管理(含不良资产处置、特殊资产投资)与融资租赁(含多领域设备租赁、汽车租赁),形成了一个分类体系专业、业务特征鲜明、可直接用于金融细分领域企业识别、业务模式分析与风险监测模型训练与评估的高质量专用数据集。





_1769672084863.jpg)