壹珈智晟(上海)科技有限公司本次登记的数据知识产权化学研发与技术情报智能体训练数据集产品,本数据集以“百会智能体开源训练数据集”为核心对象,围绕基础对话、逆合成、正合成、反应性预测、选择性预测、物质搜索、三维结构展示、技术预研、可行性分析、配方优化、技术问答、材料方案、情报分析及专利数据库检索等能力进行计算机存储与组织。整体采用“原始数据资源层+结构化样本层+任务标注层+知识索引层”的分层组织方式,其中原始数据资源包括文本语料、分子式、结构文件、反应表达式、专利条目、技术文档与问答记录;结构化样本层用于存放经标准化处理后的训练样本;任务标注层用于保存意图、实体、反应类型、属性标签、问答类别、情报主题等训练标记;知识索引层用于支持检索增强与跨任务调用。核心字段包括:样本ID、任务类型、数据来源、输入内容、标准输出、分子表示形式、反应式、化学名称、文件类型、结构路径、标签集合、质量状态、更新时间、版本号等,其中样本ID为主关键字段,任务类型、数据来源、版本号为重要检索字段。字段属性覆盖字符型、枚举型、时间型、布尔型、数值型及长文本型,并可通过样本ID与任务ID、知识条目ID、文件ID等关联字段实现跨模块组织、检索、追踪和迭代管理。





_1769672084863.jpg)