flammen.ai本次发布的数据集Phoenix-SFT-v1,Phoenix v1 是一个用于记忆提取的合成监督微调(SFT)数据集,旨在训练Phoenix模型从用户与AI角色(“Flame”)的聊天记录中提取结构化记忆。数据集包含多种语言的对话,但记忆输出始终为英语。输入为对话记录,输出为包含记忆内容的JSON对象,记忆分为事实、偏好、关系、事件和情感等类别。数据集格式遵循OpenAI/HuggingFace的消息约定,包含训练集和评估集,按密度、语言和阶段分层。数据生成经过三个阶段,包括种子生成、选择提取和质量判断,确保提取的记忆符合11种失败模式的过滤标准。数据集的主要局限性包括仅适用于SFT、完全合成、无日期感知能力、英语输出偏见以及质量判断可能的不完美。





_1769672084863.jpg)