首页 / 开源数据市场 / 正文

flammen.ai发布flame-kindling-v1专业化微调数据集小样本即可实现3B级模型角色生成与严格JSON输出

五号数据雷达开源数据市场2026-04-30 02:528

AI研发商flammen.ai于2026年4月29日在HuggingFace首发flame-kindling-v1小型监督微调数据集，仅400组标注样本即可将3B级指令模型微调为多语言结构化角色设计器，为AIGC角色生成、轻量型JSON输出类AI项目提供低成本训练底座。

当前AIGC产业步入垂直场景落地深水区，虚拟角色生成、AI Agent开发、轻量型结构化输出工具等赛道需求快速攀升，但中小团队往往面临大参数模型调用成本高、小参数模型结构化输出准确率低、细分领域微调数据稀缺等痛点。针对这一行业共性需求，AI研发商flammen.ai正式发布垂直场景专用微调数据集flame-kindling-v1，该数据集是目前少数面向角色设计生成+JSON模式微调场景的轻量化SFT数据集。

flame-kindling-v1定位为小型、专业化的监督微调数据集，核心目标是仅通过小样本训练，即可将3B级别的轻量型指令模型微调为能够从自由文本种子生成严格JSON模式的角色设计器。该数据集共包含400组（种子→DesignedFlame）配对标注数据，全量数据通过Claude Sonnet 4.5工具生成，并经过三重质量校验：首先通过pydantic模式完成JSON格式合规性验证，其次通过名称去重、特征嵌入相似性去重排除重复样本，最后由Qwen3.5-27B大模型完成内容连贯性评估，整体数据质量满足小样本微调的精度要求。

数据集采用行业通用的ChatML风格消息格式，每条记录包含系统提示、用户输入和助理输出三类JSON对象，其中助理输出的JSON严格遵循`DesignedFlame`标准模式，覆盖名称、性别、性取向、语言、起源地、兴趣等多个核心角色属性字段，可直接对接各类角色管理系统。目前该数据集支持32种语言，覆盖多元性别、性取向、地区和角色原型，能够适配不同文化背景下的角色生成需求。

从应用场景来看，尽管flame-kindling-v1样本规模仅400条，但其垂直精准的标注逻辑，不仅能够直接适配flammen.ai官方的Create-a-Flame角色生成流程，还可为大量轻量型AI项目提供低成本训练底座：游戏研发团队可基于该数据集微调小模型，快速批量生成NPC标准化角色档案；虚拟社交、元宇宙平台可依托该模型能力实现用户自定义角色的结构化转译；AI Agent开发团队也可将其作为角色人格初始化模块的训练基础，无需投入大量标注成本即可实现结构化角色输出能力。此外，对于所有需要实现轻量型JSON生成能力的AI项目，该数据集也可作为标注样本的参考框架。

官方同时披露了该数据集的当前限制：由于样本量较小，暂不支持高复杂度角色生成需求；全量数据不含NSFW内容，无法适配成人向内容生成场景；数据集存在一定英语偏见，小语种的生成效果仍有提升空间；同时评分校准标准相对宽松，高精度需求场景建议额外补充自定义校验规则。

查看flame-kindling-v1

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

flammen.ai发布flame-kindling-v1专业化微调数据集 小样本即可实现3B级模型角色生成与严格JSON输出

Dataset card内容：

Files and versions内容：

社区讨论

flammen.ai发布flame-kindling-v1专业化微调数据集小样本即可实现3B级模型角色生成与严格JSON输出