LAION eV本次发布的数据集Sera-4.5A-Full-T1-v3-10000,该数据集是 allenai/Sera-4.5A-Full-T1 的一个子集,名为 laion/Sera-4.5A-Full-T1-v3-10000,包含 10,000 行数据(完整数据集为 72,118 行)。数据格式为原始 JSONL,采用 OpenAI 原生消息布局,保留了原始字段如 messages(JSON 字符串)、instance_id、rollup_patch、func_name、func_path、problem_statement、target_patch 和 docker_image,并添加了指向父数据集的 source 字段。每条助手消息包含原生 tool_calls 数组(OpenAI 工具调用格式)和用于逐消息损失掩码的 train: bool 标志。该数据集专为与 axolotl 配合使用而设计,适用于文本生成任务,配置为 type: chat_template 和 chat_template: chatml。采样方法为确定性随机,种子为 42。





_1769672084863.jpg)