LAION eV本次发布的数据集Sera-4.5A-Full-T1-v3-316,该数据集是 allenai/Sera-4.5A-Full-T1 的一个子集,名为 laion/Sera-4.5A-Full-T1-v3-316,包含316条数据(完整数据集有72,118条)。数据格式为原始JSONL,采用OpenAI原生消息布局,保留了原始字段如 messages(JSON字符串)、instance_id、rollout_patch、func_name、func_path、problem_statement、target_patch、docker_image,并添加了一个 source 字段指向父数据集。每条助手消息包含原生的 tool_calls 数组(OpenAI工具调用格式)和一个 train: bool 标志用于逐消息损失掩码。数据集专为与 [axolotl](https://github.com/axolotl-ai-cloud/axolotl) 直接使用而设计,配置为 type: chat_template、chat_template: chatml、message_field_training: train。采样方法为确定性随机,种子为42。





_1769672084863.jpg)