five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

LAION eV发布sera-subset-mixed-316数据集,应用在对话系统微调、工具调用文本生成领域

五号数据雷达开源数据市场2026-04-30 02:5818
sera-subset-mixed-316是LAION eV发布的数据集,于2026-04-29首发在HuggingFace应用于对话系统微调、工具调用文本生成领域

LAION eV本次发布的数据集sera-subset-mixed-316,数据集 sera-subset-mixed-316 是从 ethanlshen/sera-subset 中随机抽取的 316 行数据,混合了两个上游阶段(stage1 未解决和 stage2 已解决)并进行了确定性洗牌。数据来源于两个上游 JSONL 文件:22972_0.88_stage1_scaling_final_glm46_e2e_1ipf_swesmith_unresolved_ipf_1_atk_rft-think_SYSTEM_SIMPLE.jsonl(22,972 行)和 25224_r0.88_stage2_scaling_final_glm46_e2e_1ipf_resolved_soft_t0_ipf_1_atk_rft-think_SYSTEM_SIMPLE.jsonl(25,244 行)。每行数据为 JSON 格式,包含 messages(一个由 role, content, train 组成的列表)和 instance_id 字段。训练掩码 train: True 仅应用于助手回合。Hermes 的 / 令牌已预渲染到内容中。该数据集已用于 laion/sera-subset-mixed-316-axolotl__Qwen3-8B-v8(基于 Qwen3-8B 的 SFT 训练)。数据集许可证为 apache-2.0,任务类别为文本生成,语言为英语,规模类别为 n<1K。

查看sera-subset-mixed-316

Dataset card内容:

 

Files and versions内容:

 

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们