five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

LAION eV发布Sera-4.5A-Full-T1-v3-31600数据集,应用在文本生成、监督微调领域

五号数据雷达开源数据市场2026-04-23 05:414
Sera-4.5A-Full-T1-v3-31600是LAION eV发布的数据集,于2026-04-22首发在HuggingFace应用于文本生成、监督微调领域

LAION eV本次发布的数据集Sera-4.5A-Full-T1-v3-31600,该数据集是 allenai/Sera-4.5A-Full-T1 的一个子集,名为 laion/Sera-4.5A-Full-T1-v3-31600,包含31,600行数据(完整数据集为72,118行)。数据格式为原始JSONL,采用OpenAI原生消息布局,保留了原始的 messages 字段(作为JSON字符串)、instance_id、rollout_patch、func_name、func_path、problem_statement、target_patch 和 docker_image 字段,并添加了一个指向父数据集的 source 字段。每条助手消息包含一个原生的 tool_calls 数组(OpenAI工具调用格式)和一个用于逐消息损失掩码的 train: bool 标志。该数据集专为与axolotl直接使用而设计,配置为 type: chat_template、chat_template: chatml、message_field_training: train。数据集适用于文本生成任务,特别是监督微调(SFT)和代理相关任务。

查看Sera-4.5A-Full-T1-v3-31600

Dataset card内容:

 

Files and versions内容:

 

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们