five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

OSU NLP团队发布D3-Gym-Trajectories多尺度大模型轨迹数据集 覆盖4类Qwen3参数规模 支持开源商用

五号数据雷达开源数据市场2026-04-30 02:4612
俄亥俄州立大学(OSU)自然语言处理研究组于2026年4月29日在Hugging Face平台首发D3-Gym-Trajectories数据集,覆盖Qwen3系列4种参数规模的模型推理轨迹数据,采用MIT开源协议,可为大模型对齐、知识蒸馏、可解释性研究等领域提供核心数据支撑。

当前大模型技术迭代进入深水区,推理路径优化、跨尺度模型知识迁移、生成过程可解释性已成为产业界和学术界共同关注的核心研究方向,而覆盖不同参数规模的高质量模型轨迹标注数据,是支撑相关技术突破的核心基础资源。在此背景下,俄亥俄州立大学(OSU)NLP Group于2026年4月29日正式在Hugging Face平台上线开源D3-Gym-Trajectories数据集,为全球AI研发人员提供标准化的大模型轨迹研究素材。

本次发布的D3-Gym-Trajectories数据集由多个JSON格式文件构成,分别对应Qwen3系列4种主流参数规模——32B、14B、8B、4B的模型推理轨迹信息,结构化的存储方式可大幅降低研发人员的数据清洗与预处理成本。值得关注的是,该数据集采用MIT开源许可证,允许所有使用者自由下载、修改、分发及商用,无需额外授权,大幅降低了中小研发团队的使用门槛。

查看D3-Gym-Trajectories

从应用价值来看,大模型轨迹数据记录了模型生成输出的完整中间过程,是破解大模型「黑箱」问题的核心依据,该数据集可广泛应用于多个AI研发场景:一是大模型对齐研究,研发人员可通过对比不同参数规模模型的推理路径差异,优化RLHF、RLAIF等对齐技术的训练效率,提升大模型输出的合规性与准确性;二是模型压缩与知识蒸馏研究,通过对比大模型与小模型的轨迹差异,可构建更高效的知识蒸馏训练策略,在不损失推理效果的前提下降低大模型部署成本;三是可解释性AI研究,基于轨迹数据可还原大模型的推理逻辑,为医疗诊断、金融风控、司法辅助等高风险领域的大模型落地提供可信度支撑;四是复杂推理任务优化,针对数学解题、代码生成、多步工具调用等需要链式推理的下游场景,该数据集可用于优化模型的推理逻辑,降低幻觉发生率。

Dataset card内容:

Files and versions内容:

作为AI领域核心的数据要素资源,高质量开源数据集一直是推动技术普惠的核心支撑。本次OSU NLP团队发布的多尺度大模型轨迹数据集,填补了跨参数规模Qwen3系列模型轨迹数据的公开供给空白,将有效降低全球AI研发团队的相关研究成本,加速大模型可解释性、推理优化等技术的落地进程,为通用人工智能技术的迭代提供基础数据动力。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们