首页 / 开源数据市场 / 正文

OSU NLP团队发布D3-Gym-Trajectories多尺度大模型轨迹数据集覆盖4类Qwen3参数规模支持开源商用

五号数据雷达开源数据市场2026-04-30 02:4612

俄亥俄州立大学（OSU）自然语言处理研究组于2026年4月29日在Hugging Face平台首发D3-Gym-Trajectories数据集，覆盖Qwen3系列4种参数规模的模型推理轨迹数据，采用MIT开源协议，可为大模型对齐、知识蒸馏、可解释性研究等领域提供核心数据支撑。

当前大模型技术迭代进入深水区，推理路径优化、跨尺度模型知识迁移、生成过程可解释性已成为产业界和学术界共同关注的核心研究方向，而覆盖不同参数规模的高质量模型轨迹标注数据，是支撑相关技术突破的核心基础资源。在此背景下，俄亥俄州立大学（OSU）NLP Group于2026年4月29日正式在Hugging Face平台上线开源D3-Gym-Trajectories数据集，为全球AI研发人员提供标准化的大模型轨迹研究素材。

本次发布的D3-Gym-Trajectories数据集由多个JSON格式文件构成，分别对应Qwen3系列4种主流参数规模——32B、14B、8B、4B的模型推理轨迹信息，结构化的存储方式可大幅降低研发人员的数据清洗与预处理成本。值得关注的是，该数据集采用MIT开源许可证，允许所有使用者自由下载、修改、分发及商用，无需额外授权，大幅降低了中小研发团队的使用门槛。

查看D3-Gym-Trajectories

从应用价值来看，大模型轨迹数据记录了模型生成输出的完整中间过程，是破解大模型「黑箱」问题的核心依据，该数据集可广泛应用于多个AI研发场景：一是大模型对齐研究，研发人员可通过对比不同参数规模模型的推理路径差异，优化RLHF、RLAIF等对齐技术的训练效率，提升大模型输出的合规性与准确性；二是模型压缩与知识蒸馏研究，通过对比大模型与小模型的轨迹差异，可构建更高效的知识蒸馏训练策略，在不损失推理效果的前提下降低大模型部署成本；三是可解释性AI研究，基于轨迹数据可还原大模型的推理逻辑，为医疗诊断、金融风控、司法辅助等高风险领域的大模型落地提供可信度支撑；四是复杂推理任务优化，针对数学解题、代码生成、多步工具调用等需要链式推理的下游场景，该数据集可用于优化模型的推理逻辑，降低幻觉发生率。

Dataset card内容：

Files and versions内容：

作为AI领域核心的数据要素资源，高质量开源数据集一直是推动技术普惠的核心支撑。本次OSU NLP团队发布的多尺度大模型轨迹数据集，填补了跨参数规模Qwen3系列模型轨迹数据的公开供给空白，将有效降低全球AI研发团队的相关研究成本，加速大模型可解释性、推理优化等技术的落地进程，为通用人工智能技术的迭代提供基础数据动力。

社区讨论

近期热门

OSU NLP团队发布D3-Gym-Trajectories多尺度大模型轨迹数据集 覆盖4类Qwen3参数规模 支持开源商用

Dataset card内容：

Files and versions内容：

社区讨论

OSU NLP团队发布D3-Gym-Trajectories多尺度大模型轨迹数据集覆盖4类Qwen3参数规模支持开源商用