five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

英伟达发布Terminal-Corpus数据集,应用在命令行交互、语言模型训练领域

五号数据雷达开源数据市场2026-02-26 06:2361
Terminal-Corpus是英伟达发布的数据集,于2026-02-25首发在arXiv应用于命令行交互、语言模型训练领域

英伟达本次发布的数据集Terminal-Corpus,Terminal-Corpus是由英伟达团队构建的大规模开源终端任务数据集,旨在提升大语言模型在命令行环境中的交互能力。该数据集通过轻量级合成任务生成管道Terminal-Task-Gen构建,包含数据集适配和合成任务生成两阶段数据,覆盖数学推理、代码生成和软件工程修复等领域。其核心创新在于将现有基准转化为终端提示,并结合技能分类法生成针对性场景,最终通过Docker化环境交互产生解决方案轨迹。该数据集主要用于训练Nemotron-Terminal模型家族,显著提升了终端任务基准测试Terminal-Bench 2.0的性能表现,解决了终端代理训练数据稀缺和生成复杂度高的核心瓶颈。

查看Terminal-Corpus

Dataset card内容:

 

Files and versions内容:

 

关于英伟达,英伟达是一家专注于图形处理器开发的全球知名技术公司。

关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们