five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

南方科技大学 发布 HumanRef-CoT 数据集, 应用在 自然语言处理、机器学习 领域

五号数据雷达开源数据市场2025-06-06 07:1359
HumanRef-CoT 是 南方科技大学 发布的数据集,于 2025-06-04 首发在 arXiv 应用于 自然语言处理、机器学习 领域

南方科技大学 本次发布的数据集 HumanRef-CoT, HumanRef-CoT是一个大规模的CoT式对象引用数据集,包含90,824个样本,由GPT-4o在HumanRef数据集上生成。每个样本都被注释为一个结构化的推理轨迹,遵循规划、行动和总结的范式,使得模型能够学习对对象候选者进行分解的、可解释的推理。该数据集支持Rex-Thinker模型的训练,该模型通过冷启动监督微调阶段和基于GRPO的强化学习训练,在HumanRef基准测试中取得了最先进的性能,并在域外场景和对象上展示了强大的泛化能力。

查看HumanRef-CoT

关于 南方科技大学 , 南方科技大学是中国的一所研究型大学,位于广东省深圳市,致力于成为国际化高水平研究型大学,注重科研创新和人才培养。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们