南方科技大学 本次发布的数据集 HumanRef-CoT, HumanRef-CoT是一个大规模的CoT式对象引用数据集,包含90,824个样本,由GPT-4o在HumanRef数据集上生成。每个样本都被注释为一个结构化的推理轨迹,遵循规划、行动和总结的范式,使得模型能够学习对对象候选者进行分解的、可解释的推理。该数据集支持Rex-Thinker模型的训练,该模型通过冷启动监督微调阶段和基于GRPO的强化学习训练,在HumanRef基准测试中取得了最先进的性能,并在域外场景和对象上展示了强大的泛化能力。
关于 南方科技大学 , 南方科技大学是中国的一所研究型大学,位于广东省深圳市,致力于成为国际化高水平研究型大学,注重科研创新和人才培养。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)