本次发布的数据集 UltraFeedback-chinese, UltraFeedback-Chinese是根据UltraFeedback数据集的构建方法制定的中文版本,专为训练强大的奖励模型和批评模型而设计。该数据集支持PPO(近端策略优化)和DPO(直接偏好优化)两种训练方式。数据收集自多个中文资源库,涵盖了约58k条中文指令,并对每个指令生成4个模型响应。数据集变体UltraFeedback-Chinese-Binarized专为DPO训练优化,通过设定权重对每个响应的分数进行加权,以计算得到每个响应的综合评分。实验结果表明,该数据集在提升中文语言模型表现方面具有显著效果。
Dataset card 内容:
Files and versions 内容:
关于 , 国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。
关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)