复旦大学 本次发布的数据集 World Preference Modeling (WorldPM), World Preference Modeling (WorldPM) 是一个从公共论坛收集偏好数据的规模化的偏好模型,旨在通过扩展定律来建立一个统一的偏好表示。数据集从StackExchange、Reddit和Quora等多个公共论坛收集了15M个训练样本,用于训练参数从1.5B到72B的语言模型。该数据集通过多种基准测试进行了评估,显示出在对抗性指标和客观指标上的显著提升,而在主观指标上没有明显的扩展趋势。WorldPM 作为偏好微调的基础模型,在多个基准测试中显著提高了泛化性能,并在内部和公开评估集上实现了显著的改进。
查看World Preference Modeling (WorldPM)
关于 复旦大学 , 复旦大学是中国著名的高等学府,位于上海,拥有多个学科领域的研究实力,是中国一流大学之一。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。




_1769672084863.jpg)