普渡大学 本次发布的数据集 Anthropic/hh-rlhf, OpenAI WebGPT Comparisons, Alpaca GPT-4-LLM, 本研究涉及的Anthropic/hh-rlhf、OpenAI WebGPT Comparisons和Alpaca GPT-4-LLM数据集,由普渡大学的研究团队创建,旨在通过强化学习从人类反馈(RLHF)中提取和分类嵌入的人类价值观。数据集包含6501条RLHF偏好标注,通过哲学、价值论和伦理学的综合文献回顾构建的人类价值观分类法进行注释。创建过程包括两个阶段:首先通过定性注释生成基础数据,然后使用基于变压器的机器学习模型进行分类。这些数据集主要应用于语言模型的微调,旨在解决AI系统中人类价值观的嵌入和审计问题,确保模型行为与社会价值和规范的一致性。
查看Anthropic/hh-rlhf, OpenAI WebGPT Comparisons, Alpaca GPT-4-LLM
关于 普渡大学 , 普渡大学是一所位于美国印第安纳州的著名公立研究型大学,以其在工程、商学和科学领域的优秀教育和创新研究而闻名。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)