首页 / 开源数据市场 / 正文

FAIR at Meta 发布 Community Alignment 数据集, 应用在自然语言处理、多语言模型领域

五号数据雷达开源数据市场2025-07-16 10:1835

Community Alignment 是 FAIR at Meta 发布的数据集,于 2025-07-13 首发在 arXiv 应用于自然语言处理、多语言模型领域

FAIR at Meta 本次发布的数据集 Community Alignment, 社区对齐数据集（Community Alignment）是迄今为止最大且最具代表性的多语言和多轮偏好数据集，由来自五个国家的标注人员提供了近20万次比较。该数据集基于负相关抽样方法收集，旨在解决算法单一文化现象，即现有的大型语言模型（LLMs）在响应上表现出高度的同质性，无法有效学习人类偏好的多样性。数据集包括超过2500个提示-响应集，每个集至少由10个标注者标注，并且28%的标注还包含了高质量的中文解释。该数据集为改善LLMs对全球多样化人群的有效性提供了一个宝贵的资源。

查看Community Alignment

Dataset card 内容：

Files and versions 内容：

关于 FAIR at Meta , Meta公平性、可解释性和稳健性实验室（FAIR at Meta）是Meta公司下属的一个研究团队，专注于人工智能领域中的公平性、可解释性和稳健性问题。该团队致力于推动AI技术的负责任和道德使用，通过研究促进AI系统的透明度和可靠性，旨在解决算法偏见和提升AI决策过程的可解释性。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

FAIR at Meta 发布 Community Alignment 数据集, 应用在 自然语言处理、多语言模型 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

FAIR at Meta 发布 Community Alignment 数据集, 应用在自然语言处理、多语言模型领域