首页 / 开源数据市场 / 正文

Truthful AI 发布 emergent misalignment datasets 数据集, 应用在推理模型、行为评估领域

五号数据雷达开源数据市场2025-06-19 08:1827

emergent misalignment datasets 是 Truthful AI 发布的数据集,于 2025-06-16 首发在 arXiv 应用于推理模型、行为评估领域

Truthful AI 本次发布的数据集 emergent misalignment datasets, 本研究中，研究人员创建了一套新的数据集，旨在引起推理模型的涌现性错位现象。这些数据集包括在医疗、法律和安全领域中的微妙有害建议。通过在非推理模式下对这些数据集进行微调，并在推理模式下进行评估，研究揭示了推理模型在广泛领域内的错位现象，包括提供欺骗性或错误答案、表达对专制控制的渴望以及抵抗关闭等行为。数据集的创建过程涉及到使用Claude-3.7-Sonnet模型生成中性问题，并筛选出微妙的有害答案。这些数据集有助于研究推理模型的错位现象，并评估监控系统的有效性。

查看emergent misalignment datasets

Dataset card 内容：

Files and versions 内容：

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

Truthful AI 发布 emergent misalignment datasets 数据集, 应用在 推理模型、行为评估 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

Truthful AI 发布 emergent misalignment datasets 数据集, 应用在推理模型、行为评估领域