Independent Researcher 本次发布的数据集 MiniGrid-Empty-6x6v0, 该数据集由独立研究者Ram Potham创建,用于评估LLM Agent在面临任务冲突时对安全原则的遵守程度。数据集包含三个核心原则和结构化场景,旨在测试LLM Agent对层次化指令的遵循能力。研究结果表明,即使在简单的环境中,LLM Agent的行为也会受到安全原则的显著影响,表明安全评估需要区分在冲突下的故意遵守和由于能力限制而导致的偶然不违反。该数据集为评估LLM Agent的可控性和指令遵循性提供了基础证据,有助于推动人工智能治理和安全的发展。
README 内容:
关于 Independent Researcher , 独立研究者是指不隶属于任何特定组织或机构的个人研究者,他们通常依靠个人兴趣和资金进行科学研究。这类研究者可能在多个领域内进行探索,具有较高的自主性和灵活性。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)