随着大语言模型技术的快速落地,多智能体系统已经在分布式协同办公、工业智能调度、分布式决策、智能客服等多个场景实现规模应用,但其面临的对抗性节点攻击、虚假信息传播等安全风险也逐步凸显。此前行业内缺乏标准化的模拟测试数据集,导致不同研究团队的安全模型性能难以横向比对,研发测试成本居高不下,针对这一行业痛点,马德里卡洛斯三世大学近期正式发布GAMMAF开源基准测试平台,相关成果于2026年4月27日率先在预印本平台arXiv公开。
据介绍,GAMMAF核心功能包含合成多智能体交互数据集生成、图异常检测模型性能评估两大模块,通过模拟星型、网状、层级化等不同网络拓扑结构下的智能体辩论、协同交互动态构建,生成包含完整属性的交互图结构数据,同时支持研究人员自定义文本处理规则与嵌入生成逻辑,满足不同细分场景的测试需求。该框架采用双管道设计:首阶段可根据测试需求生成对应量级的标注训练数据,免去研究人员自行搭建模拟环境、标注数据的重复工作;次阶段可实现对安全防御模型的动态评估,尤其适配大语言模型多智能体系统中的对抗性节点传播攻击检测场景,为全球相关领域的安全研究提供了统一的标准化测试环境。
从应用价值来看,GAMMAF可覆盖多个研究与产业落地场景:在学术研究领域,图异常检测方向的研究人员可依托该数据集开展算法性能比对,快速验证新算法的准确率、鲁棒性等核心指标,推动图异常检测技术的迭代效率;在产业落地场景中,布局多智能体协同系统的科技企业、工业企业可借助该数据集模拟真实业务中的对抗攻击场景,提前完成系统安全压力测试,降低上线后的安全风险;此外,该数据集还可用于多智能体信任机制、分布式决策逻辑的优化研究,为多智能体技术的规模化落地筑牢安全底座。作为人工智能领域的核心科研基础设施,此类开源基准数据集的发布,也将进一步降低相关领域的研发门槛,推动多智能体安全、图异常检测技术的普惠发展。





_1769672084863.jpg)