Pommerman 本次发布的数据集 Pommerman Multi-Agent Training Dataset, 该数据集采用了演员-评论家算法结合近端策略优化(PPO)的方法,在多智能体环境中训练智能体,通过课程学习和自我对弈的方式让智能体学会玩Pommerman游戏。数据集包含了采用不同策略的各种智能体,如静态智能体和基于规则的智能体,并使用Elo评级系统进行匹配和评估。该数据集规模涵盖了100轮循环赛的评估,任务是进行多智能体强化学习。
查看Pommerman Multi-Agent Training Dataset
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)