OpenAI 本次发布的数据集 MuJoCo locomotion benchmark tasks, 该数据集是一套专为评估情景强化学习算法而设计的基准任务集。它包含了一系列任务,在这些任务中,智能体在非终止状态下接收不到任何信号,只有在轨迹结束时才会获得情景反馈。这些任务具有长视野,最大轨迹长度达到1000步。该数据集的任务是研究在稀疏且延迟奖励条件下的情景强化学习。
查看MuJoCo locomotion benchmark tasks
README 内容:
关于 OpenAI , OpenAI 是一家总部位于美国的人工智能研究公司,致力于推动人工智能的发展和应用。它是众多研究机构和企业中在AI领域最具影响力的组织之一,专注于各种人工智能项目,包括机器学习、自然语言处理等。OpenAI Gym 是其开发的一个开源工具,用于强化学习算法的研究和比较。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)