本次发布的数据集 Robotic Limb Target-Finding Task, 该数据集来源于一系列实验,在这些实验中,一个机器人肢体通过两种强化学习算法(PPO和AC)在与环境互动的过程中,通过伺服电机调整来定位目标。该数据集包含了近端策略优化(PPO)和离散行动者-评论家(AC)算法的训练数据,具体包括状态、行动、奖励结构以及实验结果等信息。实验规模方面,PPO算法进行了10次重复试验,而AC算法则进行了30次重复试验。任务内容是使用强化学习算法执行目标寻找任务。
查看Robotic Limb Target-Finding Task
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)