本次发布的数据集 SEAC Training Data, 该数据集是由使用软弹性演员-评论家(SEAC)算法进行的实验生成的,比较了该算法与原始软演员-评论家(SAC)算法和近端策略优化(PPO)算法的性能。数据集包含了SEAC算法相较于SAC和PPO算法的平均回报、每项任务的时间成本以及能源消耗等指标。训练规模涉及大约90万至120万步,任务是强化学习,用于控制模拟环境中的智能体运动。
README 内容:
关于 , 国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)