集合三大类无模型强化学习算法,BAIR开源RL代码库rlpyt
R2D2 的最初分布式实现使用了 256 块 CPU 进行采样,一块 GPU 执行训练,每秒运行 66,000 步。而 rlpyt 仅使用了一个包含 24 块 CPU(2x Intel Xeon Gold 6126)和 3 块 Titan-Xp GPU 的工作站,以每秒 16000 的步数完成实现。对于无法使用分布式基础架构的情况而言,这已经足够执行实验了。未来研究的一种可能是:利用多 GPU 优化增加 replay ratio,从而加快学习速度。下图展示了相同学习曲线在 3 种不同度量指标下的呈现,这 3 种度量指标分别是:环境步数(即 1 步=4 帧)、模型更新和时间。它在不到 138 个小时的时间内走完了 80 亿步,完成了 100 万次模型更新。 rlpyt 使用 24 块 CPU 和 3 块 Titan-Xp GPU 在异步采样模式下执行 R2D1 实现,其学习曲线在横坐标不同(环境步数、模型更新和时间)时的呈现如上图所示。 新型数据结构:namedarraytuple rlpyt 提出了新的目标类别 namedarraytuples,可使 numpy 数组或 torch 张量的组织更加容易。namedarraytuple 本质上是一个 namedtuple,将索引或切片(sliced)数组读/写呈现在结构中。 (编辑:成都站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |