集合三大类无模型强化学习算法，BAIR开源RL代码库rlpyt

发布时间：2019-10-09 01:36:00 所属栏目：建站来源：机器之心编译

导读：副标题#e# 近日，BAIR 开源强化学习研究代码库 rlpyt，首次包含三大类无模型强化学习算法，并提出一种新型数据结构。 2013 年有研究者提出使用深度强化学习玩游戏，之后不久深度强化学习又被应用于模拟机器人控制，自此以后大量新算法层出不穷。其中大部分

R2D2 的最初分布式实现使用了 256 块 CPU 进行采样，一块 GPU 执行训练，每秒运行 66,000 步。而 rlpyt 仅使用了一个包含 24 块 CPU（2x Intel Xeon Gold 6126）和 3 块 Titan-Xp GPU 的工作站，以每秒 16000 的步数完成实现。对于无法使用分布式基础架构的情况而言，这已经足够执行实验了。未来研究的一种可能是：利用多 GPU 优化增加 replay ratio，从而加快学习速度。下图展示了相同学习曲线在 3 种不同度量指标下的呈现，这 3 种度量指标分别是：环境步数（即 1 步=4 帧）、模型更新和时间。它在不到 138 个小时的时间内走完了 80 亿步，完成了 100 万次模型更新。

é›†åˆä¸‰å¤§ç±»æ— æ¨¡åž‹å¼ºåŒ–å¦ä¹ ç®—æ³•ï¼ŒBAIRå¼€æºRLä»£ç åº“rlpyt

rlpyt 使用 24 块 CPU 和 3 块 Titan-Xp GPU 在异步采样模式下执行 R2D1 实现，其学习曲线在横坐标不同（环境步数、模型更新和时间）时的呈现如上图所示。

新型数据结构：namedarraytuple

rlpyt 提出了新的目标类别 namedarraytuples，可使 numpy 数组或 torch 张量的组织更加容易。namedarraytuple 本质上是一个 namedtuple，将索引或切片（sliced）数组读/写呈现在结构中。

（编辑：成都站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页

如何用Windows主机搭建	怎么做网页设计如何设
建设企业网站究竟有什	网站链接怎么做简单几