Data-Efficient Hierarchical Reinforcement Learning
论文链接:http://papers.nips.cc/paper/7591-data-efficient-hierarchical-reinforcement-learning.pdf
背景
HRL是处理复杂任务的有效方式,之前的方法大多需要针对具体任务进行特殊设计,并使用on-policy的方法进行训练,这些因素导致HRL很难被引用到真实的场景中。本文用off-policy的方式训练higher- and lower-level controllers,提高了模型的数据利用率,性能超过了之前SOTA的Option-Critic。
Option-Critic:Pierre-Luc Bacon, Jean Harb, and Doina Precup. The option-critic architecture. In AAAI, pages 1726–1734, 2017.
主要工作
首先需要明确的是什么是复杂的任务,文中定义的一个复杂任务是perform exploratory navigaive as well as complex sequences of interaction with ovjects inthe environment. 作者认为这些任务是unsolvable by non-HRL,主要是因为奖励稀疏,完成任务需要多个步骤;
低级/高级策略如何定义并训练?之前的方法用人工设计来解决,因此方法没有一般性。
Note that 本文只用的是state observation而不是高维图像输入,这个与FuN是不同的
本文使用的是off-policy的学习方法(TD3, [Addressing Function Approximation Error in Actor-Critic Methods,它是DDPG的一种变体,同样针对连续的控制),试图提高sample的利用效率,但是这会带来两个问题:
- off-policy会带来学习上的不稳定,在多重policy的情况下这种影响还会更大。
- 低级的policy在训练过程中会不断变化,因此之前收集到的samples就不再是valid experience for training
针对这两个问题,本文建立了off-policy修正模型,re-label过去的经验,并用高级策略选择可能获得最大奖励的行为。
方法
两层策略:a lower-level policy
and a higher-level policy 以从环境获取的obs为输入,获得high-level action (goal) 。 要么用 以 步为间隔进行采样 ,要么使用一个固定目标的转换函数 ,获得的奖励为 。 观测状态 和目标 ,并产生低维的行为 ,获得奖励 低级策略储存经验
高级策略储存经验
参数化Rewards
goal transition model
is defined as: intrinsic reward:
,这里 相当于是一个状态增量,学习目标是使得 实验中
是期望的坐标 ,obs也仅仅包含位置的观测 高级策略state-action-reward transition
对于旧的经验,给定
最大化 中间目标
用固定目标转移函数 生成 log probability
通过下式计算得到
总结
HIRO整体节奏还是很明快的,整体结构基于DDPG和TD3经验修正的地方稍微有些含糊。文中的目标