Txing

欢迎来到 | 伽蓝之堂

0%

Reinforcement Learning | HIerarchical Reinforcement learning with Off-policy correction (HIRO)

Data-Efficient Hierarchical Reinforcement Learning

论文链接:http://papers.nips.cc/paper/7591-data-efficient-hierarchical-reinforcement-learning.pdf

背景

HRL是处理复杂任务的有效方式,之前的方法大多需要针对具体任务进行特殊设计,并使用on-policy的方法进行训练,这些因素导致HRL很难被引用到真实的场景中。本文用off-policy的方式训练higher- and lower-level controllers,提高了模型的数据利用率,性能超过了之前SOTA的Option-Critic。

Option-Critic:Pierre-Luc Bacon, Jean Harb, and Doina Precup. The option-critic architecture. In AAAI, pages 1726–1734, 2017.

主要工作

  • 首先需要明确的是什么是复杂的任务,文中定义的一个复杂任务是perform exploratory navigaive as well as complex sequences of interaction with ovjects inthe environment. 作者认为这些任务是unsolvable by non-HRL,主要是因为奖励稀疏,完成任务需要多个步骤;

  • 低级/高级策略如何定义并训练?之前的方法用人工设计来解决,因此方法没有一般性。

  • Note that 本文只用的是state observation而不是高维图像输入,这个与FuN是不同的

  • 本文使用的是off-policy的学习方法(TD3, [Addressing Function Approximation Error in Actor-Critic Methods,它是DDPG的一种变体,同样针对连续的控制),试图提高sample的利用效率,但是这会带来两个问题:

    • off-policy会带来学习上的不稳定,在多重policy的情况下这种影响还会更大。
    • 低级的policy在训练过程中会不断变化,因此之前收集到的samples就不再是valid experience for training

    针对这两个问题,本文建立了off-policy修正模型,re-label过去的经验,并用高级策略选择可能获得最大奖励的行为。

方法

  • 两层策略:a lower-level policy and a higher-level policy

  • 以从环境获取的obs为输入,获得high-level action (goal) 要么用步为间隔进行采样,要么使用一个固定目标的转换函数,获得的奖励为

  • 观测状态和目标,并产生低维的行为,获得奖励

  • 低级策略储存经验

  • 高级策略储存经验

参数化Rewards

  • goal transition model is defined as:

  • intrinsic reward: ,这里相当于是一个状态增量,学习目标是使得

  • 实验中是期望的坐标,obs也仅仅包含位置的观测

  • 高级策略state-action-reward transition

  • 对于旧的经验,给定最大化

  • 中间目标 用固定目标转移函数生成

  • log probability 通过下式计算得到

总结

HIRO整体节奏还是很明快的,整体结构基于DDPG和TD3经验修正的地方稍微有些含糊。文中的目标 就相当于是一个状态增量,修正就是用10个高斯分布在 或者 之间取值目标 。至于为什么是10个高斯,怎么取值,这些正文中没有说明,附录里面应该有,细看的时候可以找一找。