FeUdal Networks for Hierarchical Reinforcement learning
论文链接:https://arxiv.org/abs/1703.01161
背景
利用分层强化学习将一个复杂任务拆分为不同维度的问题被认为是一种更自然、更类人的模式。例如人在吃饭的时候,人在宏观的维度作出决策要吃哪个菜,然后身体处于低维的层次,调动肌肉产生运动,完成夹菜和吃菜的动作。在这一过程中,高维的我们没有直接考虑调用哪条肌肉,而是做什么事。这一点正是目前的RL所缺乏的能力。
主要工作
FuN是在feudal reinforcement learning基础上的延展性工作,利用Manger学习子状态空间,设定子目标,将任务进行拆分;然后Worker处理子任务,完成Manger设置的子目标。
其主体框架如下:
其中,Manger和Worker都是RNN,只不过处理问题的时间分辨率不一样。Worker的c步被看做Manger的一步。网络动力学关系如下:
通过一个线性映射
(文章的主体思路就是以上内容,后续部分主要讨论网络更新,reward设定等细节,我打算看了代码之后在做分析)
总结
文章种在多个游戏中进行了实验对比,均取得了良好的实验效果。但遗憾的是,几乎所有的复现都说性能达不到文章中的水平。可能是实验中还有一些优化并未在文章中说明。