Making Efficient Use of Demonstrations to Solve Hard Exploration Problems
论文链接:https://arxiv.org/abs/1909.01387
背景
针对有困难探索的任务,通过示教实现高效的学习。
探索上的困难包括三个方面:
- 奖励稀疏(Sparse rewards):
- 部分可观测(Partial observability):
- 高度可变的初始条件(Highly variable initial conditions):