Txing

欢迎来到 | 伽蓝之堂

0%

Reinforcement Learning | Making Efficient Use of Demonstrations to Solve Hard Exploration Problems (R2D3)

Making Efficient Use of Demonstrations to Solve Hard Exploration Problems

论文链接:https://arxiv.org/abs/1909.01387

背景

针对有困难探索的任务,通过示教实现高效的学习。

探索上的困难包括三个方面:

  • 奖励稀疏(Sparse rewards):
  • 部分可观测(Partial observability):
  • 高度可变的初始条件(Highly variable initial conditions):

主要工作

方法

总结