Txing

欢迎来到 | 伽蓝之堂

0%

Reinforcement Learning | Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping

Learning to Utilize Shaping Rewards A New Approach of Reward Shaping

论文链接:NIPS 2020

背景

人工方式塑造奖励函数有着先天的缺陷,这里提出了一种双层优化( bi-level optimization problem)的方式来自适应的设计奖励函数。实验在sparse-reward的环境中进行验证。

  • lower level使用塑造的奖励优化策略;

  • upper level优化参数化的塑造权重函数来最大化真实的奖励;

主要工作

  • Reward Shaping (RS):一个常用的提高样本效率的方法是把可能的领域知识迁移到额外的奖励函数中,从而在原始和新的奖励驱使下学习更快更好。

  • 但是奖励的设计不可避免的涉及了人工的操作,

3 Parameterized Reward Shaping

3.1 Bi-level Optimization

  • 定义参数化奖励塑造函数:

是权重向量,形式是使用参数化函数。是shaping 奖励函数。

通过真实的环境奖励更新,在根据shaping reward function更新policy。

3.2 Gradient Computation

  • 固定,计算累计修正奖励关于参数的梯度:

  • 定理1:目标函数关于参数的梯度为: 这个定理首先假设了关于的梯度存在,但是即使有了定理1也不能直接计算出这个梯度,因为关于的梯度不能直接计算,下面会讨论如何计算

4 Gradient Approximation

4.1 Explicit Maping

  • 假设行为输出在,构建一个扩展的状态空间(extended state space),根据链式法则,得到,相应的,上级目标函数关于的梯度为:

4.2 Meta-Gradient Learning

  • 考虑到参数之间的关系,可以通过计算元梯度(meta-gradient)的方式计算:

  • 的更新: 其中是batch样本数,是学习率

  • meta-gradient 这里是一个常数。

    在计算过程中,例如采用蒙特卡洛返回,对每一个在buffer中的样本,定义表示采样的轨迹由于,其中是采样的真实奖励。

4.3 Incremental Meta-Gradient Learning

  • 考虑之前假设的策略参数关于是恒定的,实际上,可以看做不是恒定的。

  • Incremental Meta-Gradient Learning (IMGL)

总结

挺有意思的一个工作,提供了三种梯度更新方式,分别对应精确映射,蒙特卡洛更新和TD更新。三个方式有着不同的梯度近似精度。