Learning to Utilize Shaping Rewards A New Approach of Reward Shaping
论文链接:NIPS 2020
背景
人工方式塑造奖励函数有着先天的缺陷,这里提出了一种双层优化( bi-level optimization problem)的方式来自适应的设计奖励函数。实验在sparse-reward的环境中进行验证。
lower level使用塑造的奖励优化策略;
upper level优化参数化的塑造权重函数来最大化真实的奖励;
主要工作
Reward Shaping (RS):一个常用的提高样本效率的方法是把可能的领域知识迁移到额外的奖励函数中,从而在原始和新的奖励驱使下学习更快更好。
但是奖励的设计不可避免的涉及了人工的操作,
3 Parameterized Reward Shaping
3.1 Bi-level Optimization
- 定义参数化奖励塑造函数:
3.2 Gradient Computation
固定
,计算累计修正奖励 关于参数 的梯度: 定理1:目标函数
关于参数 的梯度为: 这个定理首先假设了 关于 的梯度存在,但是即使有了定理1也不能直接计算出这个梯度,因为 关于 的梯度不能直接计算,下面会讨论如何计算
4 Gradient Approximation
4.1 Explicit Maping
- 假设行为输出在
,构建一个扩展的状态空间(extended state space) ,根据链式法则,得到 ,相应的,上级目标函数 关于 的梯度为:
4.2 Meta-Gradient Learning
考虑到参数
和 之间的关系,可以通过计算元梯度(meta-gradient) 的方式计算: 对
的更新: 其中 是batch样本数, 是学习率 meta-gradient
: 这里 是一个常数。 在计算过程中,例如采用蒙特卡洛返回,对每一个在buffer中的样本
,定义 表示采样的轨迹由于 ,其中 是采样的真实奖励。
4.3 Incremental Meta-Gradient Learning
考虑之前假设的策略参数
关于 是恒定的,实际上,可以看做不是恒定的。 Incremental Meta-Gradient Learning (IMGL)
总结
挺有意思的一个工作,提供了三种梯度更新方式,分别对应精确映射,蒙特卡洛更新和TD更新。三个方式有着不同的梯度近似精度。