Txing

欢迎来到 | 伽蓝之堂

0%

Reinforcement Driving | Mastering Atari, Go, chess and shogi by planning with a learned model

Mastering Atari, Go, chess and shogi by planning with a learned model

MuZero是AlphaGo Zero之上的第二次改进。第一次改进为AlphaZero,一个模型实现围棋、国际象棋、将棋的超人水平。此次在AlphaZero基础上,更是从棋类拓展到了更具有普遍意义的Atari游戏。

训练模型的规划能力通常是较为困难的,本文提出MuZero,一个结合学习模型的树搜索方法

1 Introduction

  • model-based RL 需要
    • 状态转移模型:根据是s,a预测下一时刻的状态
    • 奖励模型:预测期望的奖励

2 MuZero algorithm

  • 构建一个模型 预测三个未来的量:

    • Policy
    • Value function
    • immediate reward

    表示真实的观测到的奖励,表示用于选择真实行为的策略

  • 具体地,模型包括三个部分:

    • dynamics function: ,在每个假设步骤k执行,是即时奖励;是内部状态表征(internal state),其没有环境信息的语义含义,只是用于准确预测未来变量policies, values and rewards
    • prediction function:
    • representation function: ,根据过去的观测信息生成根节点的内部状态表征
  • 利用上述模型,可以利用过去的观测信息,生成假设的未来轨迹

  • 损失函数:(每一项都是L2损失函数)

policy损失, value损失 and 即时reward损失

Planning, acting and training with a learned model

总结