Q688-马在棋盘上的概率-中等-动态规划
Q200-岛屿数量-中等-深度and广度优先搜索
Q200-岛屿数量-中等-深度and广度优先搜索
Reinforcement Learning | On Learning Intrinsic Rewards for Policy Gradient Methods
本文提出基于 **optimal reward framework** [Singh et al., 2010] 的本质奖励学习方法,并和 PPO 算法(Mujoco)结合
Reinforcement Learning | Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation
稀疏反馈下,不充分的探索使得agent很难学习到鲁棒的行为策略。本文通过设计本质动机来驱动行为探索,并结合分层的结构来完成行为,最后在奖励稀疏和延迟的任务中进行了实验。
Q130-被围绕的区域-中等-DFS/BFS
Q130-被围绕的区域-中等-DFS/BFS
Reinforcement Learning | DRN: A Deep Reinforcement Learning Framework for News Recommendation
强化学习算法在推荐系统中的应用
Reinforcement Learning | Option-critic Architecture
Option-critic原文
Reinforcement Learning | Option Discovery in Hierarchical Reinforcement Learning using Spatio-Temporal Clustering
本文旨在提出一个自动的技能获取框架,可以分层描述任务,对状态抽象以及在抽象状态之间拓展行为。这样的分层结构可以加速学习过程