RL的核心要素:Agent、Environment、State、Action、Reward。马尔可夫决策过程MDP、贝尔曼方程、值迭代、策略迭代。探索与利用困境:ε-greedy、UCB、Thompson Sampling。
强化学习
强化学习
文章列表
- 41
- 42Q-Learning、DQN原理及经验回放、目标网络。Double DQN、Dueling DQN、Rainbow DQN。连续动作空间:DDPG、TD3、A3C、A2C、IMPALA。Atari游戏实战。
- 43策略梯度定理、REINFORCE算法。Actor-Critic架构、优势函数、GAE。PPO、TRPO近端策略优化。SAC、Soft Actor-Critic最大熵RL。连续控制任务实战。
- 44从专家演示中学习。行为克隆、逆向RL、DAgger、GAIL。奖励函数设计、奖励塑形、人工对齐。以及在机器人控制、自动驾驶中的应用。
- 45多智能体系统挑战。独立学习、 centralized training with decentralized execution (CTDE)。QMIX、MADDPG、MAPPO。协作、竞争、混合动机场景,以及在即时战略游戏、资源调度中的应用。
- 46从在线到离线RL的范式转变。Offline RL挑战:分布偏移。Conservative Q-Learning(CQL)、Behavior Regularized Offline RL(BORL)、Implicit Q-Learning(IQL)。在推荐系统、 Healthcare中的应用。
- 47Model-Free vs Model-Based对比。世界模型学习、Model Predictive Control (MPC)。Dreamer、World Models、MuZero。规划与学习结合,以及在机器人控制、游戏中的应用。
- 48时间信度分配问题。Options框架、Feudal Networks、HIerarchical Reinforcement Learning (HIRL)。FuN、FeUdal Networks、hRL。在复杂任务、长期规划中的应用。
- 49奖励塑造的艺术。稀疏vs密集奖励、辅助奖励、内在动机。好奇心驱动、RND、ICM。奖励黑客问题、指标评估(Return、Success Rate、样本效率)。
- 50AlphaGo系列解析:MCTS、策略价值网络、AlphaZero。OpenAI Five(Dota 2)、OpenAI Five(Hide&Seek)。星际争霸、德州扑克。从游戏AI到通用AI的启示。