强化学习

文章列表

41
强化学习RL基础原理
第 41 期 2026-07-20 · 8 分钟阅读进阶
RL的核心要素：Agent、Environment、State、Action、Reward。马尔可夫决策过程MDP、贝尔曼方程、值迭代、策略迭代。探索与利用困境：ε-greedy、UCB、Thompson Sampling。
42
深度Q学习DQN与改进算法
第 42 期 2026-07-20 · 8 分钟阅读进阶
Q-Learning、DQN原理及经验回放、目标网络。Double DQN、Dueling DQN、Rainbow DQN。连续动作空间：DDPG、TD3、A3C、A2C、IMPALA。Atari游戏实战。
43
策略梯度与Actor-Critic算法
第 43 期 2026-07-20 · 8 分钟阅读进阶
策略梯度定理、REINFORCE算法。Actor-Critic架构、优势函数、GAE。PPO、TRPO近端策略优化。SAC、Soft Actor-Critic最大熵RL。连续控制任务实战。
44
模仿学习与逆强化学习
第 44 期 2026-07-20 · 7 分钟阅读前沿
从专家演示中学习。行为克隆、逆向RL、DAgger、GAIL。奖励函数设计、奖励塑形、人工对齐。以及在机器人控制、自动驾驶中的应用。
45
多智能体强化学习MARL
第 45 期 2026-07-20 · 8 分钟阅读前沿
多智能体系统挑战。独立学习、 centralized training with decentralized execution (CTDE)。QMIX、MADDPG、MAPPO。协作、竞争、混合动机场景，以及在即时战略游戏、资源调度中的应用。
46
离线强化学习Offline RL
第 46 期 2026-07-20 · 9 分钟阅读前沿
从在线到离线RL的范式转变。Offline RL挑战：分布偏移。Conservative Q-Learning（CQL）、Behavior Regularized Offline RL（BORL）、Implicit Q-Learning（IQL）。在推荐系统、 Healthcare中的应用。
47
基于模型的强化学习Model-Based RL
第 47 期 2026-07-20 · 8 分钟阅读前沿
Model-Free vs Model-Based对比。世界模型学习、Model Predictive Control (MPC)。Dreamer、World Models、MuZero。规划与学习结合，以及在机器人控制、游戏中的应用。
48
层次强化学习与选项框架
第 48 期 2026-07-20 · 10 分钟阅读前沿
时间信度分配问题。Options框架、Feudal Networks、HIerarchical Reinforcement Learning (HIRL)。FuN、FeUdal Networks、hRL。在复杂任务、长期规划中的应用。
49
奖励函数设计与评估
第 49 期 2026-01-28 · 7 分钟阅读进阶
奖励塑造的艺术。稀疏vs密集奖励、辅助奖励、内在动机。好奇心驱动、RND、ICM。奖励黑客问题、指标评估（Return、Success Rate、样本效率）。
50
RL在游戏AI中的应用
第 50 期 2026-01-28 · 6 分钟阅读前沿
AlphaGo系列解析：MCTS、策略价值网络、AlphaZero。OpenAI Five（Dota 2）、OpenAI Five（Hide&Seek）。星际争霸、德州扑克。从游戏AI到通用AI的启示。