强化学习

文章列表

49
奖励函数设计与评估
第 49 期 2026-01-28 · 7 分钟阅读进阶
奖励塑造的艺术。稀疏vs密集奖励、辅助奖励、内在动机。好奇心驱动、RND、ICM。奖励黑客问题、指标评估（Return、Success Rate、样本效率）。
50
RL在游戏AI中的应用
第 50 期 2026-01-28 · 6 分钟阅读前沿
AlphaGo系列解析：MCTS、策略价值网络、AlphaZero。OpenAI Five（Dota 2）、OpenAI Five（Hide&Seek）。星际争霸、德州扑克。从游戏AI到通用AI的启示。