首页
›
系列文章
›
强化学习
强化学习
强化学习
文章列表
49
奖励函数设计与评估
第 49 期
2026-01-28
· 7 分钟阅读
进阶
奖励塑造的艺术。稀疏vs密集奖励、辅助奖励、内在动机。好奇心驱动、RND、ICM。奖励黑客问题、指标评估(Return、Success Rate、样本效率)。
50
RL在游戏AI中的应用
第 50 期
2026-01-28
· 6 分钟阅读
前沿
AlphaGo系列解析:MCTS、策略价值网络、AlphaZero。OpenAI Five(Dota 2)、OpenAI Five(Hide&Seek)。星际争霸、德州扑克。从游戏AI到通用AI的启示。