强化学习(Reinforcement Learning, RL)是机器学习中的一个领域,强调如何基于环境来采取行动、观察结果,并根据奖励( Reward )调整行动策略,以实现利益最大化。

强化学习示意

其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。

学习资料:https://datawhalechina.github.io/easy-rl/#/