【机器学习笔记 Ⅲ】5 强化学习

发布于:2025-07-09 ⋅ 阅读:(23) ⋅ 点赞:(0)

强化学习(Reinforcement Learning, RL)

强化学习是机器学习的一个分支,其核心思想是让智能体(Agent)通过与环境(Environment)的交互学习最优策略(Policy),以最大化长期累积奖励(Reward)。它模拟了人类或动物通过“试错”进行学习的过程,广泛应用于游戏AI、自动驾驶、机器人控制、推荐系统等领域。


1. 核心概念

(1) 基本框架

强化学习的交互过程可以描述为 “状态-动作-奖励”循环

  1. 智能体(Agent):学习的决策者(如游戏AI、机器人)。
  2. 环境(Environment):智能体交互的外部世界(如游戏规则、物理世界)。
  3. 状态(State, ( s )):环境当前情况的描述(如棋盘布局、机器人传感器数据)。
  4. 动作(Action, ( a )):智能体在某个状态下采取的行为(如移动棋子、控制电机)。
  5. 奖励(Reward, ( r )):环境对动作的即时反馈(如得分、惩罚)。
  6. 策略(Policy, ( \pi )):智能体的行为规则,决定在什么状态下选择什么动作(如“见敌就攻击”)。

交互流程:

(2) 核心目标

智能体的目标是学习一个策略 ( \pi ),最大化长期累积奖励(即回报,Return):

其中 ( \gamma )(折扣因子,0 ≤ γ ≤ 1)权衡当前奖励与未来奖励的重要性。


2. 关键方法

(1) 基于值函数(Value-Based)

(2) 基于策略(Policy-Based)

直接优化策略 ( \pi ),适用于连续动作空间(如机器人控制):

  • 策略梯度(Policy Gradient):通过梯度上升调整策略参数。
  • 典型算法:REINFORCE、PPO(Proximal Policy Optimization)。

(3) 演员-评论家(Actor-Critic)

结合值函数和策略梯度:

  • 演员(Actor):负责选择动作(策略)。
  • 评论家(Critic):评估动作的好坏(值函数)。
  • 典型算法:A2C、A3C、SAC。

3. 强化学习 vs. 其他机器学习

特性 强化学习 监督学习 无监督学习
数据来源 与环境交互的试错 带标签的静态数据 无标签数据
反馈类型 延迟的奖励信号 即时明确的标签 无明确反馈
目标 最大化长期累积奖励 最小化预测误差 发现数据模式
典型应用 游戏AI、机器人控制 图像分类、语音识别 聚类、降维

4. 经典问题与算法

(1) 多臂老虎机(Multi-Armed Bandit)

  • 问题:在多个选择(如广告投放)中平衡探索(尝试新选项)和利用(选择已知最优选项)。
  • 算法:ε-贪心、UCB(Upper Confidence Bound)。

(2) 马尔可夫决策过程(MDP)

  • 理论基础:强化学习问题通常建模为MDP,包含状态、动作、转移概率和奖励函数。
  • 动态规划:通过值迭代或策略迭代求解小规模MDP(如Grid World)。

(3) 深度强化学习(Deep RL)

  • 核心思想:用深度学习(如神经网络)处理高维状态(如图像、语音)。
  • 代表算法
    • DQN:用CNN处理游戏像素输入。
    • A3C:异步并行训练多个智能体。
    • AlphaGo:结合蒙特卡洛树搜索(MCTS)和策略网络。

5. 挑战与解决方案

挑战 解决方案
稀疏奖励 设计密集奖励函数、好奇心驱动探索(Intrinsic Reward)
探索与利用平衡 ε-贪心、噪声网络(NoisyNet)、熵正则化
样本效率低 经验回放(Experience Replay)、优先回放
高维状态空间 使用CNN、RNN等深度学习模型
非平稳环境 元强化学习(Meta-RL)

6. 应用场景

  1. 游戏AI:AlphaGo、Dota 2 AI(OpenAI Five)、Atari游戏。
  2. 机器人控制:机械臂抓取、自动驾驶(路径规划)。
  3. 推荐系统:动态调整推荐策略以提升用户点击率。
  4. 金融交易:量化交易策略优化。
  5. 医疗:个性化治疗方案设计。

7. 学习资源

  • 经典教材
    • 《Reinforcement Learning: An Introduction》(Richard Sutton)
  • 实战框架
    • OpenAI Gym、Stable Baselines3、PyTorch RL库
  • 在线课程
    • David Silver的RL课程(DeepMind)

总结

强化学习通过“试错+反馈”机制学习最优策略,其核心是交互学习长期规划。尽管面临样本效率、稳定性等挑战,但结合深度学习后,在复杂任务(如游戏、机器人)中展现了强大潜力。


网站公告

今日签到

点亮在社区的每一天
去签到