Reinforcement Learning for Education: Opportunities and Challenges
面向教育的强化学习:机遇与挑战
摘要
本综述文章源自作者在 Educational Data Mining (EDM) 2021 会议期间组织的 RL4ED 研讨会。我们组织了这一研讨会,作为一项社区建设工作的组成部分,旨在汇聚对强化学习(RL)与教育(ED)广义领域感兴趣的研究人员与实践者。本文旨在概述研讨会的活动情况,并总结强化学习在教育领域中的主要研究方向。
1 引言
强化学习(RL)是一种用于建模和自动化目标导向学习与序贯决策的计算框架 [1, 2]。与监督学习和无监督学习等其他学习方法不同,RL 强调的是智能体通过与环境的直接交互进行学习。RL 特别适用于智能体需要学习在不同情境下采取何种行动的策略,即如何将状态映射到动作,以最大化长期效用。智能体必须探索不同的行动以发现能够带来高奖励的行为;关键在于,这些行为不仅影响即时获得的奖励,还会影响下一个状态,并进而通过状态影响所有未来的奖励。这些特性——动作具有长期影响、奖励延迟,以及在不确定性下的序贯决策——构成了 RL 的核心优势。
到目前为止,RL 最令人印象深刻的一些应用主要局限于游戏领域 [3-6]。鉴于师生之间的序贯互动在教育(ED)中的核心地位,近年来在利用 RL 改善教育技术的最前沿水平方面出现了浓厚的兴趣。在 ED 中有几种问题场景适合应用 RL 方法,包括利用 RL 方法训练教学策略以及将人类学生建模为 RL 智能体。虽然前景广阔,但将开箱即用的 RL 方法应用于 ED 通常非常具有挑战性。此外,ED 中的许多问题场景还存在独特挑战,使得当前的 RL 方法无法直接适用。ED 中的一些关键挑战包括:(a)缺乏基于仿真环境训练大量数据需要的 RL 方法;(b)需要大规模(往往无限)的状态空间表示;(c)环境状态(即学生知识)观察受限;(d)奖励测量存在显著延迟且噪声大;以及(e)当 RL 方法应用于关乎学生未来的关键领域时,对其鲁棒性、可解释性和公平性的担忧。
RL4ED 研讨会的目标在于促进对 RL 和 ED 广泛领域感兴趣的研究者与实践者之间更紧密的联系。研讨会主要聚焦于两个方向:
RL → E D \rightarrow \mathbf{E D} →ED : 探索如何利用 RL 方法的最新进展来改进教育技术的现状。
E D → R L \mathbf{E D} \rightarrow \mathbf{R L} ED→RL : 确定 ED 中独特的挑战,这些挑战超越了当前方法论,但可以催生 RL 中新的技术创新和突破。
2 RL4ED@EDM’21 研讨会活动概况
本节我们概述了在 EDM 2021 会议期间组织的 RL4ED 研讨会;完整细节可在研讨会网站上获取。该研讨会作为在线活动举行;在最高峰时,注册人数超过 120 人,且同时在线参会人数超过 60 人。研讨会的结构围绕邀请演讲、投稿论文、聚光报告以及两场专题讨论会展开。
\subsection*{2.1 关注的主题}
如上所述,本次研讨会聚焦于两个主要方向,每个方向涵盖了若干感兴趣的专题。这些专题在邀请演讲嘉宾的选择和投稿论文的聚光报告选择时起到了指导作用。
在 R L → E D \mathbf{R L} \rightarrow \mathbf{E D} RL→ED 方向中,关注的主题集中在利用 RL 方法的最新进展解决 ED 问题场景,包括:(i)总结了具有适用于 ED 的 RL 最新进展的综述论文;(ii)开发适用于 ED 的 RL 方法的工具包、数据集和挑战;(iii)利用 RL 进行在线评估和 A/B 测试不同干预策略;以及(iv)RL 在 ED 问题场景中的新应用。\
在 E D → R L \mathbf{E D} \rightarrow \mathbf{R L} ED→RL 方向中,关注的主题集中在 ED 问题场景中独特的挑战,这些挑战激发了 RL 方法的下一次突破,包括:(i)利用教学理论来缩小 RL 方法策略空间;(ii)利用 RL 框架构建开放式领域中学生的计算模型;(iii)开发能够高效利用历史学生数据的全新离线 RL 方法;以及(iv)结合 RL 的统计优势与符号推理以确保 ED 中应用的鲁棒性。
\subsection*{2.2 邀请演讲和专题讨论会}
我们邀请了来自学术界和工业界的一批嘉宾,覆盖了各个感兴趣的专题,并在不同视角和学科之间取得平衡。研讨会共安排了 7 个邀请演讲;每个演讲大约 25 分钟。下面列出了演讲嘉宾及其演讲主题:
\section*{[T1] Tanja Käser;在开放式学习环境中的建模与个性化学习。}
[T2] Simon Woodhead;Eedi 与 NeurIPS 2020 教育挑战数据集。\[0pt]
[T3] José Miguel Hernández Lobato;在观察性场景中去混淆强化学习。\[0pt]
[T4] Min Chi;教学政策对学生学习影响——一种强化学习方法。\[0pt]
[T5] Emma Brunskill;从教育及其他社会关注应用中的挑战获得启示的更实用的强化学习。\[0pt]
[T6] Joe Austerweil;“强化学习不过是一种需要最大化的价值吗?”\[0pt]
[T7] Shayan Doroudi;用于教学序列优化的强化学习——从过去中学习以满足未来的挑战。
这些邀请演讲的视频录像可在研讨会网站上观看。除了这些邀请演讲外,演讲嘉宾还参加了两个各为 30 分钟的专题讨论会。演讲后和专题讨论会后的问答环节为参与者提供了充分讨论的机会。
\subsection*{2.3 投稿论文和聚光报告}
鉴于本次研讨会的重点在于社区建设和交流,我们在论文征集时稍作尝试,征集了两种类型的投稿。第一种,我们称之为“研究轨”,包括报告正在进行或新研究成果的论文,这些论文此前未曾发表。第二种,我们称之为“重现轨”,包括最近已发表或已被接收在会议或期刊上公布的论文。
对于“研究轨”,我们共收到 4 篇投稿,并录用了 3 篇。对于“重现轨”,我们向相关领域的已发表论文作者发送邀请,共收到 6 篇投稿。总计,我们收到了 9 篇投稿论文,涵盖了研讨会感兴趣的各个主题。这些投稿论文作为聚光报告展示;每篇报告大约 8 分钟。总计共有 10 个聚光报告,其中包括这些投稿论文及一个额外的邀请报告,列表如下:\[0pt]
[S1] 基于决斗赌博机的统计后果。\[0pt]
(研究轨;[7])\[0pt]
[S2] 捕捉学生与机器人交互的数据驱动教育对话 RL 环境。(研究轨;[8])\[0pt]
[S3] 探索用于教育游戏中可迁移个性化学生模型的方法。(重现轨;[9])\[0pt]
[S4] 将自适应间隔启发式扩展到多技能题目。(重现轨;[10])\[0pt]
[S5] “过于个性化”:在线自适应算法中特征选择的重要性。(重现轨;[11])\[0pt]
[S6] “近似最优教师指导近似最优学习者”。(重现轨;[12])\[0pt]
[S7] 利用强化学习学习教育相关任务的专家模型。(重现轨;[13])\[0pt]
[S8] 使用深度强化学习模拟、训练和评估教学序列策略。(研究轨;[14])\[0pt]
[S9] 利用批量约束深度 Q 网络自适应搭架构以提升认知参与。(重现轨;[15])\[0pt]
[S10] 将强化学习整合入 ASSISTments 平台。(额外邀请的聚光报告)
这些聚光报告的视频录像可在研讨会网站上观看。
3 RL4ED 主要研究方向的总结
本节中,我们总结了强化学习在教育领域中的主要研究方向。\[0pt]
RL 方法用于跨任务个性化课程的设计。RL 在 ED 中最直接、研究最为充分的应用是为学生提供个性化课程的教学策略训练。在这一问题设置中,一般训练一个 RL 智能体来在智能辅导系统中诱导教学策略,而人类学生则作为 RL 术语中的“环境”存在 [2]。对于给定学生,该教学策略将学生的响应历史映射到下一任务,以最大化长期的学习收益。读者可参考 [16],该文对该主题进行了极好的综述;同时也请参见邀请演讲 [T7]。最新该方向的研究也覆盖于邀请演讲 [T4]、聚光报告 [S6] 和 [S8] 以及几篇近期作品 [12, 17-21]。尽管这是 RL 的自然应用,但在实践中,要在真实世界的 ED 领域训练出有效的基于 RL 的策略存在许多挑战;详见 [16]。其中一个主要挑战是学生的真实知识状态并不可直接观察到~ [ 12 , 17 ] [12,17] [12,17]——我们需要使用适当的表示将学生的响应映射为其知识状态。另一个主要挑战来自于缺乏基于仿真环境来训练需要海量数据的 RL 方法。通常,RL 智能体需要数百万个训练回合,而这些训练通常在游戏领域的仿真器中进行;然而,在 ED 领域,我们并没有这样的真实仿真器或人类学生的计算模型。为了解决这些挑战,一个重要的研究方向是探讨如何有效结合基于 RL 的策略与教学理论,或者利用教学理论来缩小 ED 问题设置中 RL 的策略空间。另一个重要研究方向是开发能够高效利用历史数据的全新离线 RL 方法;详见邀请演讲 [T5]。
RL 方法用于提供提示、支架和测验。除了跨任务的课程设计之外,RL 在 ED 中的另一个重要应用是训练能够在任务中提供提示作为反馈的策略。尤其对于复杂的开放领域(例如,基于积木的可视化编程或高中代数),提示、反馈和支架对于提升学生参与度和学习收益起着重要作用 [22-25]。在一项早期工作中,[26] 利用马尔科夫决策过程(MDP)形式化,用于从历史学生数据中自动生成逻辑证明辅导的提示。近期的工作中,[27] 提出了一种 RL 框架用于训练针对基于积木的可视化编程任务的提示策略,而不依赖历史学生数据,从而应对该领域下零样本提供提示的挑战。我们还请读者参见最近几项工作,包括 [15, 28],它们使用 RL 方法在关键决策点为学生提供支架与辅助;另请参见邀请演讲 [T4] 及聚光报告 [S9]。在一个略有不同的问题设置中,[29] 探讨了如何利用基于 RL 的策略为学生进行测验以推断其知识状态,从而解决 Eedi 的 NeurIPS 教育挑战中的问题 #4(参见 [30, 31] 及邀请演讲 [T2])。这些工作仍处于早期阶段,展示了利用基于 RL 的策略在跨任务之外的不同问题设置中的潜力。在未来几年中,我们相信 RL 方法将在为复杂开放任务提供反馈方面发挥至关重要的作用。一个令人兴奋的研究方向是训练基于 RL 的策略,在提供提示时平衡不同目标——是快速完成当前任务提示,还是在教师的角度最大化提示的教学价值,使学生在未来任务中获得更好表现。
RL 用于在线实验和 A/B 测试在教育平台中的应用。近年来,人们越来越关注利用 RL 方法评估大规模在线平台中不同教育干预措施的效果。特别是,一类特殊的 RL 方法——多臂老虎机(MAB)被最新研究用于自适应实验:每个学生被分配到一种技术版本或一种干预措施(在 MAB 术语中为“臂”),算法观察该学生的学习成果(与所分配“臂”相关的奖励);随后,每位学生更有可能被分配到先前证明更有效的技术版本,因为算法会发现哪些干预更有效 [32-34]。虽然标准 MAB 算法不支持基于学生个人特征的个性化,但情景 MAB 算法可以考虑学生特征,并使分配更加个性化,从而进一步提升学习收益。在最近的工作中,[12] 探讨了情景 MAB 算法中所用特征的效果,并强调了个性化在学习收益上的权衡(另请参见本论文聚光报告 [S5])。在另一个最近工作中,[35] 作为案例研究,通过发送作业邮件提醒来进行自适应实验,并报告在现实环境中进行此类实验时出现的各种开放性问题。我们还请读者参见其他几篇近期工作,包括 [36, 37] 以及聚光报告 [S1] 和 [S10]。在 [S10] 中,作者讨论了他们将基于 MAB 的自适应实验用于推荐和个性化学生在 ASSISTments 教育平台上接收内容的持续努力。总体而言,RL 用于自适应实验是一个非常有前景的领域,预期在未来几年中,我们将看到 RL 驱动技术在现实教育平台中的部署。该领域一个重要的研究方向是更好地理解自适应实验的伦理影响,并设计可考虑公平性的情景 MAB 算法,从而确保不同群体之间的教育公平。
RL 框架用于建模人类学生。与利用 RL 智能体代表教师 / 辅导系统不同,我们可以采取另一种视角,利用 RL 框架来对学生的学习或问题解决过程进行建模。在这种设置中,人类学生被建模为 RL 智能体,教师则代表“环境”;参见训练教学策略时将 RL 智能体表示为教师或辅导系统的设置。这种建模框架在开放式学习领域尤其有用,其中任务概念性强、开放且序贯,包括如基于积木的可视化编程和高中代数等领域。这样的 RL 计算模型有助于多种应用。例如,可以利用该模型根据学生尝试的解答诊断其错误,并设计出更有效的环境反馈(例如,通过适当的干预措施);参见 [39, 40]。此外,这种计算模型还可用作模拟学生,来评估教学算法或训练教学策略。在机器教学研究中 [41],近期的一系列工作已利用 RL 智能体作为学生模型来探讨针对序贯决策任务的教学理论基础。例如,[42-44] 研究了当学生被模型为模仿学习智能体时如何设计课程以及如何通过演示优化教学,以及 [45] 研究了当学生被建模为 RL 智能体时的策略教学与环境设计问题。最近的诸多工作和研讨会活动均聚焦于这一研究方向,包括 [9, 13, 46],邀请演讲 [T1] 和 [T6],以及聚光报告 [S3] 和 [S7]。在未来几年中,我们相信利用 RL 框架建模人类学生将继续成为一个重要的研究方向。其中最重要的研究问题之一是如何将以人为中心的学习特性纳入 RL 智能体中,使这些智能体能更好地代表真实的学生。更具体地说,开发能够捕捉人类学习者能力(例如,少样本学习、演绎推理和从不同反馈类型中学习)的 RL 智能体将具有重要意义。
RL 用于教育内容生成。另一个重要的研究方向是利用 RL 方法进行教育内容生成,例如生成新的练习题、测验或视频。这常被称为过程内容生成(PCG),近期工作已探索了 RL 在生成不同难度的 Sokoban 谜题 [47, 48] 和赛车游戏 [49] 中的适用性。在最近的工作中,[50] 结合 Monte Carlo 树搜索(MCTS)方法与符号技术,在基于积木的可视化编程领域合成新任务。这些合成任务可在许多实际系统中发挥作用——例如,辅导教师可以将新练习任务作为家庭作业或测验分配给学生,以检验其知识掌握情况,学生在未能解决某个任务后也可以通过系统自动获得新的类似任务。鉴于在线平台上提供个性化且多样化教育内容的迫切需求,RL 用于教育内容生成是一个需要进一步探索的重要研究领域。
4 结论
面向教育的强化学习是未来工作中一个重要的应用领域,它可能带来教育实际改进以及强化学习技术的新进展。EDM2021 研讨会上的演讲和讨论突显了社区对本文涵盖主要领域的热情,多样的视角以及专家小组的评论展示了从多个学科(包括但不限于学习科学、认知科学和机器学习)中汲取思想的重要性。这种多学科视角的需求及教育应用所提出的独特挑战表明,继续在此领域培养社区仍然十分必要。