酷应用

资源 | Richard Sutton经典教材《强化学习》第二版公布（附PDF下载）

百家作者：机器之心 2017-11-08 05:48:22

选自incompleteideas

机器之心编译

参与：黄小天、刘晓坤

强化学习教父 Richard Sutton 的经典教材《Reinforcement Learning：An Introduction》第二版公布啦。本书分为三大部分，共十七章，机器之心对其简介和框架做了扼要介绍，并附上了全书目录、课程代码与资料。下载《强化学习》PDF 请点击文末「阅读原文」。

书籍百度网盘：https://pan.baidu.com/s/1miP38tM
原书籍地址：http://incompleteideas.net/sutton/book/bookdraft2017nov5.pdf
课程代码地址：https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
课程资料地址：http://incompleteideas.net/sutton/book/the-book-2nd.html

简介

当我们思考学习的本质时，首先映入脑海的想法很可能是通过与环境的交互进行学习。当一个婴儿玩耍时，挥舞手臂，左顾右盼，旁边没有老师指导他，他与环境却有着一种直接的感知连接。通过这种连接，他懂得了因果关系，行动带来的结果，以及为了达成目标所需做的一切。人的一生中，这样的交互成了我们关于环境和自身知识的主要来源。不管学习驾驶汽车，还是进行一场交谈，实际上我们自始至终观察着环境如何回应我们的所为，并通过自身行为影响当下情景。交互式学习几乎是所有学习与智能理论的基石。

本书中我们提出了一种通过计算实现交互式学习的方法。我们没有直接理论化人类或动物的学习方式，而是探索理想的学习环境，评估不同学习方法的有效性。即，我们站在人工智能研究者或工程师的角度来解决问题。我们探讨了在解决科学或经济问题方面表现突出的机器的设计，通过数学分析或计算实验评估其设计。我们提出的这一方法称之为强化学习。相较于其他机器学习方法，它更专注于交互之中的目标导向性学习。

第一部分：列表（Tabular）解决法

本书第一部分我们以最简单形式描述了强化学习算法几乎所有的核心的概念，即状态和动作空间要足够小，保证近似值函数被表征为数组或表格。本案例中，这些方法经常能够发现正确方案，即找到最优值函数和最优策略。这与本书第二部分描述的、只能找到近似方案的近似法（但反过来它可有效用于解决更大的问题）形成了鲜明对比。

本书第一部分的第一章描述了强化学习问题具体案例的解决方案，其中只有一个称为土匪问题（bandit problem）的单一状态。第二章描述了贯穿全书的一般问题制定——有限马尔科夫决策过程，其主要思想包括贝尔曼方程（Bellman equation）和价值函数。

第三、四、五章介绍了解决有限马尔科夫决策问题的三类基本方法：动态编程，蒙特卡洛方法、时序差分学习。三者各有其优缺点。动态编程偏向数学，但是需要完整和精确的环境模型。蒙特卡洛无需模型，概念也很简单，但是不适用于一步一步的增量计算。时序差分方法也不需要模型，并且是完全增量的，但是分析异常困难。三者在效率和收敛速度方面也各有其不同。

第六、七章介绍了上述三类方法如何结合在一起进而达到最佳效果。第六章中我们介绍了可使用适合度轨迹（eligibility traces）把蒙特卡洛方法和时序差分学习的优势整合起来。第七章中我们表明时序差分学习可与模型学习和规划方法（比如动态编程）结合起来，获得一个解决列表强化学习（tabular reinforcement learning）问题的完整而统一的方案。

第二部分：近似求解法

本书第二部分将扩展第一部分中介绍的列表法以应用于任意大的状态空间。我们希望应用强化学习的诸多任务中的状态空间都是组合性的和庞大的；例如，可能存在的图像的数量远远大于宇宙中的原子的总数。在这样的案例中我们甚至不能在无限的时间和数据极限内找到最优策略或最优值函数，因此我们的目标需要换成使用有限的计算资源寻找足够好的近似解。在本书的这一部分我们将探索多种近似解法。

大型状态空间的问题不仅仅在于需要为大型的列表分配的内存，还有使其达到足够的准确率需要的时间和数据量。我们很多的目标任务中几乎每一个遇到的状态都是前所未见的。为了在这样的状态中做出合理的决策，从先前遇到的和当前状态在某种程度上相似的多种状态进行泛化是很有必要的。换一种说法，问题的关键就是泛化能力。状态空间的有限子集的经验如何有效地泛化以对相对大得多的子集生成足够好的近似解呢？

幸运的是，从样本中泛化的问题已经被广泛地研究过，我们并不需要在强化学习中发明全新的方法；从某种程度上讲只需要将强化学习方法和已有的泛化方法结合起来。我们需要的泛化方法通常称为函数逼近，这是因为这种方法从所需的函数（例如，价值函数）中采样，然后从中泛化以构建完整函数的近似。函数逼近是监督学习的一个实例，也是机器学习、人工神经网络、模式识别和统计曲线拟合中最重要的研究课题。从理论上看，在这些领域中研究过的任何方法都可以用作强化学习算法中的函数逼近器，虽然实际上有些方法比起其它更加适用于强化学习。

在强化学习中使用函数逼近涉及一些在传统的监督学习中不常出现的新问题，比如非稳定性（nonstationarity）、引导（bootstrapping）和目标延迟（delayed targets）。我们将在这部分的五章中先后介绍这些以及其它问题。我们首先集中讨论在线（on-policy）训练，而在第九章中的预测案例其策略是给定的，只有其价值函数是近似的，在第十章中的控制案例中最优策略的一个近似已经找到。函数逼近的离线（off-policy）学习的困难将在第十一章讨论。在这三章的每一章中我们都必须从基本原理开始，并复查函数逼近的学习目标。第十二章将介绍和分析适合度轨迹（eligibility traces）的算法机制，它能在多个案例中显著优化多步强化学习方法的计算特性。这一部分的最后一章将探索一种不同的控制、策略梯度的方法，它能直接逼近最优策略且完全不需要设定近似值函数（虽然如果使用了一个逼近价值函数，效率会高得多）。

第三部分：更进一步

在本书的最后一部分我们将把眼光放到第一、二部分中介绍标准的强化学习思想之外，简单地概述它们和心理学以及神经科学的关系，讨论一个强化学习应用的采样过程，和一些未来的强化学习研究的活跃前沿。

以下是该书籍的目录：

1 Introduction

1.1 Reinforcement Learning

1.2 Examples

1.3 Elements of Reinforcement Learning

1.4 Limitations and Scope

1.5 An Extended Example: Tic-Tac-Toe

1.6 Summary

1.7 Early History of Reinforcement Learning

I Tabular Solution Methods

2 Multi-armed Bandits

2.1 A k-armed Bandit Problem

2.2 Action-value Methods

2.3 The 10-armed Testbed

2.4 Incremental Implementation

2.5 Tracking a Nonstationary Problem

2.6 Optimistic Initial Values

2.7 Upper-Condence-Bound Action Selection

2.8 Gradient Bandit Algorithms

2.9 Associative Search (Contextual Bandits)

2.10 Summary

3 Finite Markov Decision Processes

3.1 The Agent{Environment Interface

3.2 Goals and Rewards

3.3 Returns and Episodes

3.4 Unied Notation for Episodic and Continuing Tasks

3.5 Policies and Value Functions

3.6 Optimal Policies and Optimal Value Functions

3.7 Optimality and Approximation

3.8 Summary

4 Dynamic Programming

4.1 Policy Evaluation (Prediction)

4.2 Policy Improvement

4.3 Policy Iteration

4.4 Value Iteration

4.5 Asynchronous Dynamic Programming

4.6 Generalized Policy Iteration

4.7 Eciency of Dynamic Programming

4.8 Summary

5 Monte Carlo Methods

5.1 Monte Carlo Prediction

5.2 Monte Carlo Estimation of Action Values

5.3 Monte Carlo Control

5.4 Monte Carlo Control without Exploring Starts

5.5 O-policy Prediction via Importance Sampling

5.6 Incremental Implementation

5.7 O-policy Monte Carlo Control

5.8 *Discounting-aware Importance Sampling

5.9 *Per-reward Importance Sampling

5.10 Summary

6 Temporal-Dierence Learning

6.1 TD Prediction

6.2 Advantages of TD Prediction Methods

6.3 Optimality of TD(0)

6.4 Sarsa: On-policy TD Control

6.5 Q-learning: O-policy TD Control

6.6 Expected Sarsa

6.7 Maximization Bias and Double Learning

6.8 Games, Afterstates, and Other Special Cases

6.9 Summary

7 n -step Bootstrapping

7.1 n-step TD Prediction

7.2 n-step Sarsa

7.3 n-step O-policy Learning by Importance Sampling

7.4 *Per-reward O-policy Methods

7.5 O-policy Learning Without Importance Sampling:

The n-step Tree Backup Algorithm

7.6 *A Unifying Algorithm: n-step Q()

7.7 Summary

8 Planning and Learning with Tabular Methods

8.1 Models and Planning

8.2 Dyna: Integrating Planning, Acting, and Learning

8.3 When the Model Is Wrong

8.4 Prioritized Sweeping

8.5 Expected vs. Sample Updates

8.6 Trajectory Sampling

8.7 Real-time Dynamic Programming

8.8 Planning at Decision Time

8.9 Heuristic Search

8.10 Rollout Algorithms

8.11 Monte Carlo Tree Search

8.12 Summary of the Chapter

8.13 Summary of Part I: Dimensions

II Approximate Solution Methods

9 On-policy Prediction with Approximation

9.1 Value-function Approximation

9.2 The Prediction Objective (VE)

9.3 Stochastic-gradient and Semi-gradient Methods

9.4 Linear Methods

9.5 Feature Construction for Linear Methods

9.5.1 Polynomials

9.5.2 Fourier Basis

9.5.3 Coarse Coding

9.5.4 Tile Coding

9.5.5 Radial Basis Functions

9.6 Nonlinear Function Approximation: Articial Neural Networks

9.7 Least-Squares TD

9.8 Memory-based Function Approximation

9.9 Kernel-based Function Approximation

9.10 Looking Deeper at On-policy Learning: Interest and Emphasis

9.11 Summary

10 On-policy Control with Approximation

10.1 Episodic Semi-gradient Control

10.2 n-step Semi-gradient Sarsa

10.3 Average Reward: A New Problem Setting for Continuing Tasks

10.4 Deprecating the Discounted Setting

10.5 n-step Dierential Semi-gradient Sarsa

10.6 Summary

11 O-policy Methods with Approximation

11.1 Semi-gradient Methods

11.2 Examples of O-policy Divergence

11.3 The Deadly Triad

11.4 Linear Value-function Geometry

11.5 Stochastic Gradient Descent in the Bellman Error

11.6 The Bellman Error is Not Learnable

11.7 Gradient-TD Methods

11.8 Emphatic-TD Methods

11.9 Reducing Variance

11.10 Summary

12 Eligibility Traces

12.1 The -return

12.2 TD()

12.3 n-step Truncated -return Methods

12.4 Redoing Updates: The Online -return Algorithm

12.5 True Online TD()

12.6 Dutch Traces in Monte Carlo Learning

12.7 Sarsa()

12.8 Variable and

12.9 O-policy Eligibility Traces

12.10 Watkins's Q() to Tree-Backup()

12.11 Stable O-policy Methods with Traces

12.12 Implementation Issues

12.13 Conclusions

13 Policy Gradient Methods

13.1 Policy Approximation and its Advantages

13.2 The Policy Gradient Theorem

13.3 REINFORCE: Monte Carlo Policy Gradient

13.4 REINFORCE with Baseline

13.5 Actor{Critic Methods

13.6 Policy Gradient for Continuing Problems

13.7 Policy Parameterization for Continuous Actions

13.8 Summary

III Looking Deeper

14 Psychology

14.1 Prediction and Control

14.2 Classical Conditioning

14.2.1 Blocking and Higher-order Conditioning

14.2.2 The Rescorla{Wagner Model

14.2.3 The TD Model

14.2.4 TD Model Simulations

14.3 Instrumental Conditioning

14.4 Delayed Reinforcement

14.5 Cognitive Maps

14.6 Habitual and Goal-directed Behavior

14.7 Summary

15 Neuroscience

15.1 Neuroscience Basics

15.2 Reward Signals, Reinforcement Signals, Values, and Prediction Errors

15.3 The Reward Prediction Error Hypothesis

15.4 Dopamine

15.5 Experimental Support for the Reward Prediction Error Hypothesis

15.6 TD Error/Dopamine Correspondence

15.7 Neural Actor Critic

15.8 Actor and Critic Learning Rules

15.9 Hedonistic Neurons

15.10 Collective Reinforcement Learning

15.11 Model-based Methods in the Brain

15.12 Addiction

15.13 Summary

16 Applications and Case Studies

16.1 TD-Gammon

16.2 Samuel's Checkers Player

16.3 Watson's Daily-Double Wagering

16.4 Optimizing Memory Control

16.5 Human-level Video Game Play

16.6 Mastering the Game of Go

16.6.1 AlphaGo

16.6.2 AlphaGo Zero

16.7 Personalized Web Services

16.8 Thermal Soaring

17 Frontiers

17.1 General Value Functions and Auxiliary Tasks

17.2 Temporal Abstraction via Options

17.3 Observations and State

17.4 Designing Reward Signals

17.5 Remaining Issues

17.6 Reinforcement Learning and the Future of Articial Intelligence

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告&商务合作：bd@jiqizhixin.com

关注公众号：拾黑（shiheibook）了解更多

[广告]赞助链接：

*文章为作者独立观点，不代表爱尖刀立场

本文由机器之心发表，转载此文章须经作者同意，并请附上出处( 爱尖刀 )及本页链接。

原文链接 https://www.ijiandao.com/2b/baijia/78361.html

pdf

图库

机器之心

关注网络尖刀微信公众号
随时掌握互联网精彩

赞助链接

百度热搜榜

排名热点搜索指数