图书介绍

深入浅出强化学习 原理入门pdf电子书版本下载

深入浅出强化学习  原理入门
  • 郭宪,方勇纯编著 著
  • 出版社: 北京:电子工业出版社
  • ISBN:9787121329180
  • 出版时间:2018
  • 标注页数:239页
  • 文件大小:24MB
  • 文件页数:255页
  • 主题词:人工智能

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页 直链下载[便捷但速度慢]   [在线试读本书]   [在线获取解压码]

下载说明

深入浅出强化学习 原理入门PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

1绪论 1

1.1这是一本什么书 1

1.2强化学习可以解决什么问题 2

1.3强化学习如何解决问题 4

1.4强化学习算法分类及发展趋势 5

1.5强化学习仿真环境构建 7

1.5.1 gym安装及简单的demo示例 8

1.5.2深入剖析gym环境构建 10

1.6本书主要内容及安排 12

第一篇 强化学习基础 17

2马尔科夫决策过程 18

2.1马尔科夫决策过程理论讲解 18

2.2 MDP中的概率学基础讲解 26

2.3基于gym的MDP实例讲解 29

2.4习题 34

3基于模型的动态规划方法 36

3.1基于模型的动态规划方法理论 36

3.2动态规划中的数学基础讲解 47

3.2.1线性方程组的迭代解法 47

3.2.2压缩映射证明策略评估的收敛性 49

3.3基于gym的编程实例 52

3.4最优控制与强化学习比较 54

3.5习题 56

第二篇 基于值函数的强化学习方法 57

4基于蒙特卡罗的强化学习方法 58

4.1基于蒙特卡罗方法的理论 58

4.2统计学基础知识 67

4.3基于Python的编程实例 71

4.4习题 74

5基于时间差分的强化学习方法 75

5.1基于时间差分强化学习算法理论讲解 75

5.2基于Python和gym的编程实例 83

5.3习题 87

6基于值函数逼近的强化学习方法 88

6.1基于值函数逼近的理论讲解 88

6.2 DQN及其变种 94

6.2.1 DQN方法 94

6.2.2 Double DQN 100

6.2.3优先回放(Prioritized Replay) 102

6.2.4 Dueling DQN 104

6.3函数逼近方法 105

6.3.1基于非参数的函数逼近 105

6.3.2基于参数的函数逼近 111

6.3.3卷积神经网络 117

6.4习题 123

第三篇 基于直接策略搜索的强化学习方法 125

7基于策略梯度的强化学习方法 126

7.1基于策略梯度的强化学习方法理论讲解 126

7.2基于gym和TensorFlow的策略梯度算法实现 134

7.2.1安装Tensorflow 135

7.2.2策略梯度算法理论基础 135

7.2.3 Softmax策略及其损失函数 136

7.2.4基于TensorFlow的策略梯度算法实现 138

7.2.5基于策略梯度算法的小车倒立摆问题 141

7.3习题 141

8基于置信域策略优化的强化学习方法 142

8.1理论基础 143

8.2 TRPO中的数学知识 153

8.2.1信息论 153

8.2.2优化方法 155

8.3习题 164

9基于确定性策略搜索的强化学习方法 165

9.1理论基础 165

9.2习题 170

10基于引导策略搜索的强化学习方法 171

10.1理论基础 171

10.2 GPS中涉及的数学基础 178

10.2.1监督相LBFGS优化方法 178

10.2.2 ADMM算法 179

10.2.3 KL散度与变分推理 183

10.3习题 184

第四篇 强化学习研究及前沿 185

11逆向强化学习 186

11.1概述 186

11.2基于最大边际的逆向强化学习 187

11.3基于最大熵的逆向强化学习 194

11.4习题 201

12组合策略梯度和值函数方法 202

13值迭代网络 207

13.1为什么要提出值迭代网络 207

13.2值迭代网络 210

14基于模型的强化学习方法:PILCO及其扩展 214

14.1概述 214

14.2 PILCO 216

14.3滤波PILCO和探索PILCO 226

14.3.1滤波PILCO算法 227

14.3.2有向探索PILCO算法 230

14.4深度PILCO 232

后记 235

参考文献 237

精品推荐