图书介绍

多智能体机器学习 强化学习方法pdf电子书版本下载

多智能体机器学习  强化学习方法
  • H.M.Schwartz 著
  • 出版社: 机械工业出版社
  • ISBN:9787111569602
  • 出版时间:2017
  • 标注页数:185页
  • 文件大小:19MB
  • 文件页数:196页
  • 主题词:机器学习

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页 直链下载[便捷但速度慢]   [在线试读本书]   [在线获取解压码]

下载说明

多智能体机器学习 强化学习方法PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 监督式学习概述 1

1.1 LS算法 1

1.2 RLS算法 3

1.3 LMS算法 4

1.4随机逼近法 7

参考文献 8

第2章 单智能体强化学习 9

2.1简介 9

2.2 n臂赌博机问题 10

2.3学习结构 12

2.4值函数 13

2.5最优值函数 14

2.5.1网格示例 14

2.6 MDP 17

2.7学习值函数 18

2.8策略迭代 19

2.9时间差分学习 21

2.10状态-行为函数的时间差分学习 23

2.11 Q学习 24

2.12资格迹 25

参考文献 28

第3章 双人矩阵博弈学习 29

3.1矩阵博弈 29

3.2双人矩阵博弈中的纳什均衡 31

3.3双人零和矩阵博弈中的线性规划 32

3.4学习算法 37

3.5梯度上升算法 37

3.6 WoLF-IGA算法 39

3.7 PHC算法 40

3.8 WoLF-PHC算法 42

3.9矩阵博弈中的分散式学习 45

3.10学习自动机 45

3.11线性回报-无为算法 46

3.12线性回报-惩罚算法 46

3.13滞后锚算法 46

3.14 L R-I滞后锚算法 47

3.14.1仿真 52

参考文献 54

第4章 多人随机博弈学习 56

4.1简介 56

4.2多人随机博弈 57

4.3极大极小Q学习算法 60

4.3.1 2×2网格博弈 62

4.4纳什Q学习算法 66

4.4.1学习过程 73

4.5单纯形算法 73

4.6 Lemke-Howson算法 76

4.7纳什Q学习算法实现 82

4.8朋友或敌人Q学习算法 85

4.9无限梯度上升算法 86

4.10 PHC算法 88

4.11 WoLF-PHC算法 89

4.12网格世界中的疆土防御问题 90

4.12.1仿真和结果 92

4.13 L R-I滞后锚算法在随机博弈中的扩展 98

4.14 EMA Q学习算法 101

4.15EMA Q学习与其他方法的仿真与结果比较 103

4.15.1矩阵博弈 103

4.15.2随机博弈 105

参考文献 110

第5章 微分博弈 112

5.1简介 112

5.2模糊系统简述 113

5.2.1模糊集和模糊规则 113

5.2.2模糊推理机 115

5.2.3模糊化与去模糊化 117

5.2.4模糊系统及其示例 117

5.3模糊Q学习 121

5.4 FACL 124

5.5疯狂司机微分博弈 126

5.6模糊控制器结构 129

5.7 Q(λ)学习模糊推理系统 131

5.8疯狂司机博弈的仿真结果 133

5.9双车追捕者-逃跑者博弈中的学习算法 137

5.10双车博弈仿真 139

5.11疆土防御微分博弈 143

5.12疆土防御微分博弈中的形成回报 145

5.13仿真结果 146

5.13.1一个防御者对一个入侵者 146

5.13.2两个防御者对一个入侵者 152

参考文献 157

第6章 群智能与性格特征的进化 159

6.1简介 159

6.2群智能的进化 159

6.3环境表征 160

6.4群机器人的性格特征 161

6.5性格特征的进化 162

6.6仿真结构框架 163

6.7零和博弈示例 164

6.7.1收敛性 165

6.7.2仿真结果 169

6.8后续仿真实现 170

6.9机器人走出房间 171

6.10机器人跟踪目标 174

6.11小结 184

参考文献 184

精品推荐