图书介绍

马尔可夫决策过程理论与应用pdf电子书版本下载

马尔可夫决策过程理论与应用
  • 刘克,曹平编著 著
  • 出版社: 北京:科学出版社
  • ISBN:9787030431233
  • 出版时间:2015
  • 标注页数:277页
  • 文件大小:39MB
  • 文件页数:291页
  • 主题词:马尔柯夫决策

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页 直链下载[便捷但速度慢]   [在线试读本书]   [在线获取解压码]

下载说明

马尔可夫决策过程理论与应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 引论 1

1.1 序列决策模型 1

1.2 马氏决策过程的例子 3

1.3 马氏决策过程的定义与记号 7

1.3.1 决策时刻与周期 7

1.3.2 状态与行动集 8

1.3.3 转移概率和报酬 8

1.3.4 历史、决策规则与策略 9

1.3.5 诱导过程、效用准则与马氏策略优势 10

1.4 马氏决策过程的起源和发展 14

1.5 问题 16

第2章 有限阶段模型 17

2.1 最优准则 17

2.2 有限阶段的策略迭代和最优方程 18

2.3 最优策略的存在性和算法 20

2.4 两个例子 23

2.4.1 序贯分配问题 23

2.4.2 秘书问题 26

2.5 单调策略的最优性 29

2.6 部分可观察的马氏决策过程 33

2.6.1 有限状态和行动空间的部分可观察马氏决策过程 34

2.6.2 算法 42

2.7 问题 44

第3章 无限阶段折扣模型 47

3.1 最优准则 47

3.2 最优方程 48

3.3 最优策略的存在性 50

3.4 策略迭代算法 54

3.5 值迭代算法 57

3.6 改进的策略迭代算法 63

3.7 线性规划算法 64

3.8 可数状态与行动的模型 67

3.8.1 无界报酬的情形 67

3.8.2 有限状态逼近无限状态的情形 70

3.8.3 设备维修的例子 74

3.8.4 有限状态可数行动的情形 78

3.9 最优单调策略 80

3.10 最优策略的结构 82

3.11 多臂赌博机问题 83

3.12 问题 88

第4章 无限阶段平均模型 91

4.1 最优准则 91

4.2 最优平稳策略的存在性 93

4.3 平稳策略一些特征 94

4.4 最优方程与策略迭代算法 103

4.5 单链时的情形 107

4.5.1 最优方程解存在的条件 108

4.5.2 值迭代算法 109

4.5.3 单链MDPs的策略迭代算法及其改进 114

4.5.4 单链MDPs的线性规划算法 116

4.5.5 带约束模型和方差准则模型 118

4.5.6 可数状态模型 124

4.5.7 结构化最优策略 127

4.6 多链时的情形 130

4.6.1 线性规划算法 131

4.6.2 平均准则下的Bellman最优原则 133

4.7 问题 136

第5章 权重准则模型与概率准则模型 138

5.1 折扣权重模型 138

5.2 折扣与平均权重模型 145

5.3 MDP的百分比与目标水平 149

5.4 风险概率准则模型 154

5.4.1 终达目标最小风险模型 156

5.4.2 首达目标最小风险模型 163

5.5 问题 164

第6章 连续时间与半马氏模型 165

6.1 连续时间折扣MDP 165

6.1.1 模型和策略的定义 165

6.1.2 连续时间MDP的决策过程与折扣准则 166

6.1.3 最优策略的存在性与结构 168

6.1.4 转化为离散时间模型 170

6.1.5 适用范围的推广 171

6.2 连续时间平均MDP 172

6.3 折扣半马氏模型 175

6.4 平均半马氏模型 180

6.5 服务率受控的一个排队模型 182

6.6 问题 184

第7章 空集装箱调配问题 185

7.1 单港口的问题与建模 185

7.2 无限阶段折扣准则 189

7.3 无限阶段平均准则 191

7.4 数值例子 193

7.5 多港口空集装箱的调配问题 194

第8章 人力资源模型 199

8.1 问题 199

8.2 数学模型 200

8.2.1 状态空间 201

8.2.2 决策时刻与行动集 202

8.2.3 转移速率与转移概率 202

8.2.4 费用与准则 204

8.3 相关参数分析 204

8.4 数例 207

第9章 软件测试的最优发布问题 209

9.1 模型 210

9.2 结构性质 212

9.2.1 最优函数V*(n,t)的性质 212

9.2.2 最优策略的阈值结构 215

9.3 数值仿真研究 217

9.3.1 连续时间模型的离散逼近 218

9.3.2 数值例子 218

9.4 基本模型的一般化 219

第10章 大规模问题的近似算法 220

10.1 大规模问题的挑战 220

10.2 向前动态规划方法 222

10.2.1 近似最优决策行为的选择 222

10.2.2 随时间向前递推过程 223

10.2.3 随机变量的抽样 223

10.2.4 向前动态规划算法 224

10.3 Q-learning和SARSA方法 225

10.3.1 Q-learning方法 225

10.3.2 SARSA方法 227

10.4 实时动态规划方法 227

10.5 逼近值迭代方法 228

10.6 决策后状态方法 230

10.6.1 寻找决策后状态变量 230

10.6.2 决策后状态变量的例子 231

10.6.3 决策后状态变量的最优方程 235

10.6.4 决策后状态方程的逼近算法 236

10.6.5 决策后状态与Q-learning 237

10.7 探索和利用的问题 238

10.8 近似线性规划方法 240

10.9 策略近似算法 243

10.10 总结 245

参考文献 248

索引 260

习题解答 263

《运筹与管理科学丛书》已出版书目 277

精品推荐