图书介绍
机器学习 算法背后的理论与优化pdf电子书版本下载
- 史春奇,卜晶祎,施智平著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302517184
- 出版时间:2019
- 标注页数:185页
- 文件大小:61MB
- 文件页数:204页
- 主题词:机器学习-算法
PDF下载
下载说明
机器学习 算法背后的理论与优化PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 线性回归与逻辑回归 1
1.1 线性回归 1
1.1.1 函数关系与统计关系 1
1.1.2 统计与机器学习 2
1.2 最小二乘法与高斯-马尔可夫定理 5
1.2.1 最小二乘法 5
1.2.2 高斯-马尔可夫定理 6
1.3 从线性回归到逻辑回归 8
1.4 最大似然估计求解逻辑回归 9
1.5 最小二乘与最大似然 11
1.5.1 逻辑回归与伯努利分布 11
1.5.2 线性回归与正态分布 12
1.6 小结 13
参考文献 13
第2章 广义线性模型 15
2.1 广义线性模型概述 15
2.1.1 广义线性模型的定义 15
2.1.2 链接函数与指数分布簇 17
2.2 广义线性模型求解 20
2.3 最大似然估计Ⅰ:Fisher信息 21
2.4 最大似然估计Ⅱ:KL散度与Bregman散度 23
2.4.1 KL散度 23
2.4.2 Bregman散度 25
2.5 小结 26
参考文献 26
第3章 经验风险最小 28
3.1 经验风险与泛化误差概述 28
3.1.1 经验风险 30
3.1.2 泛化误差 30
3.1.3 欠拟合和过拟合 34
3.1.4 VC维 37
3.2 经验风险最小的算法 40
3.3 分类边界 42
3.3.1 分类算法的损失函数 42
3.3.2 分类算法的边界 45
3.4 小结 48
参考文献 48
第4章 结构风险最小 49
4.1 经验风险最小和过拟合 49
4.2 结构风险最小和正则化 51
4.2.1 从空间角度理解SRM 52
4.2.2 从贝叶斯观点理解SRM 54
4.3 回归的正则化 55
4.3.1 L2正则化和岭回归 56
4.3.2 L1正则化和Lasso回归 57
4.3.3 L1、L2组合正则化和ElasticNet回归 58
4.4 分类的正则化 60
4.4.1 支持向量机和L2正则化 60
4.4.2 XGBoost和树正则化 62
4.4.3 神经网络和DropOut正则化 65
4.4.4 正则化的优缺点 66
4.5 小结 67
参考文献 67
第5章 贝叶斯统计与熵 68
5.1 统计学习的基础:参数估计 68
5.1.1 矩估计 68
5.1.2 最大似然估计 69
5.1.3 最小二乘法 71
5.2 概率分布与三大统计思维 72
5.2.1 频率派和正态分布 72
5.2.2 经验派和正态分布 75
5.2.3 贝叶斯派和正态分布 76
5.2.4 贝叶斯统计和熵的关系 79
5.3 信息熵的理解 79
5.3.1 信息熵简史 79
5.3.2 信息熵定义 80
5.3.3 期望编码长度解释 81
5.3.4 不确定性公理化解释 81
5.3.5 基于熵的度量 84
5.4 最大熵原理 86
5.4.1 最大熵的直观理解 86
5.4.2 最大熵解释自然指数分布簇 87
5.4.3 最大熵解释最大似然估计 89
5.5 小结 90
参考文献 91
第6章 基于熵的Softmax 92
6.1 二项分布和多项分布 92
6.2 Logistic回归和Softmax回归 93
6.2.1 广义线性模型的解释 93
6.2.2 Softmax回归 94
6.2.3 最大熵原理与Softmax回归的等价性 96
6.3 最大熵条件下的Log-Linear 101
6.4 多分类界面 103
6.4.1 感知机和多分类感知机 104
6.4.2 多分类感知机和结构感知机 105
6.5 概率图模型里面的Log-Linear 106
6.6 深度学习里面的Softmax层 108
6.7 小结 109
参考文献 109
第7章 拉格朗日乘子法 111
7.1 凸共轭 111
7.1.1 凸共轭的定义 111
7.1.2 凸共轭定理 113
7.2 拉格朗日对偶 114
7.2.1 拉格朗日对偶概述 115
7.2.2 Salter条件 117
7.2.3 KKT条件 118
7.3 Fenchel对偶 120
7.4 增广拉格朗日乘子法 123
7.4.1 近端 123
7.4.2 增广拉格朗日乘子法和对偶上升算法 126
7.5 交替方向乘子法 129
7.5.1 对偶分解 130
7.5.2 交替方向乘子法概述 131
7.6 小结 131
参考文献 132
第8章 随机梯度下降法 134
8.1 随机梯度下降法概述 134
8.1.1 机器学习场景 134
8.1.2 随机梯度下降法的定义 135
8.1.3 随机梯度下降法收敛性分析 136
8.1.4 收敛性证明 139
8.2 随机梯度下降法进阶Ⅰ:方差缩减 140
8.2.1 方差缩减的效果 141
8.2.2 方差缩减的实现 143
8.3 随机梯度下降法进阶Ⅱ:加速与适应 145
8.3.1 加速 146
8.3.2 适应 148
8.3.3 加速×适应 151
8.4 随机梯度下降法的并行实现 156
8.5 小结 160
参考文献 161
第9章 常见的最优化方法 163
9.1 最速下降算法 163
9.1.1 l2范数与梯度下降法 164
9.1.2 l1范数与坐标下降算法 165
9.1.3 二次范数与牛顿法 166
9.2 步长的设定 168
9.2.1 Armijo-Goldstein准则 169
9.2.2 Wolfe-Powell准则 170
9.2.3 回溯线搜索 171
9.3 收敛性分析 171
9.3.1 收敛速率 172
9.3.2 对目标函数的一些假设 173
9.4 一阶算法:梯度下降法 177
9.5 二阶算法:牛顿法及其衍生算法 178
9.5.1 牛顿法与梯度下降法的对比 179
9.5.2 拟牛顿法 180
9.5.3 从二次范数的角度看牛顿法 182
9.6 小结 183
参考文献 185