图书介绍

R语言机器学习pdf电子书版本下载

R语言机器学习
  • (印)卡西克·拉玛苏布兰马尼安(Karthik Ramasubramanian),(印)阿布舍克·辛格(Abhishek Singh)著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111595915
  • 出版时间:2018
  • 标注页数:411页
  • 文件大小:57MB
  • 文件页数:433页
  • 主题词:程序语言-程序设计

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
下载压缩包 [复制下载地址] 温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页

下载说明

R语言机器学习PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 机器学习和R语言入门 1

1.1 了解发展历程 2

1.1.1 统计学习 2

1.1.2 机器学习 2

1.1.3 人工智能 3

1.1.4 数据挖掘 3

1.1.5 数据科学 4

1.2 概率与统计 5

1.2.1 计数和概率的定义 5

1.2.2 事件和关系 7

1.2.3 随机性、概率和分布 8

1.2.4 置信区间和假设检验 9

1.3 R语言入门 13

1.3.1 基本组成部分 13

1.3.2 R语言的数据结构 14

1.3.3 子集处理 15

1.3.4 函数和Apply系列 17

1.4 机器学习过程工作流 19

1.4.1 计划 19

1.4.2 探索 19

1.4.3 构建 20

1.4.4 评估 20

1.5 其他技术 20

1.6 小结 21

1.7 参考资料 21

第2章 数据准备和探索 22

2.1 规划数据收集 23

2.1.1 变量类型 23

2.1.2 数据格式 24

2.1.3 数据源 29

2.2 初始数据分析 30

2.2.1 初步印象 30

2.2.2 把多个数据源组织到一起 32

2.2.3 整理数据 34

2.2.4 补充更多信息 36

2.2.5 重塑 37

2.3 探索性数据分析 38

2.3.1 摘要统计量 38

2.3.2 矩 41

2.4 案例研究:信用卡欺诈 46

2.4.1 数据导入 46

2.4.2 数据变换 47

2.4.3 数据探索 48

2.5 小结 49

2.6 参考资料 49

第3章 抽样与重抽样技术 50

3.1 介绍抽样技术 50

3.2 抽样的术语 51

3.2.1 样本 51

3.2.2 抽样分布 52

3.2.3 总群体的均值和方差 52

3.2.4 样本均值和方差 52

3.2.5 汇总的均值和方差 52

3.2.6 抽样点 53

3.2.7 抽样误差 53

3.2.8 抽样率 53

3.2.9 抽样偏误 53

3.2.10 无放回的抽样 53

3.2.11 有放回的抽样 54

3.3 信用卡欺诈:总群体的统计量 54

3.3.1 数据描述 54

3.3.2 总群体的均值 55

3.3.3 总群体的方差 55

3.3.4 汇总的均值和方差 55

3.4 抽样在业务上的意义 58

3.4.1 抽样的特征 59

3.4.2 抽样的缺点 59

3.5 概率和非概率抽样 59

3.5.1 非概率抽样的类型 60

3.6 关于抽样分布的统计理论 61

3.6.1 大数定律 61

3.6.2 中心极限定理 63

3.7 概率抽样技术 66

3.7.1 总群体的统计量 66

3.7.2 简单随机抽样 69

3.7.3 系统性随机抽样 74

3.7.4 分层随机抽样 77

3.7.5 聚类抽样 82

3.7.6 自助抽样 86

3.8 蒙特卡罗方法:接受-拒绝 91

3.9 通过抽样节省计算开销的定性分析 93

3.10 小结 94

第4章 R语言里的数据可视化 95

4.1 ggplot2组件包简介 96

4.2 世界经济发展指标 97

4.3 折线图 97

4.4 堆叠柱状图 102

4.5 散点图 106

4.6 箱形图 107

4.7 直方图和密度图 109

4.8 饼图 113

4.9 相关图 114

4.10 热点图 116

4.11 气泡图 117

4.12 瀑布图 120

4.13 系统树图 122

4.14 关键字云 124

4.15 桑基图 125

4.16 时间序列图 127

4.17 队列图 128

4.18 空间图 130

4.19 小结 133

4.20 参考资料 133

第5章 特征工程 135

5.1 特征工程简介 136

5.1.1 过滤器方法 137

5.1.2 包装器方法 137

5.1.3 嵌入式方法 138

5.2 了解工作数据 138

5.2.1 数据摘要 139

5.2.2 因变量的属性 139

5.2.3 特征的可用性:连续型或分类型 141

5.2.4 设置数据的假设 142

5.3 特征排名 143

5.4 变量子集的选择 146

5.4.1 过滤器方法 146

5.4.2 包装器方法 149

5.4.3 嵌入式方法 154

5.5 降维 158

5.6 特征工程核对清单 161

5.7 小结 162

5.8 参考资料 162

第6章 机器学习理论和实践 163

6.1 机器学习的类型 165

6.1.1 有监督学习 166

6.1.2 无监督学习 166

6.1.3 半监督学习 166

6.1.4 强化学习 166

6.2 机器学习算法的类别 167

6.3 实际环境的数据集 170

6.3.1 房产售价 170

6.3.2 购买偏好 170

6.3.3 Twitter订阅和文章 171

6.3.4 乳腺癌 171

6.3.5 购物篮 172

6.3.6 亚马逊美食评论 172

6.4 回归分析 173

6.5 相关分析 174

6.5.1 线性回归 176

6.5.2 简单线性回归 177

6.5.3 多元线性回归 180

6.5.4 模型诊断:线性回归 182

6.5.5 多项回归 191

6.5.6 逻辑回归 194

6.5.7 洛基(logit)变换 195

6.5.8 几率比 196

6.5.9 模型诊断:逻辑回归 202

6.5.10 多项逻辑回归 209

6.5.11 广义线性模型 212

6.5.12 结论 213

6.6 支持向量机 213

6.6.1 线性SVM 214

6.6.2 二元SVM分类模型 215

6.6.3 多类别SVM 217

6.6.4 结论 218

6.7 决策树 218

6.7.1 决策树的类型 219

6.7.2 决策指标 220

6.7.3 决策树学习方法 222

6.7.4 集成树 235

6.7.5 结论 240

6.8 朴素贝叶斯方法 241

6.8.1 条件概率 241

6.8.2 贝叶斯定理 241

6.8.3 先验概率 242

6.8.4 后验概率 242

6.8.5 似然和边际似然 242

6.8.6 朴素贝叶斯方法 242

6.8.7 结论 246

6.9 聚类分析 246

6.9.1 聚类方法简介 247

6.9.2 聚类算法 247

6.9.3 内部评估 255

6.9.4 外部评估 256

6.9.5 结论 257

6.10 关联规则挖掘 258

6.10.1 关联概念简介 258

6.10.2 规则挖掘算法 259

6.10.3 推荐算法 265

6.10.4 结论 270

6.11 人工神经网络 271

6.11.1 人类认知学习 271

6.11.2 感知器 272

6.11.3 Sigmoid神经元 274

6.11.4 神经网络的体系架构 275

6.11.5 有监督与无监督的神经网络 276

6.11.6 神经网络的学习算法 277

6.11.7 前馈反向传播 278

6.11.8 深度学习 284

6.11.9 结论 289

6.12 文本挖掘方法 289

6.12.1 文本挖掘简介 290

6.12.2 文本摘要 291

6.12.3 TF-IDF 292

6.12.4 词性标注 294

6.12.5 关键字云 297

6.12.6 文本分析:Microsoft Cognitive Services 297

6.12.7 结论 305

6.13 在线机器学习算法 305

6.13.1 模糊C均值聚类 306

6.13.2 结论 308

6.14 构建模型的核对清单 309

6.15 小结 309

6.16 参考资料 309

第7章 机器学习模型的评估 311

7.1 数据集 311

7.1.1 房产售价 312

7.1.2 购买偏好 313

7.2 模型性能和评估入门 314

7.3 模型性能评估的目标 315

7.4 总群体的稳定性指数 316

7.5 连续型输出的模型评估 320

7.5.1 平均绝对误差 321

7.5.2 均方根误差 323

7.5.3 R2 324

7.6 离散型输出的模型评估 326

7.6.1 分类矩阵 327

7.6.2 灵敏度和特异性 330

7.6.3 ROC曲线下的面积 331

7.7 概率技术 334

7.7.1 K折交叉验证 334

7.7.2 自助抽样 336

7.8 Kappa误差指标 337

7.9 小结 340

7.10 参考资料 341

第8章 模型性能改进 342

8.1 机器学习和统计建模 343

8.2 Caret组件包概述 344

8.3 超参数简介 346

8.4 超参数优化 348

8.4.1 人工搜索 349

8.4.2 人工网格搜索 351

8.4.3 自动网格搜索 353

8.4.4 最优搜索 354

8.4.5 随机搜索 356

8.4.6 自定义搜索 357

8.5 偏误和方差权衡 359

8.5.1 装袋或自助聚合 363

8.5.2 增强 363

8.6 集成学习简介 363

8.6.1 投票集成 364

8.6.2 集成学习中的高级方法 365

8.7 在R语言里演示集成技术 367

8.7.1 装袋树 367

8.7.2 决策树的梯度增强 369

8.7.3 混合knn和rpart 372

8.7.4 利用caretEnemble进行堆叠 374

8.8 高级主题:机器学习模型的贝叶斯优化 377

8.9 小结 381

8.10 参考资料 382

第9章 可扩展机器学习和相关技术 384

9.1 分布式处理和存储 384

9.1.1 Google File System 385

9.1.2 MapReduce 386

9.1.3 R语言里的并行执行 386

9.2 Hadoop生态系统 389

9.2.1 MapReduce 390

9.2.2 Hive 393

9.2.3 Apache Pig 396

9.2.4 HBase 399

9.2.5 Spark 400

9.3 在R语言环境下用Spark进行机器学习 401

9.3.1 设置环境变量 401

9.3.2 初始化Spark会话 402

9.3.3 加载数据并运行预处理 402

9.3.4 创建Sp arkD ataF rame 403

9.3.5 构建机器学习模型 403

9.3.6 对测试数据进行预测 404

9.3.7 终止SparkR会话 404

9.4 在R语言里利用H2O进行机器学习 405

9.4.1 安装组件包 406

9.4.2 H2O集群的初始化 406

9.4.3 在R语言里使用H2O的深度学习演示 407

9.5 小结 410

9.6 参考资料 411

精品推荐