图书介绍

白话大数据与机器学习pdf电子书版本下载

高扬，卫峥，尹会生著；万娟插画设计著
出版社：北京：机械工业出版社
ISBN：9787111538479
出版时间：2016
标注页数：329页
文件大小：56MB
文件页数：345页
主题词：数据处理；机器学习

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：f77306aafa089fdb9b6b9689ebf72109

下载说明

白话大数据与机器学习PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章大数据产业 1

1.1 大数据产业现状 1

1.2 对大数据产业的理解 2

1.3 大数据人才 3

1.3.1 供需失衡 3

1.3.2 人才方向 3

1.3.3 环节和工具 5

1.3.4 门槛障碍 6

1.4 小结 8

第2章步入数据之门 9

2.1 什么是数据 9

2.2 什么是信息 10

2.3 什么是算法 12

2.4 统计、概率和数据挖掘 13

2.5 什么是商业智能 13

2.6 小结 14

第3章排列组合与古典概型 15

3.1 排列组合的概念 16

3.1.1 公平的决断——扔硬币 16

3.1.2 非古典概型 17

3.2 排列组合的应用示例 18

3.2.1 双色球彩票 18

3.2.2 购车摇号 20

3.2.3 德州扑克 21

3.3 小结 25

第4章统计与分布 27

4.1 加和值、平均值和标准差 27

4.1.1 加和值 28

4.1.2 平均值 29

4.1.3 标准差 30

4.2 加权均值 32

4.2.1 混合物定价 32

4.2.2 决策权衡 34

4.3 众数、中位数 35

4.3.1 众数 36

4.3.2 中位数 37

4.4 欧氏距离 37

4.5 曼哈顿距离 39

4.6 同比和环比 41

4.7 抽样 43

4.8 高斯分布 45

4.9 泊松分布 49

4.10 伯努利分布 52

4.11 小结 54

第5章指标 55

5.1 什么是指标 55

5.2 指标化运营 58

5.2.1 指标的选择 58

5.2.2 指标体系的构建 62

5.3 小结 63

第6章信息论 64

6.1 信息的定义 64

6.2 信息量 65

6.2.1 信息量的计算 65

6.2.2 信息量的理解 66

6.3 香农公式 68

6.4 熵 70

6.4.1 热力熵 70

6.4.2 信息、熵 72

6.5 小结 75

第7章多维向量空间 76

7.1 向量和维度 76

7.1.1 信息冗余 77

7.1.2 维度 79

7.2 矩阵和矩阵计算 80

7.3 数据立方体 83

7.4 上卷和下钻 85

7.5 小结 86

第8章回归 87

8.1 线性同归 87

8.2 拟合 88

8.3 残差分析 94

8.4 过拟合 99

8.5 欠拟合 100

8.6 曲线拟合转化为线性拟合 101

8.7 小结 104

第9章聚类 105

9.1 K-Means算法 106

9.2 有趣模式 109

9.3 孤立点 110

9.4 层次聚类 110

9.5 密度聚类 113

9.6 聚类评估 116

9.6.1 聚类趋势 117

9.6.2 簇数确定 119

9.6.3 测定聚类质量 121

9.7 小结 124

第10章分类 125

10.1 朴素贝叶斯 126

10.1.1 天气的预测 128

10.1.2 疾病的预测 130

10.1.3 小结 132

10.2 决策树归纳 133

10.2.1 样本收集 135

10.2.2 信息增益 136

10.2.3 连续型变量 137

10.3 随机森林 140

10.4 隐马尔可夫模型 141

10.4.1 维特比算法 144

10.4.2 前向算法 151

10.5 支持向量机SVM 154

10.5.1 年龄和好坏 154

10.5.2 “下刀”不容易 157

10.5.3 距离有多远 158

10.5.4 N维度空间中的距离 159

10.5.5 超平面怎么画 160

10.5.6 分不开怎么办 160

10.5.7 示例 163

10.5.8 小结 164

10.6 遗传算法 164

10.6.1 进化过程 164

10.6.2 算法过程 165

10.6.3 背包问题 165

10.6.4 极大值问题 173

10.7 小结 181

第11章关联分析 183

11.1 频繁模式和Apriori算法 184

11.1.1 频繁模式 184

11.1.2 支持度和置信度 185

11.1.3 经典的Apriori算法 187

11.1.4 求出所有频繁模式 190

11.2 关联分析与相关性分析 192

11.3 稀有模式和负模式 193

11.4 小结 194

第12章用户画像 195

12.1 标签 195

12.2 画像的方法 196

12.2.1 结构化标签 196

12.2.2 非结构化标签 198

12.3 利用用户画像 203

12.3.1 割裂型用户画像 203

12.3.2 紧密型用户画像 204

12.3.3 到底“像不像” 204

12.4 小结 205

第13章推荐算法 206

13.1 推荐思路 206

13.1.1 贝叶斯分类 206

13.1.2 利用搜索记录 207

13.2 User-based CF 209

13.3 Item-based CF 211

13.4 优化问题 215

13.5 小结 217

第14章文本挖掘 218

14.1 文本挖掘的领域 218

14.2 文本分类 219

14.2.1 Rocchio算法 220

14.2.2 朴素贝叶斯算法 223

14.2.3 K-近邻算法 225

14.2.4 支持向量机SVM算法 226

14.3 小结 227

第15章人工神经网络 228

15.1 人的神经网络 228

15.1.1 神经网络结构 229

15.1.2 结构模拟 230

15.1.3 训练与工作 231

15.2 FANN库简介 233

15.3 常见的神经网络 235

15.4 BP神经网络 235

15.4.1 结构和原理 236

15.4.2 训练过程 237

15.4.3 过程解释 240

15.4.4 示例 240

15.5 玻尔兹曼机 244

15.5.1 退火模型 244

15.5.2 玻尔兹曼机 245

15.6 卷积神经网络 247

15.6.1 卷积 248

15.6.2 图像识别 249

15.7 深度学习 255

15.8 小结 256

第16章大数据框架简介 257

16.1 著名的大数据框架 257

16.2 Hadoop框架 258

16.2.1 MapReduce原理 259

16.2.2 安装Hadoop 261

16.2.3 经典的WordCount 264

16.3 Spark框架 269

16.3.1 安装Spark 270

16.3.2 使用Scala计算WordCount 271

16.4 分布式列存储框架 272

16.5 PrestoDB——神奇的CLI 273

16.5.1 Presto为什么那么快 273

16.5.2 安装Presto 274

16.6 小结 277

第17章系统架构和调优 278

17.1 速度——资源的配置 278

17.1.1 思路一：逻辑层面的优化 279

17.1.2 思路二：容器层面的优化 279

17.1.3 思路三：存储结构层面的优化 280

17.1.4 思路四：环节层面的优化 280

17.1.5 资源不足 281

17.2 稳定——资源的可用 282

17.2.1 借助云服务 282

17.2.2 锁分散 282

17.2.3 排队 283

17.2.4 谨防“雪崩” 283

17.3 小结 285

第18章数据解读与数据的价值 286

18.1 运营指标 286

18.1.1 互联网类型公司常用指标 287

18.1.2 注意事项 288

18.2 AB测试 289

18.2.1 网页测试 290

18.2.2 方案测试 290

18.2.3 灰度发布 292

18.2.4 注意事项 293

18.3 数据可视化 295

18.3.1 图表 295

18.3.2 表格 299

18.4 多维度——大数据的灵魂 299

18.4.1 多大算大 299

18.4.2 大数据网络 300

18.4.3 去中心化才能活跃 301

18.4.4 数据会过剩吗 302

18.5 数据变现的场景 303

18.5.1 数据价值的衡量的讨论 303

18.5.2 场景1：征信数据 307

18.5.3 场景2：宏观数据 308

18.5.4 场景3：画像数据 309

18.6 小结 310

附录A VMware Workstation的安装 311

附录B CentOS虚拟机的安装方法 314

附录C Python语言简介 318

附录D Scikit-learn库简介 323

附录E FANN for Python安装 324

附录F 群众眼中的大数据 325

写作花絮 327

参考文献 329