图书介绍

PySpark实战指南利用Python和Spark构建数据密集型应用并规模化布署pdf电子书版本下载

（美）托马兹·卓巴斯，丹尼·李著著
出版社：北京：机械工业出版社
ISBN：7111582380
出版时间：2017
标注页数：186页
文件大小：23MB
文件页数：203页
主题词：

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：81b594bd019058d37b38f9e941b38aab

下载说明

PySpark实战指南利用Python和Spark构建数据密集型应用并规模化布署PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章了解Spark 1

1.1 什么是Apache Spark 1

1.2 Spark作业和API 2

1.2.1 执行过程 2

1.2.2 弹性分布式数据集 3

1.2.3 DataFrame 4

1.2.4 Dataset 5

1.2.5 Catalyst优化器 5

1.2.6 钨丝计划 5

1.3 Spark 2.0的架构 6

1.3.1 统一Dataset和DataFrame 7

1.3.2 SparkSession介绍 8

1.3.3 Tungsten Phase 2 8

1.3.4 结构化流 10

1.3.5 连续应用 10

1.4 小结 11

第2章弹性分布式数据集 12

2.1 RDD的内部运行方式 12

2.2 创建RDD 13

2.2.1 Schema 14

2.2.2 从文件读取 14

2.2.3 Lambda表达式 15

2.3 全局作用域和局部作用域 16

2.4 转换 17

2.4.1 .map（...）转换 17

2.4.2 .filter（...）转换 18

2.4.3 .flatMap（...）转换 18

2.4.4 .distinct（...）转换 18

2.4.5 .sample（...）转换 19

2.4.6 .leftOuterJoin（...）转换 19

2.4.7 .repartition（...）转换 20

2.5 操作 20

2.5.1 .take（...）方法 21

2.5.2 .collect（...）方法 21

2.5.3 .reduce（...）方法 21

2.5.4 .count（...）方法 22

2.5.5 .saveAsTextFile（...）方法 22

2.5.6 .foreach（...）方法 23

2.6 小结 23

第3章 DataFrame 24

3.1 Python到RDD之间的通信 24

3.2 Catalyst优化器刷新 25

3.3 利用DataFrame加速PySpark 27

3.4 创建DataFrame 28

3.4.1 生成自己的JSON数据 29

3.4.2 创建一个DataFrame 29

3.4.3 创建一个临时表 30

3.5 简单的DataFrame查询 31

3.5.1 DataFrame API查询 32

3.5.2 SQL查询 32

3.6 RDD的交互操作 33

3.6.1 使用反射来推断模式 33

3.6.2 编程指定模式 34

3.7 利用DataFrame API查询 35

3.7.1 行数 35

3.7.2 运行筛选语句 35

3.8 利用SQL查询 36

3.8.1 行数 36

3.8.2 利用where子句运行筛选语句 36

3.9 DataFrame场景——实时飞行性能 38

3.9.1 准备源数据集 38

3.9.2 连接飞行性能和机场 39

3.9.3 可视化飞行性能数据 40

3.10 Spark数据集（Dataset）API 41

3.11 小结 42

第4章准备数据建模 43

4.1 检查重复数据、未观测数据和异常数据（离群值） 43

4.1.1 重复数据 43

4.1.2 未观测数据 46

4.1.3 离群值 50

4.2 熟悉你的数据 51

4.2.1 描述性统计 52

4.2.2 相关性 54

4.3 可视化 55

4.3.1 直方图 55

4.3.2 特征之间的交互 58

4.4 小结 60

第5章 MLlib介绍 61

5.1 包概述 61

5.2 加载和转换数据 62

5.3 了解你的数据 65

5.3.1 描述性统计 66

5.3.2 相关性 67

5.3.3 统计测试 69

5.4 创建最终数据集 70

5.4.1 创建LabeledPoint形式的RDD 70

5.4.2 分隔培训和测试数据 71

5.5 预测婴儿生存机会 71

5.5.1 MLlib中的逻辑回归 71

5.5.2 只选择最可预测的特征 72

5.5.3 MLlib中的随机森林 73

5.6 小结 74

第6章 ML包介绍 75

6.1 包的概述 75

6.1.1 转换器 75

6.1.2 评估器 78

6.1.3 管道 80

6.2 使用ML预测婴儿生存几率 80

6.2.1 加载数据 80

6.2.2 创建转换器 81

6.2.3 创建一个评估器 82

6.2.4 创建一个管道 82

6.2.5 拟合模型 83

6.2.6 评估模型的性能 84

6.2.7 保存模型 84

6.3 超参调优 85

6.3.1 网格搜索法 85

6.3.2 Train-validation划分 88

6.4 使用PySpark ML的其他功能 89

6.4.1 特征提取 89

6.4.2 分类 93

6.4.3 聚类 95

6.4.4 回归 98

6.5 小结 99

第7章 GraphFrames 100

7.1 GraphFrames介绍 102

7.2 安装GraphFrames 102

7.2.1 创建库 103

7.3 准备你的航班数据集 105

7.4 构建图形 107

7.5 执行简单查询 108

7.5.1 确定机场和航班的数量 108

7.5.2 确定这个数据集中的最长延误时间 108

7.5.3 确定延误和准点／早到航班的数量对比 109

7.5.4 哪一班从西雅图出发的航班最有可能出现重大延误 109

7.5.5 西雅图出发到哪个州的航班最有可能出现重大延误 110

7.6 理解节点的度 110

7.7 确定最大的中转机场 112

7.8 理解Motif 113

7.9 使用PageRank确定机场排名 114

7.10 确定最受欢迎的直飞航班 115

7.11 使用广度优先搜索 116

7.12 使用D3将航班可视化 118

7.13 小结 119

第8章 TensorFrames 120

8.1 深度学习是什么 120

8.1.1 神经网络和深度学习的必要性 123

8.1.2 特征工程是什么 125

8.1.3 桥接数据和算法 125

8.2 TensorFlow是什么 127

8.2.1 安装PIP 129

8.2.2 安装TensorFlow 129

8.2.3 使用常量进行矩阵乘法 130

8.2.4 使用placeholder进行矩阵乘法 131

8.2.5 讨论 132

8.3 TensorFrames介绍 133

8.4 TensorFrames快速入门 134

8.4.1 配置和设置 134

8.4.2 使用TensorFlow向已有列添加常量 136

8.4.3 Blockwise reducing操作示例 137

8.5 小结 139

第9章使用Blaze实现混合持久化 141

9.1 安装Blaze 141

9.2 混合持久化 142

9.3 抽象数据 143

9.3.1 使用NumPy数组 143

9.3.2 使用pandas的DataFrame 145

9.3.3 使用文件 145

9.3.4 使用数据库 147

9.4 数据操作 149

9.4.1 访问列 150

9.4.2 符号转换 150

9.4.3 列的操作 151

9.4.4 降阶数据 152

9.4.5 连接 154

9.5 小结 156

第10章结构化流 157

10.1 什么是Spark Streaming 157

10.2 为什么需要Spark Streaming 159

10.3 Spark Streaming应用程序数据流是什么 160

10.4 使用DStream简化Streaming应用程序 161

10.5 全局聚合快速入门 165

10.6 结构化流介绍 168

10.7 小结 172

第11章打包Spark应用程序 173

11.1 spark-submit命令 173

11.2 以编程方式部署应用程序 176

11.2.1 配置你的SparkSession 176

11.2.2 创建SparkSession 177

11.2.3 模块化代码 177

11.2.4 提交作业 180

11.2.5 监控执行 182

11.3 Databricks作业 184

11.4 小结 186

图书介绍

PySpark实战指南 利用Python和Spark构建数据密集型应用并规模化布署pdf电子书版本下载

PDF下载

下载说明

PySpark实战指南 利用Python和Spark构建数据密集型应用并规模化布署PDF格式电子书版下载

图书目录

精品推荐

PySpark实战指南利用Python和Spark构建数据密集型应用并规模化布署pdf电子书版本下载

PySpark实战指南利用Python和Spark构建数据密集型应用并规模化布署PDF格式电子书版下载