图书介绍
Hadoop与大数据挖掘pdf电子书版本下载
- 张良均,樊哲,位文超,刘名军等著 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111567875
- 出版时间:2017
- 标注页数:322页
- 文件大小:36MB
- 文件页数:335页
- 主题词:数据处理软件;数据采集
PDF下载
下载说明
Hadoop与大数据挖掘PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一篇 基础篇 2
第1章 浅谈大数据 2
1.1大数据概述 3
1.2大数据平台 4
1.3本章小结 5
第2章 大数据存储与运算利器——Hadoop 6
2.1 Hadoop概述 6
2.1.1 Hadoop简介 6
2.1.2 Hadoop存储——HDFS 8
2.1.3 Hadoop计算——MapReduce 11
2.1.4 Hadoop资源管理——YARN 13
2.1.5 Hadoop生态系统 14
2.2 Hadoop配置及IDE配置 17
2.2.1准备工作 17
2.2.2环境配置 18
2.2.3集群启动关闭与监控 24
2.2.4动手实践:一键式Hadoop集群启动关闭 25
2.2.5动手实践:Hadoop IDE配置 26
2.3 Hadoop集群命令 28
2.3.1 HDFS常用命令hdfs dfs 30
2.3.2动手实践:hdfs dfs命令实战 31
2.3.3 MapReduce常用命令mapred job 32
2.3.4 YARN常用命令yam jar 32
2.3.5动手实践:运行MapReduce任务 33
2.4 Hadoop编程开发 33
2.4.1 HDFS Java API操作 33
2.4.2 MapReduce原理 35
2.4.3动手实践:编写Word Count程序并打包运行 44
2.4.4 MapReduce组件分析与编程实践 46
2.5 K-Means算法原理及HadoopMapReduce实现 53
2.5.1 K-Means算法原理 53
2.5.2动手实践:K-Means算法实现 55
2.5.3 Hadoop K-Means算法实现思路 55
2.5.4 Hadoop K-Means编程实现 57
2.6 TF-IDF算法原理及Hadoop MapReduce实现 67
2.6.1 TF-IDF算法原理 67
2.6.2 Hadoop TF-IDF编程思路 67
2.6.3 Hadoop TF-IDF编程实现 68
2.7本章小结 79
第3章 大数据查询——Hive 81
3.1 Hive概述 81
3.1.1 Hive体系架构 82
3.1.2 Hive数据类型 86
3.1.3 Hive安装 87
3.1.4动手实践:Hive安装配置 91
3.1.5动手实践:HiveQL基础—— SQL 91
3.2 HiveQL语句 93
3.2.1数据库操作 94
3.2.2 Hive表定义 94
3.2.3数据导入 100
3.2.4数据导出 103
3.2.5 HiveQL查询 104
3.3动手实践:基于Hive的学生信息查询 108
3.4基于Hive的航空公司客户价值数据预处理及分析 109
3.4.1背景与挖掘目标 109
3.4.2分析方法与过程 111
3.5本章小结 115
第4章 大数据快速读写——HBase 116
4.1 HBase概述 116
4.2配置HBase集群 118
4.2.1 Zookeeper简介及配置 118
4.2.2配置HBase 121
4.2.3动手实践:HBase安装及运行 122
4.2.4动手实践:ZooKeeper获取HBase状态 122
4.3 HBase原理与架构组件 123
4.3.1 HBase架构与组件 123
4.3.2 HBase数据模型 127
4.3.3读取/写入HBase数据 128
4.3.4 RowKey设计原则 129
4.3.5动手实践:HBase数据模型验证 131
4.4 HBase Shell操作 132
4.4.1 HBase常用Shell命令 132
4.4.2动手实践:HBase Shell操作 136
4.5 Java API &MapReduce与HBase交互 137
4.5.1搭建HBase开发环境 137
4.5.2使用Java API操作HBase表 144
4.5.3动手实践:HBase Java API使用 147
4.5.4 MapReduce与HBase交互 147
4.5.5动手实践:HBase表导入导出 150
4.6基于HBase的冠字号查询系统 151
4.6.1案例背景 151
4.6.2功能指标 151
4.6.3系统设计 152
4.6.4动手实践:构建基于HBase的冠字号查询系统 162
4.7本章小结 175
第5章 大数据处理——Pig 176
5.1 Pig概述 176
5.1.1 Pig Latin简介 177
5.1.2 Pig数据类型 179
5.1.3 Pig与Hive比较 179
5.2配置运行Pig 180
5.2.1 Pig配置 181
5.2.2 Pig运行模式 181
5.3常用Pig Latin操作 182
5.3.1数据加载 182
5.3.2数据存储 184
5.3.3 Pig参数替换 185
5.3.4数据转换 186
5.4综合实践 194
5.4.1动手实践:访问统计信息数据处理 194
5.4.2动手实践:股票交易数据处理 195
5.5本章小结 196
第6章 大数据快速运算与挖掘——Spark 197
6.1 Spark概述 197
6.2 Spark安装集群 199
6.2.1 3种运行模式 199
6.2.2动手实践:配置Spark独立集群 199
6.2.3 3种运行模式实例 201
6.2.4动手实践:Spark Streaming实时日志统计 205
6.2.5动手实践:Spark开发环境——Intellij IDEA配置 207
6.3 Spark架构与核心原理 212
6.3.1 Spark架构 212
6.3.2 RDD原理 213
6.3.3深入理解Spark核心原理 215
6.4 Spark编程技巧 218
6.4.1 Scala基础 218
6.4.2 Spark基础编程 218
6.5如何学习Spark MLlib 225
6.5.1确定应用 227
6.5.2 ALS算法直观描述 228
6.5.3编程实现 229
6.5.4问题解决及模型调优 233
6.6动手实践:基于Spark ALS电影推荐系统 234
6.6.1动手实践:生成算法包 235
6.6.2动手实践:完善推荐系统 239
6.7本章小结 250
第7章 大数据工作流——Oozie 252
7.1 Oozie简介 252
7.2编译配置并运行Oozie 253
7.2.1动手实践:编译Oozie 253
7.2.2动手实践:Oozie Server/client配置 254
7.3 Oozie WorkFlow实践 257
7.3.1定义及提交工作流 257
7.3.2动手实践:MapReduce Work-Flow定义及调度 260
7.3.3动手实践:Pig WorkFlow定义及调度 263
7.3.4动手实践:Hive WorkFlow定义及调度 265
7.3.5动手实践:Spark WorkFlow定义及调度 267
7.3.6动手实践:Spark On Yarn定义及调度 268
7.4 Oozie Coordinator实践 270
7.4.1动手实践:基于时间调度 270
7.4.2动手实践:基于数据有效性调度 273
7.5本章小结 275
第二篇 挖掘实战篇 278
第8章 法律服务大数据智能推荐 278
8.1背景 278
8.2目标 279
8.3系统架构及流程 279
8.4分析过程及实现 281
8.4.1数据传输 281
8.4.2数据传输:动手实践 282
8.4.3数据探索分析 283
8.4.4数据预处理 292
8.4.5模型构建 297
8.5构建法律服务大数据智能推荐系统 313
8.5.1动手实践:构建推荐系统JavaEE 313
8.5.2动手实践:Oozie工作流任务 317
8.6本章小结 322