图书介绍

Hadoop大数据开发基础pdf电子书版本下载

Hadoop大数据开发基础
  • 余明辉著 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115370660
  • 出版时间:2018
  • 标注页数:189页
  • 文件大小:34MB
  • 文件页数:200页
  • 主题词:

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页 直链下载[便捷但速度慢]   [在线试读本书]   [在线获取解压码]

下载说明

Hadoop大数据开发基础PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 Hadoop介绍 1

1.1 Hadoop概述 1

1.1.1 Hadoop简介 1

1.1.2 Hadoop的发展历史 2

1.1.3 Hadoop的特点 3

1.2 Hadoop核心 4

1.2.1 分布式文件系统——HDFS 4

1.2.2 分布式计算框架——MapReduce 7

1.2.3 集群资源管理器——YARN 9

1.3 Hadoop生态系统 12

1.4 Hadoop应用场景 14

小结 15

第2章 Hadoop集群的搭建及配置 16

任务2.1 安装及配置虚拟机 17

2.1.1 创建Linux虚拟机 17

2.1.2 设置固定IP 25

2.1.3 远程连接虚拟机 27

2.1.4 虚拟机在线安装软件 29

2.1.5 任务实现 32

任务2.2 安装Java 32

2.2.1 在Windows下安装Java 33

2.2.2 在Linux下安装Java 35

2.2.3 任务实现 36

任务2.3 搭建Hadoop完全分布式集群 36

2.3.1 修改配置文件 36

2.3.2 克隆虚拟机 41

2.3.3 配置SSH免密码登录 43

2.3.4 配置时间同步服务 44

2.3.5 启动关闭集群 46

2.3.6 监控集群 47

小结 50

实训 50

实训1 为Hadoop集群增加一个节点 50

实训2 编写Shell脚本同步集群时间 51

课后练习 51

第3章 Hadoop基础操作 53

任务3.1 查看Hadoop集群的基本信息 54

3.1.1 查询集群的存储系统信息 55

3.1.2 查询集群的计算资源信息 58

任务3.2 上传文件到HDFS目录 59

3.2.1 了解HDFS文件系统 59

3.2.2 掌握HDFS的基本操作 62

3.2.3 任务实现 65

任务3.3 运行首个MapReduce任务 67

3.3.1 了解Hadoop官方的示例程序包 67

3.3.2 提交MapReduce任务给集群运行 68

任务3.4 管理多个MapReduce任务 71

3.4.1 查询MapReduce任务 72

3.4.2 中断MapReduce任务 74

小结 76

实训 77

实训1 统计文件中所有单词的平均长度 77

实训2 查询与中断MapReduce任务 77

课后练习 78

第4章 MapReduce编程入门 80

任务4.1 使用Eclipse创建MapReduce工程 81

4.1.1 下载与安装Eclipse 81

4.1.2 配置MapReduce环境 82

4.1.3 新建MapReduce工程 84

任务4.2 通过源码初识MapReduce编程 86

4.2.1 通俗理解MapReduce原理 86

4.2.2 了解MR实现词频统计的执行流程 88

4.2.3 读懂官方提供的WordCount源码 89

任务4.3 编程实现按日期统计访问次数 94

4.3.1 分析思路与处理逻辑 94

4.3.2 编写核心模块代码 95

4.3.3 任务实现 97

任务4.4 编程实现按访问次数排序 99

4.4.1 分析思路与处理逻辑 99

4.4.2 编写核心模块代码 100

4.4.3 任务实现 102

小结 104

实训 104

实训1 获取成绩表的最高分记录 104

实训2 对两个文件中的数据进行合并与去重 105

课后练习 107

第5章 MapReduce进阶编程 110

任务5.1 筛选日志文件并生成序列化文件 111

5.1.1 MapReduce输入格式 111

5.1.2 MapReduce输出格式 113

5.1.3 任务实现 113

任务5.2 Hadoop Java API读取序列化日志文件 115

5.2.1 FileSystem API管理文件夹 115

5.2.2 FileSystem API操作文件 119

5.2.3 FileSystem API读写数据 121

5.2.4 任务实现 123

任务5.3 优化日志文件统计程序 124

5.3.1 自定义键值类型 124

5.3.2 初步探索Combiner 128

5.3.3 浅析Partitioner 130

5.3.4 自定义计数器 132

5.3.5 任务实现 134

任务5.4 Eclipse提交日志文件统计程序 137

5.4.1 传递参数 137

5.4.2 Hadoop辅助类ToolRunner 139

5.4.3 Eclipse自动打包并提交任务 140

小结 144

实训 144

实训1 统计全球每年的最高气温和最低气温 144

实训2 筛选气温在15~25℃之间的数据 145

课后练习 146

第6章 项目案例:电影网站用户性别预测 151

任务6.1 认识KNN算法 152

6.1.1 KNN算法简介 152

6.1.2 KNN算法原理及流程 152

任务6.2 数据预处理 154

6.2.1 获取数据 154

6.2.2 数据变换 155

6.2.3 数据清洗 160

6.2.4 划分数据集 163

任务6.3 实现用户性别分类 167

6.3.1 实现思路 167

6.3.2 代码实现 169

任务6.4 评价分类结果的准确性 179

6.4.1 评价思路 179

6.4.2 实现分类评价 180

6.4.3 寻找最优K值 184

小结 188

参考文献 189

精品推荐