图书介绍

数据科学与大数据技术导论实验pdf电子书版本下载

陈明编著著
出版社：北京：北京师范大学出版社
ISBN：9787303234509
出版时间：2018
标注页数：217页
文件大小：20MB
文件页数：226页
主题词：数据处理－实验－高等学校－教材

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：14d7f755afcb7c08b573f9af91ecc777

下载说明

数据科学与大数据技术导论实验PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

实验1 Linux操作系统部署 1

1.1 实验目的 1

1.2 实验要求 1

1.3 实验原理 1

1.3.1 Linux操作系统 1

1.3.2 虚拟机 2

1.4 Linux安装方法 3

1.4.1 Ubuntu安装方法 3

1.4.2 RHEL安装方法 12

1.4.3 Linux基本命令使用方法 21

1.5 实验内容 22

1.6 实验总结 22

1.7 思考拓展 22

实验2 Hadoop开发环境部署 23

2.1 实验目的 23

2.2 实验要求 23

2.3 实验原理 23

2.3.1 OpenSSH 24

2.3.2 Hadoop处理平台 27

2.3.3 MapReduce分布计算模型 29

2.3.4 Eclipse集成开发环境 31

2.4 Hadoop开发环境部署方法 31

2.4.1 安装SSH协议 31

2.4.2 安装OpenJDK 1.8开发环境 32

2.4.3 安装Hadoop系统 33

2.4.4 伪分布式Hadoop环境部署 35

2.4.5 集成开发环境Eclipse部署 39

2.4.6 Eclipse开发环境的使用方法 42

2.5 实验内容 49

2.6 实验总结 49

2.7 思考拓展 49

实验3 网页数据获取 50

3.1 实验目的 50

3.2 实验要求 50

3.3 实验原理 50

3.3.1 网络爬虫的工作过程 51

3.3.2 通用网络爬虫 51

3.3.3 聚焦网络爬虫 53

3.3.4 数据抓取目标的定义 56

3.3.5 网页分析算法 57

3.3.6 更新策略 59

3.3.7 分布式爬虫的系统结构 60

3.3.8 ForeSpider数据采集系统 62

3.3.9 GooSeeker集搜客爬虫软件 67

3.4 数据获取方法 68

3.4.1 前嗅ForeSpider爬虫软件数据采集过程 68

3.4.2 基于GooSeeker集搜客爬虫软件的数据采集 79

3.5 实验内容 85

3.6 实验总结 85

3.7 思考拓展 86

实验4 大数据去重 87

4.1 实验目的 87

4.2 实验要求 87

4.3 实验原理 87

4.3.1 数据去重的步骤 87

4.3.2 按时间的维度去重 88

4.3.3 按字段相似度的去重 89

4.4 Hadoop数据去重方法 89

4.4.1 进入/usr/local/hadoop目录 89

4.4.2 准备数据 89

4.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 91

4.4.4 NameNode的格式化 92

4.4.5 在集成开发环境Eclipse中实现Hadoop数据去重 92

4.5 实验内容 104

4.6 实验总结 104

4.7 思考拓展 104

实验5 大数据最大值计算 105

5.1 实验目的 105

5.2 实验要求 105

5.3 实验原理 105

5.4 Hadoop最大值计算方法 105

5.4.1 进入/usr/local/hadoop目录 106

5.4.2 准备数据 106

5.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 107

5.4.4 NameNode的格式化 107

5.4.5 在集成开发环境Eclipse中Hadoop最大值计算 107

5.5 实验内容 117

5.6 实验总结 117

5.7 思考拓展 118

实验6 大数据排序 119

6.1 实验目的 119

6.2 实验要求 119

6.3 实验原理 119

6.3.1 排序方法分类 119

6.3.2 排序方法 120

6.3.3 大数据排序算法 121

6.3.4 基于MapReduce排序过程 122

6.4 Hadoop数据排序方法 123

6.4.1 进入/usr/local/hadoop目录 124

6.4.2 准备数据 124

6.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 125

6.4.4 NameNode的格式化 125

6.4.5 在集成开发环境Eclipse中实现Hadoop 125

6.5 实验内容 137

6.6 实验总结 137

6.7 思考拓展 137

实验7 大数据倒排索引 138

7.1 实验目的 138

7.2 实验要求 138

7.3 实验原理 138

7.3.1 倒排索引基本概念 139

7.3.2 倒排索引文件实例分析 140

7.3.3 倒排索引处理过程 142

7.4 Hadoop倒排索引方法 144

7.4.1 进入/usr/local/hadoop目录 144

7.4.2 准备数据 145

7.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 145

7.4.4 NameNode的格式化 145

7.4.5 在集成开发环境Eclipse中实现Hadoop倒排索引 146

7.5 实验内容 158

7.6 实验总结 158

7.7 思考拓展 158

实验8 大数据平均值计算 159

8.1 实验目的 159

8.2 实验要求 159

8.3 实验原理 159

8.3.1 算术平均数 159

8.3.2 平均值 160

8.4 大数据平均值计算方法 161

8.4.1 进入/usr/local/hadoop目录 161

8.4.2 准备数据 161

8.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 162

8.4.4 NameNode的格式化 162

8.4.5 在集成开发环境Eclipse中实现Hadoop平均值 162

8.5 实验内容 174

8.6 实验总结 174

8.7 思考拓展 174

实验9 大数据单表关联 175

9.1 实验目的 175

9.2 实验要求 175

9.3 实验原理 175

9.3.1 单表关联的概念 175

9.3.2 MapReduce单表关联计算过程 176

9.4 Hadoop单表关联方法 180

9.4.1 进入/usr/local/hadoop目录 180

9.4.2 准备数据 181

9.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 181

9.4.4 NameNode的格式化 181

9.4.5 在集成开发环境Eclipse中实现大数据平均值 181

9.5 实验内容 193

9.6 实验总结 193

9.7 思考拓展 194

实验10 大数据可视化 195

10.1 实验目的 195

10.2 实验要求 195

10.3 实验原理 195

10.3.1 数据的可视化展现 195

10.3.2 Superset处理平台 198

10.4 基于数据可视化的方法 198

10.4.1 基于ECharts.js可视化方法 198

10.4.2 基于Superset数据可视化的方法 201

10.5 实验内容 216

10.6 实验总结 216

10.7 思考拓展 216

参考文献 217