图书介绍

大数据技术基础pdf电子书版本下载

大数据技术基础
  • 薛志东主编;吕泽华,陈长清,黄浩副主编 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115483072
  • 出版时间:2018
  • 标注页数:304页
  • 文件大小:48MB
  • 文件页数:319页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
下载压缩包 [复制下载地址] 温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页

下载说明

大数据技术基础PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 大数据概述 1

1.1 大数据的相关概念 2

1.2 大数据处理的基础技术 4

1.2.1 大数据处理流程 4

1.2.2 分布式计算 5

1.2.3 分布式文件系统 6

1.2.4 分布式数据库 7

1.2.5 数据库与数据仓库 8

1.2.6 云计算与虚拟化技术 8

1.2.7 虚拟化产品介绍 9

1.3 流行的大数据技术 12

1.4 大数据解决方案 17

1.5 大数据发展现状和趋势 19

1.5.1 大数据现状分析 19

1.5.2 大数据发展趋势 21

1.6 教学建议及教辅资料 22

习题 23

第2章 大数据软件基础 24

2.1 Linux基础 25

2.1.1 Linux简介 25

2.1.2 Linux基本操作 25

2.1.3 网络配置管理 29

2.1.4 其他常用网络命令 32

2.2 Java基础 34

2.2.1 面向对象与泛型 34

2.2.2 集合类 36

2.2.3 内部类与匿名类 37

2.2.4 反射 38

2.3 SQL语言基础 39

2.4 在VirtualBox上安装Linux集群 41

2.4.1 master节点的安装 41

2.4.2 配置Virtualbox网络及虚拟机网卡 49

2.4.3 slave节点的安装与配置 51

2.4.4 Java环境的安装 51

2.4.5 MySQL服务 52

2.4.6 SSH免密钥登录 53

2.4.7 配置时钟同步 55

习题 56

第3章 大数据存储技术 57

3.1 理解HDFS分布式文件系统 58

3.1.1 HDFS简介 58

3.1.2 HDFS的体系结构 59

3.1.3 HDFS中的数据流 62

3.2 NoSQL数据库 66

3.2.1 键值数据库Redis 66

3.2.2 列存储数据库HBase 68

3.2.3 文档数据库MongoDB 71

3.2.4 图数据库Neo4j 73

3.3 Hadoop的安装与配置 74

3.3.1 Hadoop的配置部署 75

3.3.2 启动Hadoop集群 79

3.4 HDFS文件管理 82

3.4.1 命令行访问HDFS 82

3.4.2 使用Java API访问HDFS 84

3.5 HBase的安装与配置 88

3.5.1 解压并安装HBase 88

3.5.2 配置HBase 88

3.6 HBase的使用 91

3.6.1 HBase-shell 91

3.6.2 Java API 94

习题 96

第4章 MapReduce分布式编程 97

4.1 MapReduce编程概述 98

4.2 MapReduce编程示例 98

4.2.1 词频统计程序示例 99

4.2.2 MapReduce编译与运行 101

4.3 深入理解MapReduce程序的运行过程 102

4.4 MapReduce任务调度框架 104

4.4.1 经典MapReduce任务调度模型 104

4.4.2 YARN框架原理及运行机制 105

4.5 MapReduce的数据类型与输入/输出格式 107

4.5.1 MapReduce的数据类型 107

4.5.2 MapReduce的文件输入/输出格式 107

4.6 MapReduce编程实例 111

4.6.1 视频类型统计 111

4.6.2 查询TOP10用户上传的视频列表 113

习题 118

第5章 数据采集与预处理 119

5.1 流数据采集工具Flume 120

5.1.1 Flume的安装 121

5.1.2 Flume的配置与运行 122

5.1.3 Flume源 124

5.1.4 Flume槽 127

5.1.5 通道、拦截器与处理器 129

5.2 数据传输工具Sqoop 130

5.2.1 Sqoop的安装 131

5.2.2 Sqoop的配置与运行 131

5.2.3 Sqoop实例 132

5.2.4 Sqoop导入过程 135

5.2.5 Sqoop导出过程 136

5.3 数据接入工具Kafka 136

5.3.1 Kafka的安装与配置 138

5.3.2 Kafka消息生产者 140

5.3.3 Kafka消息消费者 140

5.3.4 Kafka核心特性 141

习题 142

第6章 数据仓库与联机分析处理 143

6.1 数据仓库 144

6.1.1 数据仓库的概念 144

6.1.2 数据仓库与操作性数据库的区别 144

6.1.3 数据仓库的体系结构 145

6.2 多维数据模型 146

6.2.1 数据立方体 146

6.2.2 数据模型 147

6.2.3 多维数据模型中的OLAP操作 150

6.3 Hive 153

6.3.1 Hive简介 153

6.3.2 Hive的安装与配置 154

6.3.3 Hive使用 156

6.3.4 Hive导入数据实例 161

6.4 Kylin 164

6.4.1 Kylin简介 164

6.4.2 Kylin的安装与配置 165

6.4.3 Kylin的使用 168

6.5 Superset 175

6.5.1 Superset简介 175

6.5.2 Superset的安装与配置 175

6.5.3 Superset的使用 177

习题 186

第7章 大数据分析与挖掘技术 187

7.1 概述 188

7.1.1 数据挖掘简介 188

7.1.2 Mahout的安装与配置 189

7.2 推荐 192

7.2.1 推荐的定义与评估 192

7.2.2 Mahout中的常见推荐算法 194

7.2.3 对GroupLens数据集进行推荐与评价 196

7.3 聚类 198

7.3.1 聚类的基本概念 198

7.3.2 常见的Mahout数据结构 199

7.3.3 几种聚类算法 200

7.3.4 聚类应用实例 202

7.4 分类 206

7.4.1 分类的基本概念 206

7.4.2 Mahout中一些常见的训练分类器算法 208

7.4.3 应用实例:使用SGD训练分类器对新闻分类 210

习题 213

第8章 Spark分布式内存计算框架 214

8.1 Spark简介 215

8.2 Spark的编程模型 216

8.2.1 核心数据结构RDD 216

8.2.2 RDD上的操作 216

8.2.3 RDD的持久化 218

8.2.4 RDD计算工作流 218

8.3 Spark的调度机制 219

8.3.1 Spark分布式架构 219

8.3.2 Spark应用执行流程 220

8.3.3 Spark调度与任务分配 222

8.4 Spark应用案例 225

8.4.1 Spark Shell 225

8.4.2 单词计数 227

8.4.3 统计用户的视频上传数 229

8.4.4 查询Top100用户的上传视频列表 230

8.5 Spark生态圈其他技术 233

8.5.1 Spark SQL 233

8.5.2 Spark Streaming 235

8.5.3 MLlib 236

8.5.4 GraphX 242

8.6 Zeppelin:交互式分析Spark数据 243

8.6.1 Zeppelin简介 243

8.6.2 安装和启动 244

8.6.3 在Zeppelin中处理YouTube数据 244

习题 246

第9章 数据可视化技术 247

9.1 数据可视化概述 248

9.2 数据可视化工具 249

9.2.1 桌面可视化技术 249

9.2.2 OLAP可视化工具 251

9.2.3 Web可视化技术 251

9.3 可视化组件与ECharts示例 253

9.3.1 ECharts使用准备 253

9.3.2 ECharts示例 254

9.4 与大数据平台集成 268

9.4.1 获取对Hive数据库的连接 268

9.4.2 通过Java调用Hive提供的API操作数据 269

9.4.3 将数据提交到Web页面进行数据可视化 271

习题 272

第10章 大数据安全 273

10.1 大数据安全的挑战与对策 274

10.1.1 大数据安全与隐私的挑战 274

10.1.2 数据加密技术 275

10.1.3 大数据安全保障体系 275

10.1.4 华为大数据安全解决方案 276

10.2 基础设施安全 277

10.2.1 认证技术 278

10.2.2 访问控制 279

10.2.3 公钥基础设施 281

10.2.4 华为大数据平台 281

10.3 数据管理安全 285

10.3.1 数据溯源 285

10.3.2 数字水印 285

10.3.3 策略管理 287

10.3.4 完整性保护 287

10.3.5 数据脱敏 288

10.4 安全分析 290

10.4.1 大数据安全分析架构 290

10.4.2 大数据防DDoS攻击 292

10.4.3 攻击可视化与安全业务定制 297

10.5 隐私保护 298

10.5.1 隐私保护面临的挑战 298

10.5.2 内容关联密钥 298

10.5.3 华为大数据隐私保护方案 300

习题 302

附录 《大数据技术基础》配套实验课程方案简介 303

参考文献 304

精品推荐