图书介绍

Hadoop实战pdf电子书版本下载

陆嘉恒著著
出版社：北京：机械工业出版社
ISBN：7111359449
出版时间：2011
标注页数：441页
文件大小：112MB
文件页数：456页
主题词：

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：6c818f6773f808aeadc3a2852ba6606b

下载说明

Hadoop实战PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章Hadoop简介 1

1.1什么是Hadoop 2

1.1.1 Hadoop概述 2

1.1.2 Hadoop的历史 2

1.1.3 Hadoop的功能与作用 2

1.1.4 Hadoop的优势 3

1.1.5 Hadoop的应用现状和发展趋势 3

1.2 Hadoop项目及其结构 3

1.3 Hadoop的体系结构 6

1.3.1 HDFS的体系结构 6

1.3.2 MapReduce的体系结构 7

1.4 Hadoop与分布式开发 7

1.5 Hadoop计算模型——MapReduce 10

1.6 Hadoop的数据管理 10

1.6.1 HDFS的数据管理 11

1.6.2 HBase的数据管理 12

1.6.3 Hive的数据管理 15

1.7小结 17

第2章Hadoop的安装与配置 18

2.1在Linux上安装与配置Hadoop 19

2.1.1安装JDK 1.6 19

2.1.2配置SSH免密码登录 20

2.1.3安装并运行Hadoop 21

2.2在Windows上安装与配置Hadoop 23

2.2.1安装Cygwin 24

2.2.2配置环境变量 24

2.2.3安装和启动sshd服务 24

2.2.4配置SSH免密码登录 24

2.3安装和配置Hadoop集群 25

2.3.1 网络拓扑 25

2.3.2定义集群拓扑 25

2.3.3建立和安装Cluster 26

2.4日志分析及几个小技巧 32

2.5小结 33

第3章 Hadoop应用案例分析 35

3.1 Hadoop在Yahoo！的应用 36

3.2 Hadoop在eBay的应用 38

3.3 Hadoop在百度的应用 40

3.4 Hadoop在Facebook的应用 43

3.5 Hadoop平台上的海量数据排序 46

3.6小结 53

第4章MapReduce计算模型 54

4.1为什么要用MapReduce 55

4.2 MapReduce计算模型 56

4.2.1 MapReduce Job 56

4.2.2 Hadoop中的Hello World程序 56

4.2.3 MapReduce的数据流和控制流 64

4.3 MapReduce任务的优化 65

4.4 Hadoop流 67

4.4.1 Hadoop流的工作原理 68

4.4.2 Hadoop流的命令 69

4.4.3实战案例：添加Bash程序和Python程序到Hadoop流中 70

4.5 Hadoop Pipes 72

4.6小结 74

第5章开发MapReduce应用程序 75

5.1系统参数的配置 76

5.2配置开发环境 78

5.3编写MapReduce程序 79

5.3.1 Map处理 79

5.3.2 Reduce处理 80

5.4本地测试 81

5.5运行MapReduce程序 83

5.5.1打包 84

5.5.2在本地模式下运行 85

5.5.3在集群上运行 86

5.6网络用户界面 87

5.6.1JobTracker页面 87

5.6.2工作页面 88

5.6.3返回结果 90

5.6.4任务页面 93

5.6.5任务细节页面 93

5.7性能调优 94

5.8 MapReduce工作流 96

5.8.1将问题分解成MapReduce工作 97

5.8.2运行相互依赖的工作 97

5.9小结 98

第6章MapReduce应用案例 99

6.1单词计数 100

6.1.1实例描述 100

6.1.2设计思路 100

6.1.3程序代码 101

6.1.4代码解读 102

6.1.5程序执行 103

6.1.6代码结果 103

6.2数据去重 104

6.2.1实例描述 104

6.2.2设计思路 105

6.2.3程序代码 105

6.3排序 106

6.3.1实例描述 106

6.3.2设计思路 107

6.3.3程序代码 107

6.4单表关联 109

6.4.1实例描述 109

6.4.2设计思路 110

6.4.3程序代码 110

6.5多表关联 113

6.5.1实例描述 113

6.5.2设计思路 114

6.5.3程序代码 114

6.6小结 116

第7章MapReduce工作机制 117

7.1 MapReduce作业的执行流程 118

7.1.1 MapReduce任务的执行总流程 118

7.1.2提交作业 119

7.1.3初始化作业 121

7.1.4分配任务 123

7.1.5执行任务 125

7.1.6更新任务执行进度和状态 126

7.1.7完成作业 127

7.2错误处理机制 127

7.2.1硬件故障 127

7.2.2任务失败 128

7.3作业调度机制 128

7.4 shuffle和排序 129

7.4.1 map端 130

7.4.2 reduce端 131

7.4.3 shuffle过程的优化 132

7.5任务执行 133

7.5.1推测式执行 133

7.5.2任务JVM重用 134

7.5.3跳过坏记录 134

7.5.4任务执行环境 135

7.6小结 136

第8章Hadoop IO操作 137

8.1 IO操作中的数据检查 138

8.2数据的压缩 142

8.2.1 Hadoop对压缩工具的选择 142

8.2.2压缩分割和输入分割 143

8.2.3在MapReduce程序中使用压缩 143

8.3数据的IO中序列化操作 144

8.3.1 Writable类 144

8.3.2实现自己的Hadoop数据类型 152

8.4针对MapReduce的文件类 153

8.4.1 SequenceFile类 154

8.4.2 MapFile类 159

8.5小结 161

第9章HDFS详解 162

9.1 Hadoop的文件系统 163

9.2 HDFS简介 165

9.3 HDFS体系结构 166

9.3.1 HDFS的相关概念 166

9.3.2 HDFS的体系结构 167

9.4 HDFS的基本操作 169

9.4.1 HDFS的命令行操作 169

9.4.2 HDFS的Web界面 171

9.5 HDFS常用Java API详解 173

9.5.1使用Hadoop URL读取数据 173

9.5.2使用FileSystem API读取数据 174

9.5.3创建目录 176

9.5.4写数据 177

9.5.5删除数据 178

9.5.6文件系统查询 178

9.6 HDFS中的读写数据流 182

9.6.1文件的读取 182

9.6.2文件的写入 184

9.6.3一致性模型 185

9.7 HDFS命令详解 186

9.7.1通过distep进行并行复制 186

9.7.2 HDFS的平衡 187

9.7.3使用Hadoop归档文件 188

9.7.4其他命令 190

9.8小结 194

第10章Hadoop的管理 195

10.1 HDFS文件结构 196

10.2 Hadoop的状态监视和管理工具 200

10.2.1审计日志 200

10.2.2监控日志 200

10.2.3 Metrics 201

10.2.4 Java管理扩展 203

10.2.5 Ganglia 204

10.2.6 Hadoop管理命令 206

10.3 Hadoop集群的维护 210

10.3.1安全模式 210

10.3.2 Hadoop的备份 211

10.3.3 Hadoop的节点管理 212

10.3.4系统升级 214

10.4小结 216

第11章Hive详解 217

11.1 Hive简介 218

11.1.1 Hive的数据存储 218

11.1.2 Hive的元数据存储 220

11.2 Hive的基本操作 220

11.2.1在集群上安装Hive 220

11.2.2配置Hive 222

11.3 Hive QL详解 224

11.3.1数据定义（DDL）操作 224

11.3.2数据操作（DML） 231

11.3.3 SQL操作 233

11.3.4 Hive QL的使用实例 235

11.4 Hive的网络（WebUI）接口 237

11.5 Hive的JDBC接口 238

11.6 Hive的优化 241

11.7小结 243

第12章HBase详解 244

12.1 HBase简介 245

12.2 HBase的基本操作 245

12.2.1 HBase的安装 245

12.2.2运行HBase 249

12.2.3 HBase Shell 250

12.2.4 HBase配置 254

12.3 HBase体系结构 255

12.4 HBase数据模型 259

12.4.1数据模型 259

12.4.2概念视图 260

12.4.3物理视图 260

12.5 HBase与RDBMS 261

12.6 HBase与HDFS 262

12.7 HBase客户端 262

12.8 Java API 263

12.9 HBase编程实例之MapReduce 270

12.10模式设计 273

12.10.1学生表 273

12.10.2事件表 274

12.11小结 275

第13章Mahout详解 276

13.1 Mahout简介 277

13.2 Mahout的安装和配置 277

13.3 Mahout API简介 278

13.4 Mahout中的聚类和分类 280

13.4.1什么是聚类和分类 280

13.4.2 Mahout中的数据表示 281

13.4.3将文本转化成向量 282

13.4.4 Mahout中的聚类、分类算法 283

13.4.5算法应用实例 288

13.5 Mahout应用：建立一个推荐引擎 292

13.5.1推荐引擎简介 292

13.5.2使用Taste构建一个简单的推荐引擎 292

13.5.3简单分布式系统下基于产品的推荐系统简介 294

13.6小结 297

第14章Pig详解 299

14.1 Pig简介 300

14.2 Pig的安装和配置 300

14.2.1 Pig的安装条件 300

14.2.2 Pig的下载、安装和配置 301

14.2.3 Pig运行模式 301

14.3Pig Latin语言 304

14.3.1 Pig Latin语言简介 304

14.3.2 Pig Latin的使用 305

14.3.3 Pig Latin的数据类型 307

14.3.4 Pig Latin关键字 308

14.4用户定义函数 313

14.4.1编写用户定义函数 313

14.4.2使用用户定义函数 315

14.5 Pig实例 315

14.5.1 Local模式 316

14.5.2 MapReduce模式 318

14.6 Pig进阶 319

14.6.1数据实例 319

14.6.2 Pig数据分析 320

14.7小结 324

第15章ZooKeeper详解 326

15.1 ZooKeeper简介 327

15.1.1 ZooKeeper的设计目标 327

15.1.2数据模型和层次命名空间 328

15.1.3 ZooKeeper中的节点和临时节点 328

15.1.4 ZooKeeper的应用 329

15.2 ZooKeeper的安装和配置 329

15.2.1在集群上安装ZooKeeper 329

15.2.2配置ZooKeeper 334

15.2.3运行ZooKeeper 336

15.3 ZooKeeper的简单操作 339

15.3.1使用ZooKeeper命令的简单操作步骤 339

15.3.2 ZooKeeper API的简单使用 340

15.4 ZooKeeper的特性 343

15.4.1 ZooKeeper的数据模型 343

15.4.2 ZooKeeper会话及状态 345

15.4.3 ZooKeeper Watches 346

15.4.4 ZooKeeper ACL 346

15.4.5 ZooKeeper的一致性保证 347

15.5 ZooKeeper的Leader选举 348

15.6 ZooKeeper锁服务 348

15.6.1 ZooKeeper中的锁机制 349

15.6.2 ZooKeeper提供的一个写锁的实现 350

15.7使用ZooKeeper创建应用程序 351

15.8小结 355

第16章Avro详解 356

16.1 Avro简介 357

16.1.1模式声明 358

16.1.2数据序列化 362

16.1.3数据排列顺序 364

16.1.4对象容器文件 365

16.1.5协议声明 367

16.1.6协议传输格式 368

16.1.7模式解析 370

16.2 Avro的C/C﹢﹢实现 371

16.3 Avro的Java实现 382

16.4 GenAvro （Avro IDL）语言 385

16.5 Avro SASL概述 390

16.6小结 392

第17章Chukwa详解 393

17.1 Chukwa简介 394

17.2 Chukwa架构 395

17.2.1客户端（Agent）及其数据模型 395

17.2.2收集器（Collector）和分离解析器（Dernux） 396

17.2.3 HICC 398

17.3 Chukwa的可靠性 399

17.4 Chukwa集群搭建 400

17.4.1基本配置要求 400

17.4.2安装Chukwa 400

17.5 Chukwa数据流的处理 407

17.6 Chukwa与其他监控系统比较 408

17.7小结 409

第18章Hadoop的常用插件与开发 411

18.1 Hadoop Studio简介和使用 412

18.1.1 Hadoop Studio的安装和配置 412

18.1.2 Hadoop Studio的使用举例 413

18.2 Hadoop Eclipse简介和使用 419

18.2.1 Hadoop Eclipse安装和配置 420

18.2.2 Hadoop Eclipse的使用举例 420

18.2.3 Hadoop Eclipse插件开发 421

18.3 Hadoop Streaming简介和使用 422

18.3.1 Hadoop Streaming的使用举例 426

18.3.2使用Hadoop Streaming时常见的问题 428

18.4 Hadoop Libhdfs简介和使用 430

18.4.1 Hadoop Libhdfs安装和配置 430

18.4.2 Hadoop Libhdfs API简介 430

18.4.3 Hadoop Libhdfs的使用举例 431

18.5小结 432

附录A云计算在线检测平台 434

A.1平台介绍 435

A.2结构和功能 435

A.2.1前台用户接口的结构和功能 435

A.2.2后台程序运行的结构和功能 437

A.3检测流程 437

A.4使用 438

A.4.1功能使用 438

A.4.2返回结果介绍 439

A.4.3使用注意事项 440

A.5小结 441