图书介绍

大数据分析原理与实践pdf电子书版本下载

大数据分析原理与实践
  • 王宏志编著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111569435
  • 出版时间:2017
  • 标注页数:443页
  • 文件大小:66MB
  • 文件页数:461页
  • 主题词:数据处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
下载压缩包 [复制下载地址] 温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页

下载说明

大数据分析原理与实践PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 绪论 1

1.1 什么是大数据 1

1.2 哪里有大数据 3

1.3 什么是大数据分析 4

1.4 大数据分析的过程、技术与难点 5

1.5 全书概览 8

小结 10

习题 10

第2章 大数据分析模型 11

2.1 大数据分析模型建立方法 11

2.2 基本统计量 13

2.2.1 全表统计量 14

2.2.2 皮尔森相关系数 15

2.3 推断统计 16

2.3.1 参数估计 16

2.3.2 假设检验 20

2.3.3 假设检验的阿里云实现 23

小结 28

习题 28

第3章 关联分析模型 30

3.1 回归分析 31

3.1.1 回归分析概述 31

3.1.2 回归模型的拓展 35

3.1.3 回归的阿里云实现 43

3.2 关联规则分析 52

3.3 相关分析 54

小结 57

习题 58

第4章 分类分析模型 60

4.1 分类分析的定义 60

4.2 判别分析的原理和方法 61

4.2.1 距离判别法 61

4.2.2 Fisher判别法 64

4.2.3 贝叶斯判别法 67

4.3 基于机器学习分类的模型 71

4.3.1 支持向量机 72

4.3.2 逻辑回归 74

4.3.3 决策树与回归树 75

4.3.4 k近邻 78

4.3.5 随机森林 78

4.3.6 朴素贝叶斯 81

4.4 分类分析实例 82

4.4.1 二分类实例 82

4.4.2 多分类实例 94

小结 101

习题 102

第5章 聚类分析模型 105

5.1 聚类分析的定义 105

5.1.1 基于距离的亲疏关系度量 105

5.1.2 基于相似系数的相似性度量 108

5.1.3 个体与类以及类间的亲疏关系度量 110

5.1.4 变量的选择与处理 111

5.2 聚类分析的分类 111

5.3 聚类有效性的评价 112

5.4 聚类分析方法概述 112

5.5 聚类分析的应用 113

5.6 聚类分析的阿里云实现 114

小结 119

习题 119

第6章 结构分析模型 122

6.1 最短路径 122

6.2 链接排名 123

6.3 结构计数 125

6.4 结构聚类 126

6.5 社团发现 128

6.5.1 社团的定义 128

6.5.2 社团的分类 128

6.5.3 社团的用途 128

6.5.4 社团的数学定义 128

6.5.5 基于阿里云的社团发现 130

小结 132

习题 133

第7章 文本分析模型 135

7.1 文本分析模型概述 135

7.2 文本分析方法概述 136

7.2.1 SplitWord 136

7.2.2 词频统计 137

7.2.3 TF-IDF 138

7.2.4 PLDA 140

7.2.5 Word2Vec 147

小结 148

习题 149

第8章 大数据分析的数据预处理 150

8.1 数据抽样和过滤 150

8.1.1 数据抽样 150

8.1.2 数据过滤 154

8.1.3 基于阿里云的抽样和过滤实现 154

8.2 数据标准化与归一化 157

8.3 数据清洗 159

8.3.1 数据质量概述 159

8.3.2 缺失值填充 160

8.3.3 实体识别与真值发现 162

8.3.4 错误发现与修复 169

小结 171

习题 171

第9章 降维 173

9.1 特征工程 173

9.1.1 特征工程概述 173

9.1.2 特征变换 175

9.1.3 特征选择 178

9.1.4 特征重要性评估 183

9.2 主成分分析 191

9.2.1 什么是主成分分析 191

9.2.2 主成分分析的计算过程 192

9.2.3 基于阿里云的主成分分析 194

9.2.4 主成分的表现度量 195

9.3 因子分析 196

9.3.1 因子分析概述 196

9.3.2 因子分析的主要分析指标 196

9.3.3 因子分析的计算方法 197

9.4 压缩感知 203

9.4.1 什么是压缩感知 203

9.4.2 压缩感知的具体模型 204

9.5 面向神经网络的降维 205

9.5.1 面向神经网络的降维方法概述 205

9.5.2 如何利用神经网络降维 206

9.6 基于特征散列的维度缩减 207

9.6.1 特征散列方法概述 207

9.6.2 特征散列算法 207

9.7 基于Lasso算法的降维 208

9.7.1 Lasso方法简介 208

9.7.2 Lasso方法 209

9.7.3 Lasso算法的适用情景 211

小结 211

习题 212

第10章 面向大数据的数据仓库系统 214

10.1 数据仓库概述 214

10.1.1 数据仓库的基本概念 214

10.1.2 数据仓库的内涵 215

10.1.3 数据仓库的基本组成 215

10.1.4 数据仓库系统的体系结构 216

10.1.5 数据仓库的建立 217

10.2 分布式数据仓库系统 221

10.2.1 基于Hadoop的数据仓库系统 221

10.2.2 Shark:基于Spark的数据仓库系统 227

10.2.3 Mesa 228

10.3 内存数据仓库系统 231

10.3.1 SAPHANA 231

10.3.2 HyPer 234

10.4 阿里云数据仓库简介 236

小结 238

习题 239

第11章 大数据分析算法 240

11.1 大数据分析算法概述 240

11.2 回归算法 242

11.3 关联规则挖掘算法 248

11.4 分类算法 255

11.4.1 二分类算法 256

11.4.2 多分类算法 273

11.5 聚类算法 283

11.5.1 k-means算法 283

11.5.2 CLARANS算法 291

小结 293

习题 293

第12章 大数据计算平台 295

12.1 Spark 295

12.1.1 Spark简介 295

12.1.2 基于Spark的大数据分析实例 296

12.2 Hyracks 299

12.2.1 Hyracks简介 299

12.2.2 基于Hyracks的大数据分析实例 299

12.3 DPark 305

12.3.1 DPark简介 305

12.3.2 基于DPark的大数据分析实例 306

12.4 HaLoop 308

12.4.1 HaLoop简介 308

12.4.2 基于HaLoop的大数据分析实例 308

12.5 MaxCompute 309

12.5.1 MaxCompute简介 309

12.5.2 MaxCompute实战案例介绍 310

12.5.3 基于MaxCompute的大数据分析实例 316

12.5.4 MaxCompute的现状及前景 320

小结 321

习题 321

第13章 流式计算平台 322

13.1 流式计算概述 322

13.1.1 流式计算的定义 322

13.1.2 流式计算的应用 322

13.1.3 流式计算平台的发展 324

13.2 Storm 324

13.2.1 Storm简介 324

13.2.2 Storm的结构 325

13.2.3 基于Storm的大数据分析实例 326

13.3 分布式流处理系统Samza 331

13.3.1 Samza简介 331

13.3.2 Samza的原理 332

13.3.3 基于Samza的大数据分析实例 334

13.4 CloudDataflow 339

13.4.1 CloudDataflow简介 339

13.4.2 CloudDataflow开发模型 340

13.4.3 CloudDataflow的应用实例 340

13.5 阿里云StreamCompute 341

13.5.1 阿里云StreamCompute的原理 341

13.5.2 基于StreamCompute的实时数据统计 342

13.5 3订单统计实例 347

小结 348

习题 349

第14章 大图计算平台 350

14.1 大图计算框架概述 350

14.2 GraphLab 350

14.2.1 GraphLab的计算模型 350

14.2.2 基于GraphLab的大图分析实例 351

14.3 Giraph 353

14.3.1 Giraph简介 353

14.3.2 Giraph的原理 353

14.3.3 Giraph的应用 354

14.3.4 基于Giraph的大图分析实例 354

14.4 Neo4j 358

14.4.1 Neo4j简介 358

14.4.2 基于Noe4j的大图分析实例 359

14.5 ApacheHama 360

14.5.1 ApacheHama简介 360

14.5.2 Apache Hama的结构 361

14.5 3 Apache Hama的工作原理 362

14.6 MaxCompute Graph 363

14.6.1 MaxComputeGraph的原理 363

14.6.2 MaxComputeGraph的使用与配置方法 364

14.5.3 基于MaxCompute Graph的大图分析实例 371

小结 376

习题 377

第15章 社交网络 378

15.1 为社交网络建模 378

15.1.1 社交网络概述 378

15.1.2 社交图 378

15.2 社交网络的结构 379

15.2.1 社交网络的统计学构成 379

15.2.2 社交网络的群体形成 381

15.3 基于社交网络语义分析的利益冲突发现 382

15.4 社交网络中的社区发现 384

15.4.1 动态社交网络中的社区识别框架 384

15.4.2 基于经验比对算法的网络社区检测 387

15.5 社交网络中的关联分析 388

15.5.1 社交网络中的关系强度模型 388

15.5.2 社交网络中“正向链接”与“负向链接”的预测 391

15.6 社交网络中的影响力预测 393

15.7 基于阿里云的社团发现实例 396

小结 403

习题 403

第16章 推荐系统 405

16.1 推荐系统概述 405

16.2 协同过滤 408

16.2.1 协同过滤简介 408

16.2.2 面向物品的协同过滤算法 408

16.2.3 改进的最近邻法 410

16.2.4 集成协同过滤方法 412

16.3 基于用户评价的推荐 413

16.4 基于人的推荐 415

16.4.1 基于用户偏好学习的在线推荐 415

16.4.2 混合推荐系统 418

16.5 基于标记的推荐 422

16.6 社交网络中的推荐 423

16.6.1 基于信号的社交网络推荐 423

16.6.2 基于在线主题的社交网络推荐 425

16.7 基于阿里云的个性推荐系统搭建 427

小结 439

习题 439

参考文献 441

精品推荐