图书介绍

数据科学与大数据技术导论pdf电子书版本下载

陈明编著著
出版社：北京：北京师范大学出版社
ISBN：9787303234523
出版时间：2018
标注页数：351页
文件大小：74MB
文件页数：363页
主题词：数据处理－高等学校－教材

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：1647e37bc45285211f9472d14cfdbe79

下载说明

数据科学与大数据技术导论PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章概述 1

1.1 数据科学 2

1.1.1 数据科学的产生与发展 2

1.1.2 数据科学的相关术语 2

1.1.3 数据科学的主要内容 3

1.1.4 数据科学的研究过程与体系框架 4

1.1.5 数据科学、数据技术与数据工程 7

1.1.6 大数据问题 8

1.2 大数据的生态环境 8

1.2.1 互联网世界 9

1.2.2 物理世界 11

1.3 大数据的概念 12

1.3.1 数据容量 12

1.3.2 数据类型 13

1.3.3 价值密度 13

1.3.4 速度 14

1.3.5 真实性 14

1.4 大数据的性质 14

1.4.1 非结构性 14

1.4.2 不完备性 16

1.4.3 时效性 16

1.4.4 安全性 16

1.4.5 可靠性 16

1.5 大数据处理周期 16

1.5.1 大数据处理的全过程 17

1.5.2 大数据技术的特征 19

1.5.3 大数据的几个热点问题 20

1.6 科学研究范式 21

1.6.1 科学研究范式的产生与发展 22

1.6.2 数据密集型科学研究第四范式 22

本章小结 27

第2章大数据获取与存储管理技术 28

2.1 大数据获取 29

2.1.1 大数据获取的挑战 29

2.1.2 传统数据获取与大数据获取区别 29

2.2 领域数据的获取 30

2.2.1 文本数据获取 30

2.2.2 语音视频数据获取 31

2.2.3 图片数据获取 31

2.2.4 摄像头视频数据获取 31

2.2.5 图像数字化数据获取 31

2.2.6 图形数字化数据获取 32

2.2.7 020 LBS数据获取 32

2.2.8 空间数据获取 32

2.3 网站数据 34

2.3.1 网站内部数据获取 34

2.3.2 网站外部数据获取 35

2.3.3 移动网站数据获取 36

2.4 大数据存储 37

2.4.1 大数据存储模型 37

2.4.2 大数据存储问题 37

2.4.3 大数据存储方式 38

2.5 大数据的存储管理技术 40

2.5.1 数据容量问题 40

2.5.2 大图数据 40

2.5.3 数据存储管理 42

2.6 NewSQL和NoSQL 43

2.6.1 NoSQL 44

2.6.2 NewSQL 48

2.6.3 混合应用模式 48

2.7 分布式文件系统 49

2.7.1 评价指标 49

2.7.2 HDFS文件系统 50

2.7.3 NFS文件系统 56

2.7.4 FastDFS 57

2.8 虚拟存储技术 59

2.8.1 虚拟存储特点 60

2.8.2 虚拟存储的应用 60

2.9 存储技术 61

2.9.1 云存储原理 61

2.9.2 网络结构 61

2.9.3 云的分类 62

本章小结 63

第3章大数据抽取技术 64

3.1 数据抽取技术概述 64

3.1.1 数据抽取的定义 65

3.1.2 数据映射与数据迁移 66

3.1.3 数据抽取程序 66

3.1.4 Kettle数据处理工具 67

3.1.5 数据抽取方式 71

3.2 增量数据抽取技术 72

3.2.1 增量抽取特点与策略 72

3.2.2 基于触发器的增量抽取方式 72

3.2.3 基于时间戳的增量抽取方式 74

3.2.4 全表删除插入方式 75

3.2.5 全表比对抽取方式 75

3.2.6 日志表方式 75

3.2.7 系统日志分析方式 76

3.2.8 各种数据抽取机制的比较与分析 76

3.3 非结构化数据抽取 78

3.3.1 非结构化数据类型 78

3.3.2 非结构化数据模型 78

3.3.3 非结构化数据组织 80

3.3.4 纯文本抽取通用程序库 82

本章小结 83

第4章数据清洗技术 84

4.1 数据质量与数据清洗 84

4.1.1 数据质量 85

4.1.2 数据质量提高技术 87

4.1.3 数据清洗算法的标准 90

4.1.4 数据清洗的过程与模型 91

4.2 不完整数据清洗 92

4.2.1 基本方法 92

4.2.2 基于k-NN近邻缺失数据的填充算法 94

4.3 异常数据清洗 96

4.3.1 异常值产生的原因 96

4.3.2 统计方法 97

4.3.3 基于邻近度的离群点检测 98

4.4 重复数据清洗 99

4.4.1 使用字段相似度识别重复值算法 99

4.4.2 搜索引擎快速去重算法 100

4.5 文本清洗 100

4.5.1 字符串匹配算法 101

4.5.2 文本相似度度量 103

4.6 数据清洗技术的实现 107

4.6.1 数据清洗的步骤 107

4.6.2 数据清洗的工具 108

本章小结 108

第5章大数据去噪与标准化 109

5.1 基本的数据转换方法 109

5.1.1 对数转换 109

5.1.2 平方根转换 110

5.1.3 平方转换 110

5.1.4 倒数变换 110

5.2 数据平滑技术 111

5.2.1 移动平均法 111

5.2.2 指数平滑法 115

5.2.3 分箱平滑法 120

5.3 数据规范化 121

5.3.1 最小—最大规范化方法 121

5.3.2 z分数规范化方法 122

5.3.3 小数定标规范化方法 122

5.4 数据泛化处理 123

5.4.1 空间数据支配泛化算法 123

5.4.2 非空间数据支配泛化方法 124

5.4.3 统计信息网格方法 124

本章小结 125

第6章大数据约简技术 126

6.1 数据约简概述 126

6.1.1 数据约简定义 126

6.1.2 数据约简策略 127

6.2 特征约简 127

6.2.1 特征提取 128

6.2.2 特征选择 128

6.2.3 基于主成分分析的特征约简方法 129

6.3 样本约简 130

6.3.1 随机抽样 130

6.3.2 系统抽样 130

6.3.3 分层抽样 130

6.4 数据立方体聚集 131

6.4.1 多维性 131

6.4.2 数据聚集 132

6.5 维约简 133

6.5.1 维约简的定义 133

6.5.2 维约简的分类 134

6.6 属性子集选择算法 136

6.6.1 逐步向前选择属性 136

6.6.2 逐步向后删除属性 136

6.6.3 混合式选择 137

6.6.4 判定树归纳 137

6.7 数据压缩 138

6.7.1 离散小波变换方法 138

6.7.2 主要成分分析压缩方法 139

6.8 数值约简 140

6.8.1 有参数值约简 140

6.8.2 无参数值约简 141

6.9 数值离散化与概念分层 142

6.9.1 基于数值属性的概念分层 142

6.9.2 数值数据的离散化 143

本章小结 150

第7章大数据集成技术 151

7.1 数据集成技术概述 152

7.1.1 数据集成的概念与相关问题 152

7.1.2 数据集成的核心问题 155

7.1.3 数据集成的分类 156

7.2 数据迁移 158

7.2.1 在组织内部移动数据 159

7.2.2 非结构化数据集成 160

7.2.3 将处理移动到数据端 161

7.3 数据集成模式 161

7.3.1 联邦数据库集成模式 162

7.3.2 中间件集成模式 163

7.3.3 数据仓库集成模式 164

7.4 数据集成系统 165

7.4.1 全局模式 166

7.4.2 语义映射 166

7.4.3 查询重写 167

7.5 数据集成系统的构建 167

7.5.1 模式之间映射关系的生成 167

7.5.2 适应性查询 168

7.5.3 XML 168

7.5.4 P2P数据管理 168

7.6 数据聚类集成 169

7.6.1 数据聚类集成概述 169

7.6.2 高维数据聚类集成 169

7.7 实时数据集成 172

7.7.1 基于中间件层的实时数据集成模式 172

7.7.2 基于数据源层和中间件层的实时数据集成模式 173

7.7.3 基于数据仓库和中间件层的集成模式 174

7.7.4 基于数据网格的实时数据集成模式 175

本章小结 176

第8章大数据挖掘技术 177

8.1 数据挖掘理论基础 177

8.1.1 数据挖掘是面向实际应用的技术 178

8.1.2 数据挖掘的理论基础 179

8.1.3 基于数据存储方式的数据挖掘 180

8.2 关联规则挖掘 182

8.2.1 经典的频繁项目集生成算法 183

8.2.2 关联规则挖掘质量 185

8.3 分类 186

8.3.1 分类定义与分类步骤 186

8.3.2 基于距离的分类算法 187

8.3.3 决策树分类方法 188

8.4 聚类方法 191

8.4.1 距离与相似性的度量 193

8.4.2 划分聚类方法 194

8.4.3 层次聚类方法 196

8.5 序列模式挖掘 196

8.5.1 时间序列预测的常用方法 197

8.5.2 序列模式挖掘 198

8.6 Web挖掘技术 200

8.6.1 Web内容挖掘方法 200

8.6.2 Web访问信息挖掘方法 202

8.6.3 Web结构挖掘方法 204

8.7 非结构化文本数据挖掘 206

8.7.1 用户反馈文本 206

8.7.2 用户反馈文本挖掘的一般过程 207

8.7.3 文本的自然语言处理 209

本章小结 210

第9章大数据分析 211

9.1 大数据分析定义与方法 211

9.1.1 大数据分析的类型 212

9.1.2 数字特征 214

9.1.3 统计方法论 217

9.1.4 模型与构建 219

9.1.5 R语言 221

9.2 统计分析的基本方法 224

9.2.1 指标对比分析 224

9.2.2 分组分析 225

9.2.3 综合评价分析 225

9.2.4 指数分析 226

9.2.5 平衡分析 226

9.2.6 趋势分析 227

9.2.7 显著性检验 228

9.2.8 结构分析 231

9.2.9 因素分析 231

9.2.1 0交叉分析 232

9.3 高级数据分析方法 232

9.3.1 动态分析法 232

9.3.2 相关分析 233

9.3.3 回归分析 236

9.3.4 判别分析 240

9.3.5 对应分析 243

9.3.6 主成分分析 244

9.3.7 多维尺度分析 245

9.3.8 方差分析 250

本章小结 252

第10章分析结果的解释 253

10.1 分析结果的可视化解释 253

10.1.1 解释的目的与主要内容 254

10.1.2 检查和验证假设 254

10.1.3 追踪分析过程 254

10.2 基本展现方式 255

10.2.1 基于时间变化的可视化展现 256

10.2.2 由大及小的可视化展现 256

10.2.3 由小及大的可视化展现 256

10.2.4 突出对比的可视化展现 256

10.2.5 地域空间可视化展现 258

10.2.6 概念可视化展现 260

10.2.7 气泡图可视化展现 261

10.2.8 注重交叉点的数据可视化展现 262

10.2.9 剖析原因的数据可视化展现 262

10.2.10 异常值数据可视化展现 262

10.3 大数据中的常用可视化展现 262

10.3.1 文本可视化 263

10.3.2 网络（图）可视化 265

10.3.3 时空数据可视化 268

10.3.4 多维数据可视化 269

10.3.5 基于ECharts.js可视化工具 271

10.4 大数据可视分析 273

10.4.1 可视分析的理论基础 274

10.4.2 大数据可视分析技术 279

本章小结 282

第11章大数据机器学习 283

11.1 机器学习概述 283

11.1.1 机器学习的产生与发展 283

11.1.2 机器学习类型 286

11.1.3 知识表示形式 289

11.1.4 机器学习的典型算法 291

11.2 大数据机器学习的特点与算法 293

11.2.1 大数据机器学习的特点 294

11.2.2 大数据机器学习的评测指标 295

11.2.3 大数据机器学习算法 296

11.3 大数据机器学习的应用 298

11.3.1 大数据的空气质量推断 298

11.3.2 人与建筑的关系分析 299

11.3.3 针对全球问题的预测模型 299

11.3.4 地表可视化与数据分析 299

本章小结 300

第12章大数据离线计算技术 301

12.1 数据离线计算概述 301

12.1.1 大数据离线处理特点 301

12.1.2 批量计算 302

12.2 MapReduce的体系结构 302

12.2.1 MapReduce计算描述 302

12.2.2 MapReduce适用的场景 304

12.3 Hadoop分布式计算平台 304

12.3.1 Hadoop结构与特点 305

12.3.2 分布式系统与Hadoop 309

12.3.3 SQL数据库系统与H adoop 309

12.3.4 基于Hadoop框架的分布计算 311

12.4 MapReduce程序设计实例分析 316

12.4.1 单词计数 316

12.4.2 MapReduce的应用 319

本章小结 321

第13章大数据流式计算技术 322

13.1 流式数据的概述 323

13.1.1 流式数据的概念 323

13.1.2 流式数据源 324

13.1.3 流式数据的特征 325

13.2 大数据的计算模式 326

13.2.1 大数据流式计算模型 327

13.2.2 流式计算与批量计算的比较 327

13.2.3 流式计算与实时计算的比较 329

13.3 流式计算技术的应用 329

13.3.1 中间计算 329

13.3.2 流式查询 329

13.3.3 流式抽样 330

13.3.4 统计独立元素数 331

13.3.5 去重计数 332

13.4 流式计算的系统架构 335

13.4.1 对称式系统架构 335

13.4.2 主从式系统架构 336

13.4.3 数据传输方式 337

13.4.4 编程接口 338

13.5 高可用技术 338

13.5.1 被动等待策略 338

13.5.2 主动等待策略 339

13.5.3 上游备份策略 339

13.6 Storm流处理过程 340

13.6.1 Storm特点与架构 340

13.6.2 topology 343

13.6.3 单词计数topology 346

13.7 大数据流式计算的应用 347

本章小结 349

参考文献 350