图书介绍
大数据基础与应用pdf电子书版本下载
- 陈明著 著
- 出版社: 北京:北京师范大学出版社
- ISBN:9787303200184
- 出版时间:2016
- 标注页数:328页
- 文件大小:48MB
- 文件页数:340页
- 主题词:数据处理
PDF下载
下载说明
大数据基础与应用PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 走进大数据时代 1
1.1 应对大数据 2
1.1.1 电子数据迅速增加 2
1.1.2 数据中蕴含的价值 2
1.1.3 数据是国家的核心资产 3
1.2 大数据的生态环境 3
1.2.1 互联网世界 4
1.2.2 物理世界 5
1.3 大数据的概念 6
1.3.1 数据容量 6
1.3.2 数据类型 8
1.3.3 价值密度 8
1.3.4 速度 8
1.3.5 真实性 8
1.4 大数据的性质 8
1.4.1 非结构性 8
1.4.2 不完备性 9
1.4.3 时效性 9
1.4.4 安全性 10
1.4.5 可靠性 10
1.5 大数据技术概述 10
1.5.1 大数据处理的全过程 11
1.5.2 大数据技术的特征 13
1.5.3 大数据的关键问题与关键技术 14
1.6 大数据应用 16
1.6.1 大数据应用趋势 16
1.6.2 大数据应用评价与应用实例 17
小结 21
第2章 科学研究范式 22
2.1 科学研究第一范式 23
2.1.1 科学实验特点与步骤 23
2.1.2 科学实验构成与分类 24
2.1.3 科学实验程序 25
2.1.4 科学实验使用原则 25
2.2 科学研究第二范式 26
2.2.1 科学理论的特征与价值 27
2.2.2 科学理论的结构与体系建立方法 27
2.3 科学研究第三范式 28
2.3.1 系统模拟发展过程 29
2.3.2 系统模拟基本方法 29
2.3.3 系统模拟语言 30
2.4 科学研究第四范式 30
2.4.1 数据密集型计算 31
2.4.2 格雷法则 32
2.4.3 核心内容 35
小结 36
第3章 分布系统设计的CAP理论 37
3.1 分布式系统的伸缩性 38
3.1.1 可伸缩性的概念 38
3.1.2 影响横向扩展的主要因素 39
3.2 横向扩展方案 42
3.2.1 可伸缩共享数据库 42
3.2.2 对等复制的横向扩展方案 43
3.2.3 链接服务器和分布式查询 44
3.2.4 分布式分区视图 45
3.2.5 数据依赖型路由的横向扩展 46
3.3 CAP理论 47
3.3.1 分布系统设计的核心系统需求 47
3.3.2 CAP定理 49
3.4 BASE模型 53
3.4.1 三个核心需求分析 53
3.4.2 ACID、BASE与CAP的关系 54
3.4.3 CAP与延迟 55
3.4.4 CAP理论的进一步研究 55
3.5 Web分布式系统设计 57
3.5.1 系统核心需求 57
3.5.2 系统服务 58
3.5.3 冗余 59
3.5.4 分区 60
小结 61
第4章 大数据网络空间 62
4.1 复杂网络空间概述 63
4.1.1 复杂网络概念与特征 63
4.1.2 复杂网络的特性 64
4.2 社会网络 65
4.2.1 社会网络结构 65
4.2.2 社会网络理论 66
4.2.3 社会计算 67
4.2.4 社会网络应用 68
4.3 社会网络分析 69
4.3.1 社会网络分析概述 70
4.3.2 社会网络分析的原理 70
4.3.3 社会网络分析的特征 71
4.3.4 社会网络分析的方法 71
4.4 社会网络中的隐私保护 72
4.4.1 用户隐私类型 72
4.4.2 身份隐私攻击与保护 73
4.4.3 用户关系的攻击及保护 73
4.4.4 万维网用户隐私保护 74
4.5 社会感知计算 74
4.5.1 社会感知计算概念 74
4.5.2 社会感知计算的内容 75
4.6 人类通信方式 76
4.6.1 通信方式的演化 76
4.6.2 六度分隔理论 77
4.6.3 150法则 78
4.6.4 唯象理论与唯象方法 79
4.7 社交网站 80
4.7.1 社交网站作用 80
4.7.2 Web网站 80
小结 81
第5章 MapReduce分布编程模型 82
5.1 函数式编程范式 82
5.1.1 函数型语言与函数式编程 83
5.1.2 函数式编程优点 83
5.1.3 函数式编程的特征 84
5.2 映射函数与化简函数 84
5.2.1 映射与映射函数 84
5.2.2 化简与化简函数 85
5.3 MapReduce的体系结构 86
5.3.1 MapReduce计算描述 86
5.3.2 MapReduce适用情况 88
5.4 基于Hadoop平台的分布式计算 88
5.4.1 Hadoop发展历程 88
5.4.2 分布式系统与Hadoop 90
5.4.3 SQL数据库和Hadoop 90
5.4.4 基于Hadoop的分布式计算 92
小结 98
第6章 大数据流式计算 99
6.1 流式数据的概念与特征 99
6.1.1 流式数据的概念 99
6.1.2 流式数据的特征 100
6.2 大数据的计算模式 101
6.2.1 大数据批量计算模型 101
6.2.2 大数据流式计算模型 101
6.2.3 大数据流式计算与批量计算的比较 103
6.3 流式大数据处理工具 104
6.3.1 Storm系统 104
6.3.2 S4系统 107
6.3.3 Data Freeway and Puma系统 110
6.4 大数据流式计算的应用 111
6.4.1 金融银行业的应用 112
6.4.2 互联网领域的应用 112
6.4.3 物联网领域的应用 113
6.4.4 三种典型应用场景的对比 113
小结 114
第7章 大数据搜索技术 115
7.1 搜索引擎概述 116
7.1.1 搜索引擎的发展过程 116
7.1.2 搜索引擎的定义 117
7.1.3 搜索引擎的组成 117
7.1.4 搜索引擎的分类 117
7.1.5 搜索引擎的工作过程 120
7.1.6 搜索引擎的评价指标 121
7.2 语义搜索引擎 121
7.2.1 语义与语义搜索引擎的概念 121
7.2.2 图谱 122
7.2.3 搜索就是回答 123
7.2.4 语义搜索引擎的组成 123
7.2.5 基于本体的语义搜索引擎 123
7.3 网站数据对搜索引擎的影响 126
7.3.1 垂直网站与垂直搜索 126
7.3.2 私有化的Web化数据 127
7.3.3 没有Web化的数据 127
7.3.4 大数据流动 128
7.4 搜索引擎优化 128
7.4.1 搜索引擎优化的产生 129
7.4.2 网页级别 129
7.4.3 搜索引擎优化的方法 129
小结 131
第8章 大数据存储 132
8.1 大数据存储概述 132
8.1.1 大数据存储模型 133
8.1.2 大数据存储问题 133
8.1.3 存储方式 135
8.2 大数据的存储技术 139
8.2.1 数据容量问题 139
8.2.2 大图数据 140
8.2.3 分布式存储的架构 142
8.2.4 数据存储管理 143
8.3 数据云存储 145
8.3.1 云存储的意义与问题 145
8.3.2 技术措施 146
8.4 数据存储的可靠性 148
8.4.1 磁盘与磁盘阵列的可靠性 148
8.4.2 文件系统的可靠性 151
小结 151
第9章 NoSQL数据库 152
9.1 NoSQL概述 153
9.1.1 非结构化问题 153
9.1.2 NoSQL的产生 153
9.2 NoSQL的特点与问题 155
9.2.1 NoSQL的特点 155
9.2.2 NoSQL面对的问题 156
9.3 NoSQL的主要存储方式 157
9.3.1 键值存储方式 157
9.3.2 文档存储方式 158
9.3.3 列存储方式 160
9.3.4 图形存储方式 166
9.3.5 存储类型对应的NoSQL数据库 167
9.4 常用的NoSQL数据库 168
9.4.1 Cassandra 168
9.4.2 Lucene 168
9.4.3 Riak 169
9.4.4 CouchDB 169
9.4.5 Neo4j 169
9.4.6 Oracle的NoSQL 169
9.4.7 Hadoop的HBase 170
9.4.8 Bigtable 170
9.4.9 DynamoDB 170
9.4.10 MongoDB 170
小结 173
第10章 大数据预处理技术 174
10.1 数据抽取概述 175
10.1.1 数据抽取的概念与包装器 175
10.1.2 抽取数据的方法 176
10.2 Web数据抽取 177
10.2.1 Web数据抽取问题的提出 177
10.2.2 Web数据抽取的目的与方法 177
10.2.3 Web数据抽取过程 178
10.3 数据质量与数据清洗 179
10.3.1 数据质量 179
10.3.2 数据清洗的目的 180
10.3.3 数据清洗算法衡量标准 180
10.3.4 数据清洗的主要研究成果 181
10.3.5 数据清洗技术面临的问题 181
10.4 不符合要求的数据 182
10.4.1 不完整的数据 182
10.4.2 异常的数据 182
10.4.3 重复的数据 183
10.5 数据清洗技术的实现 183
10.5.1 数据清洗的方法与技巧 184
10.5.2 数据清洗的实现方式 186
10.5.3 数据清洗的步骤 187
10.5.4 数据清洗的评价标准 188
10.5.5 常用的数据清洗算法 188
10.5.6 大数据清洗工具 189
10.6 数据集成 189
10.6.1 数据集成技术概述 190
10.6.2 数据集成系统的构建 192
10.7 数据转换与约简 193
10.7.1 数据转换 193
10.7.2 数据约简 194
小结 195
第11章 大数据分析 196
11.1 数据分析概述 197
11.1.1 数据分析的概念 197
11.1.2 数据分析的目的与意义 197
11.1.3 数据分析方法的分类 198
11.1.4 数据分析的类型 198
11.1.5 数据分析步骤 199
11.2 基本数据分析方法 199
11.2.1 统计方法 199
11.2.2 指标对比分析法 200
11.2.3 分组分析法 201
11.2.4 综合评价分析法 201
11.2.5 指数分析法 201
11.2.6 平衡分析法 201
11.2.7 平滑和滤波 202
11.2.8 基线与峰值 202
11.3 高级数据分析方法 202
11.3.1 时间数列及动态分析法 202
11.3.2 相关分析 203
11.3.3 回归分析 203
11.3.4 判别分析 204
11.3.5 对应分析 204
11.3.6 预测分析 204
11.3.7 主成分分析 204
11.3.8 多维尺度分析 205
11.3.9 因子分析 205
11.3.10 方差分析 205
11.4 复合技术分析 205
11.4.1 快速傅里叶变换 206
11.4.2 分类 206
11.4.3 聚类分析 206
11.5 大数据分析基础 207
11.5.1 可视化分析 207
11.5.2 数据挖掘 207
11.5.3 预测性分析 208
11.5.4 语义引擎 208
11.5.5 数据质量和数据管理 208
11.5.6 大数据的离线与在线分析 208
11.6 大数据预测分析 209
11.6.1 预测学简介 209
11.6.2 预测原理 211
11.6.3 预测的步骤 212
11.6.4 预测技术分类 213
11.6.5 预测模型及分类 215
11.6.6 大数据预测分析要素 215
11.6.7 大数据预测分析的演化 216
11.6.8 大数据预测分析相关问题 216
11.6.9 舆情监测与分析 217
11.7 大数据分析应用 220
11.7.1 为客户提供服务 220
11.7.2 优化业务流程 220
11.7.3 改善生活 220
11.7.4 提高体育成绩 221
11.7.5 优化机器和设备性能 221
11.7.6 改善安全和执法 221
11.7.7 金融交易 221
11.7.8 电信业务 221
11.7.9 销售 222
11.8 大数据分析平台与工具 222
11.8.1 大数据分析平台 222
11.8.2 大数据分析的工具 223
小结 226
第12章 大数据挖掘 227
12.1 数据挖掘概述 227
12.1.1 数据挖掘的几个概念 228
12.1.2 数据挖掘对象与过程 229
12.1.3 数据挖掘的常用方法 232
12.1.4 数据挖掘的几个问题 234
12.1.5 数据挖掘的经典算法 237
12.2 大数据挖掘技术 238
12.2.1 大数据挖掘关键技术 239
12.2.2 大数据挖掘策略 240
12.3 大数据挖掘应用 243
12.3.1 市场营销 243
12.3.2 销售 244
12.3.3 物流 245
12.3.4 CRM 246
小结 248
第13章 大数据可视化 249
13.1 可视化技术概述 249
13.1.1 可视化技术的产生与发展 250
13.1.2 科学可视化 253
13.1.3 信息可视化 254
13.1.4 数据可视化 257
13.2 大数据科学可视化 260
13.2.1 高可伸缩性的分布式并行可视化算法 260
13.2.2 并行图像合成算法 261
13.2.3 并行颗粒跟踪算法 261
13.2.4 重要信息的提取与显示 262
13.2.5 原位可视化 263
13.3 大数据可视化分析 264
13.3.1 大数据可视化分析概念 264
13.3.2 大数据可视化分析方法 264
小结 267
第14章 大数据安全 268
14.1 大数据安全概述 268
14.1.1 数据安全的定义 269
14.1.2 数据处理与存储的安全 269
14.1.3 数据安全的基本特点 269
14.1.4 威胁数据安全的主要因素 270
14.1.5 安全制度与防护技术 271
14.1.6 应用 273
14.2 大数据安全的内容 278
14.2.1 大数据的不安全因素 278
14.2.2 大数据安全的关键问题 279
14.2.3 大数据安全措施 280
14.3 云安全 281
14.3.1 云计算中用户的安全需求 281
14.3.2 威胁模型 282
14.3.3 云安全的支撑技术 282
14.3.4 用户数据隐私保护 283
14.3.5 云计算执行环境的可信性 283
14.3.6 资源共享问题 284
小结 284
第15章 大数据机器学习 285
15.1 机器学习概述 285
15.1.1 机器学习的产生与发展 285
15.1.2 机器学习类型 288
15.1.3 知识表示形式 291
15.2 大数据机器学习的特点与评测指标 292
15.2.1 大数据机器学习的特点 293
15.2.2 大数据机器学习的评测指标 294
15.3 大数据机器学习的应用 295
15.3.1 基于大数据的空气质量推断 295
15.3.2 人与建筑的关系分析 296
15.3.3 针对全球问题的预测模型 296
15.3.4 全球地表覆盖制图可视化与数据分析 296
小结 297
第16章 大数据推荐技术 298
16.1 推荐技术概述 298
16.1.1 推荐系统的产生与发展 299
16.1.2 推荐系统的概念 299
16.1.3 推荐系统架构 300
16.1.4 推荐系统类型 300
16.1.5 推荐系统的评判标准 302
16.2 推荐算法与推荐模式 303
16.2.1 推荐算法 303
16.2.2 推荐模式 306
16.2.3 下一代推荐系统 308
16.3 大数据推荐技术的挑战 310
16.3.1 数据稀疏性问题 310
16.3.2 大数据冷启动 310
16.3.3 多样性与精确性的两难命题 310
16.3.4 大数据处理与增量计算问题 311
16.3.5 推荐系统的脆弱性问题 311
16.3.6 推荐系统效果评估 311
16.3.7 用户行为模式的挖掘和利用 312
16.3.8 用户界面与用户体验 312
16.3.9 多维数据的交叉利用 313
16.3.10 社会推荐 313
16.4 大数据人才推荐系统 314
小结 315
第17章 数据科学与数据思维 316
17.1 数据科学概述 316
17.1.1 数据科学的定义与信息化过程 316
17.1.2 数据科学的研究内容 317
17.1.3 数据科学的研究过程与体系框架 318
17.2 大数据研究方式 319
17.2.1 大数据分析的是全面的数据 320
17.2.2 重视数据的复杂性与弱化精确性 321
17.2.3 关注数据的相关性而非因果关系 321
17.3 数据专家 322
17.3.1 数据科学家 322
17.3.2 数据处理工程师 325
17.3.3 大数据思维 325
小结 326
参考文献 327