图书介绍

Python数据处理pdf电子书版本下载

JacquelineKazil著著
出版社：北京：人民邮电出版社
ISBN：9787115459190
出版时间：2017
标注页数：378页
文件大小：130MB
文件页数：397页
主题词：软件工具－程序设计

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：9d292e75bf2c0a1ef3aff06cfc9c7e01

下载说明

Python数据处理PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章 python简介 1

1.1 为什么选择python 4

1.2 开始使用python 4

1.2.1 python版本选择 5

1.2.2 安装python 6

1.2.3 测试python 9

1.2.4 安装pip 11

1.2.5 安装代码编辑器 12

1.2.6 安装ipython（可选） 13

1.3 小结 13

第2章 python基础 14

2.1 基本数据类型 15

2.1.1 字符串 15

2.1.2 整数和浮点数 15

2.2 数据容器 18

2.2.1 变量 18

2.2.2 列表 21

2.2.3 字典 22

2.3 各种数据类型的用途 23

2.3.1 字符串方法：字符串能做什么 24

2.3.2 数值方法：数字能做什么 25

2.3.3 列表方法：列表能做什么 26

2.3.4 字典方法：字典能做什么 27

2.4 有用的工具：type、dir和help 28

2.4.1 type 28

2.4.2 dir 28

2.4.3 help 30

2.5 综合运用 31

2.6 代码的含义 32

2.7 小结 33

第3章供机器读取的数据 34

3.1 csv数据 35

3.1.1 如何导入csv数据 36

3.1.2 将代码保存到文件中并在命令行中运行 39

3.2 json数据 41

3.3 xml数据 44

3.4 小结 56

第4章处理excel文件 58

4.1 安装python包 58

4.2 解析excel文件 59

4.3 开始解析 60

4.4 小结 71

第5章处理pdf文件，以及用python解决问题 73

5.1 尽量不要用pdf 73

5.2 解析pdf的编程方法 74

5.2.1 利用slate库打开并读取pdf 75

5.2.2 将pdf转换成文本 77

5.3 利用pdfminer解析pdf 78

5.4 学习解决问题的方法 92

5.4.1 练习：使用表格提取，换用另一个库 94

5.4.2 练习：手动清洗数据 98

5.4.3 练习：试用另一种工具 98

5.5 不常见的文件类型 101

5.6 小结 101

第6章数据获取与存储 103

6.1 并非所有数据生而平等 103

6.2 真实性核查 104

6.3 数据可读性、数据清洁度和数据寿命 105

6.4 寻找数据 105

6.4.1 打电话 105

6.4.2 美国政府数据 106

6.4.3 全球政府和城市开放数据 107

6.4.4 组织数据和非政府组织数据 109

6.4.5 教育数据和大学数据 109

6.4.6 医学数据和科学数据 109

6.4.7 众包数据和api 110

6.5 案例研究：数据调查实例 111

6.5.1 埃博拉病毒危机 111

6.5.2 列车安全 111

6.5.3 足球运动员的薪水 112

6.5.4 童工 112

6.6 数据存储 113

6.7 数据库简介 113

6.7.1 关系型数据库：mysql和postgresql 114

6.7.2 非关系型数据库：nosql 116

6.7.3 用python创建本地数据库 117

6.8 使用简单文件 118

6.8.1 云存储和python 118

6.8.2 本地存储和python 119

6.9 其他数据存储方式 119

6.10 小结 119

第7章数据清洗：研究、匹配与格式化 121

7.1 为什么要清洗数据 121

7.2 数据清洗基础知识 122

7.2.1 找出需要清洗的数据 123

7.2.2 数据格式化 131

7.2.3 找出离群值和不良数据 135

7.2.4 找出重复值 140

7.2.5 模糊匹配 143

7.2.6 正则表达式匹配 146

7.2.7 如何处理重复记录 150

7.3 小结 151

第8章数据清洗：标准化和脚本化 153

8.1 数据归一化和标准化 153

8.2 数据存储 154

8.3 找到适合项目的数据清洗方法 156

8.4 数据清洗脚本化 157

8.5 用新数据测试 170

8.6 小结 172

第9章数据探索和分析 173

9.1 探索数据 173

9.1.1 导入数据 174

9.1.2 探索表函数 179

9.1.3 联结多个数据集 182

9.1.4 识别相关性 186

9.1.5 找出离群值 187

9.1.6 创建分组 189

9.1.7 深入探索 192

9.2 分析数据 193

9.2.1 分离和聚焦数据 194

9.2.2 你的数据在讲什么 196

9.2.3 描述结论 196

9.2.4 将结论写成文档 197

9.3 小结 197

第10章展示数据 199

10.1 避免讲故事陷阱 199

10.1.1 怎样讲故事 200

10.1.2 了解听众 200

10.2 可视化数据 201

10.2.1 图表 201

10.2.2 时间相关数据 207

10.2.3 地图 208

10.2.4 交互式元素 211

10.2.5 文字 212

10.2.6 图片、视频和插画 212

10.3 展示工具 213

10.4 发布数据 213

10.4.1 使用可用站点 213

10.4.2 开源平台：创建一个新网站 215

10.4.3 jupyter（曾名ipython notebook） 216

10.5 小结 219

第11章网页抓取：获取并存储网络数据 221

11.1 抓取什么和如何抓取 221

11.2 分析网页 223

11.2.1 检视：标记结构 224

11.2.2 网络／时间线：页面是如何加载的 230

11.2.3 控制台：同javascript交互 232

11.2.4 页面的深入分析 236

11.3 得到页面：如何通过互联网发出请求 237

11.4 使用beautiful soup读取网页 238

11.5 使用lxml读取网页 241

11.6 小结 249

第12章高级网页抓取：屏幕抓取器与爬虫 251

12.1 基于浏览器的解析 251

12.1.1 使用selenium进行屏幕读取 252

12.1.2 使用ghost.py进行屏幕读取 260

12.2 爬取网页 266

12.2.1 使用scrapy创建一个爬虫 266

12.2.2 使用scrapy爬取整个网站 273

12.3 网络：互联网的工作原理，以及为什么它会让脚本崩溃 281

12.4 变化的互联网（或脚本为什么崩溃） 283

12.5 几句忠告 284

12.6 小结 284

第13章应用编程接口 286

13.1 api特性 287

13.1.1 rest api与流式api 287

13.1.2 频率限制 287

13.1.3 分级数据卷 288

13.1.4 api key和token 289

13.2 一次简单的twitter rest api数据拉取 290

13.3 使用twitter rest api进行高级数据收集 292

13.4 使用twitter流式api进行高级数据收集 295

13.5 小结 297

第14章自动化和规模化 298

14.1 为什么要自动化 298

14.2 自动化步骤 299

14.3 什么会出错 301

14.4 在哪里自动化 302

14.5 自动化的特殊工具 303

14.5.1 使用本地文件、参数及配置文件 303

14.5.2 在数据处理中使用云 308

14.5.3 使用并行处理 310

14.5.4 使用分布式处理 312

14.6 简单的自动化 313

14.6.1 cronjobs 314

14.6.2 web接口 316

14.6.3 jupyter notebook 316

14.7 大规模自动化 317

14.7.1 celery：基于队列的自动化 317

14.7.2 ansible：操作自动化 318

14.8 监控自动化程序 319

14.8.1 python日志 320

14.8.2 添加自动化信息 322

14.8.3 上传和其他报告 326

14.8.4 日志和监控服务 327

14.9 没有万无一失的系统 328

14.10 小结 328

第15章结论 330

15.1 数据处理者的职责 330

15.2 数据处理之上 331

15.2.1 成为一名更优秀的数据分析师 331

15.2.2 成为一名更优秀的开发者 331

15.2.3 成为一名更优秀的视觉化讲故事者 332

15.2.4 成为一名更优秀的系统架构师 332

15.3 下一步做什么 332

附录a 编程语言对比 334

附录b 初学者的python学习资源 336

附录c 学习命令行 338

附录d 高级python设置 349

附录e python陷阱 361

附录f ipython指南 370

附录g 使用亚马逊网络服务 374

关于作者 378

关于封面 378