新書推薦:
《
小麦文明:“黄金石油”争夺战
》
售價:HK$
97.9
《
悬壶杂记全集:老中医多年临证经验总结(套装3册) 中医医案诊疗思路和处方药应用
》
售價:HK$
135.1
《
无法忍受谎言的人:一个调查记者的三十年
》
售價:HK$
63.8
《
战争社会学专论
》
售價:HK$
118.8
《
剑桥意大利戏剧史(剑桥世界戏剧史译丛)
》
售價:HK$
162.8
《
教育何用:重估教育的价值
》
售價:HK$
65.8
《
理想城市:环境与诗性
》
售價:HK$
85.8
《
大模型推荐系统:算法原理、代码实战与案例分析
》
售價:HK$
97.9
|
編輯推薦: |
(1)全面:数据分析与大数据处理所需的所有技术,包含基础理论、核心概念、实施流程,从编程语言准备、数据采集与清洗、数据分析与可视化,到大型数据的分布式存储与分布式计算等。
(2)深入:一本书讲透1种编程语言和14种数据分析与大处理工具,以及大数据分析技术及项目开发方法。
(3)丰富:包含45个“新手问答”、17个章节的“实训”、3个项目综合实战、50道Python面试题精选。
|
內容簡介: |
《Python数据分析与大数据处理从入门到精通》主要讲解数据分析与大数据处理所需的技术、基础设施、核心概念、实施流程。从编程语言准备、数据采集与清洗、数据分析与可视化,到大型数据的分布式存储与分布式计算,贯穿了整个大数据项目开发流程。本书轻理论、重实践,目的是让读者快速上手。1篇首先介绍了Python的基本语法、面向对象开发、模块化设计等,掌握Python的编程方式。然后介绍了多线程、多进程及其相互间的通信,让读者对分布式程序有个基本的认识。第2篇介绍了网络数据采集、数据清洗、数据存储等技术。第3篇介绍了Python常用的数据分析工具,扩展了更多的数据清洗、插值方法,为最终的数据可视化奠定基础。第4篇是大数据分析的重点。首先介绍了Hadoop的框架原理、调度原理,MapReduce原理与编程模型、环境搭建,接着介绍了Spark框架原理、环境搭建方式,以及如何与Hive等第三方工具进行交互,还介绍了**的结构化流式处理技术。第5篇通过三个项目实例,综合介绍了如何分析网页、如何搭建分布式爬虫、如何应对常见的反爬虫、如何设计数据模型、如何设计架构模型、如何在实践中综合运用前四篇涉及的技术。本书既适合非计算机专业的编程“小白”,也适合刚毕业或即将毕业走向工作岗位的广大毕业生,以及已经有编程经验,但想转行做大数据分析的专业人士。同时,还可以作为广大职业院校、电脑培训班的教学参考用书。
|
關於作者: |
朱春旭,高级软件工程师,长期对企业、软件开发公司、政府机构培训大数据开发与应用课程,对Python大数据处理与分析相关应用有深入研究,并编写有《极客内参-大数据开发实战》教程45篇,总共30000+字。
|
目錄:
|
第1篇 Python程序设计
第1章 Python入门3
1.1 Python概述4
1.2 搭建Python开发环境6
1.3 Python开发工具介绍11
1.4 Python软件包的管理13
1.5 实训:编写“Hello World”15
本章小结16
第2章 Python基础17
2.1 变量18
2.2 标识符24
2.3 代码组织26
2.4 输入与输出28
2.5 运算符与优先级30
2.6 新手问答30
2.7 实训:设计一个简易计算器31
本章小结31
第3章 数据类型与流程控制32
3.1 数字类型33
3.2 字符串类型37
3.3 集合类型40
3.4 流程控制语句45
3.5 新手问答47
3.6 实训:设计算法,输出乘法表49
本章小结50
第4章 函数、模块、包51
4.1 自定义函数52
4.2 函数参数55
4.3 函数式编程58
4.4 模块与包63
4.5 新手问答65
4.6 实训:设计算法,对列表进行排序67
本章小结68
第5章 面向对象的程序设计69
5.1 面向对象70
5.2 自定义类71
5.3 属性73
5.4 方法79
5.5 类的继承83
5.6 可调用对象86
5.7 不可变对象87
5.8 新手问答88
5.9 实训:设计算法,构造一棵二叉树90
本章小结92
第6章 高级主题93
6.1 生成器94
6.2 迭代器96
6.3 异步处理97
6.4 错误、调试103
6.5 新手问答108
6.6 实训:使用多进程技术统计数据并汇总109
本章小结110
第2篇 数据采集与数据清洗
第7章 网络数据采集113
7.1 HTTP请求概述114
7.2 XPath网页解析114
7.3 Scrapy数据采集入门119
7.4 Scrapy应对反爬虫程序126
7.5 CrawlSpider类131
7.6 分布式爬虫132
7.7 新手问答136
7.8 实训:构建百度云音乐爬虫136
本章小结139
第8章 数据清洗140
8.1 数据清洗的意义141
8.2 数据清洗的内容141
8.3 数据格式与存储类型142
8.4 数据清洗的步骤145
8.5 数据清洗的工具147
8.6 新手问答151
8.7 实训:清洗百度云音乐数据并储存到CSV 151
本章小结152
第3篇 数据分析与可视化
第9章 NumPy数值计算155
9.1 NumPy基础156
9.2 形状操作164
9.3 副本、浅拷贝和深拷贝166
9.4 高级索引168
9.5 排序统计171
9.6 新手问答173
9.7 实训:销售额统计 174
本章小结175
第10章 Matplotlib可视化176
10.1 图形的基本要素177
10.2 绘图基础177
10.3 设置样式186
10.4 图形样例189
10.5 新手问答198
10.6 实训:营业数据可视化199
本章小结201
第11章 Pandas统计分析202
11.1 Pandas数据结构203
11.2 基础功能210
11.3 统计分析217
11.4 时间数据229
11.5 数据整理231
11.6 高级功能234
11.7 读写MySQL数据库236
11.8 新手问答237
11.9 实训:成绩分析237
本章小结239
第12章 Seaborn可视化240
12.1 Seaborn概述241
12.2 可视化数据关系242
12.3 根据数据分类绘图246
12.4 单变量与双变量251
12.5 线性关系256
12.6 新手问答258
12.7 实训:成绩分析可视化258
本章小结260
第4篇 大数据存储与快速分析篇
第13章 Hadoop数据存储与基本操作263
13.1 Hadoop概述264
13.2 Hadoop数据存储与任务调度原理268
13.3 Hadoop基础环境搭建273
13.4 Hadoop部署模式294
13.5 Hadoop常用操作命令298
13.6 新手问答300
13.7 实训:动手搭建Hadoop集群环境301
本章小结309
第14章 Spark入门310
14.1 Spark概述311
14.2 Spark核心原理312
14.3 Spark基础环境搭建315
14.4 Spark运行模式317
14.5 新手问答321
14.6 实训:动手搭建Spark集群322
本章小结323
第15章 Spark RDD编程324
15.1 RDD设计原理325
15.2 RDD编程328
15.3 键值对RDD335
15.4 文件读写340
15.5 编程进阶342
15.6 新手问答347
15.7 实训:统计海鲜销售情况348
本章小结350
第16章 Spark SQL编程351
16.1 Spark SQL概述352
16.2 创建DataFrame对象360
16.3 DataFrame常用API364
16.4 保存DataFrame370
16.5 新手问答372
16.6 实训:统计手机销售情况373
本章小结375
第17章 Spark流式计算编程376
17.1 流计算简介377
17.2 Discretized Stream379
17.3 Structured Streaming385
17.4 新手问答397
17.5 实训:实时统计贷款金额397
本章小结398
第5篇 项目实战篇
第18章 分析电商网站销售数据401
18.1 目标分析402
18.2 数据采集405
18.3 数据分析411
本章小结416
第19章 分析旅游网站数据417
19.1 目标分析418
19.2 数据采集420
19.3 数据分析425
本章小结429
第20章 分析在售二手房数据430
20.1 目标分析431
20.2 数据采集434
20.3 数据分析440
本章小结446
附录:Python常见面试题精选447
主要参考文献450
|
|