新書推薦:

《
弗里德里希二世皇帝:一部传记
》
售價:HK$
221.8

《
阿非利加征服者:比拿破仑更伟大的西庇阿
》
售價:HK$
69.6

《
营救里斯本丸
》
售價:HK$
66.1

《
鸟瞰最美国保全书(刷边版)
》
售價:HK$
1177.6

《
上海市民生活记忆
》
售價:HK$
83.2

《
分肥游戏:古代中国权力分配规则
》
售價:HK$
70.6

《
结构 Structures(埃隆马斯克推荐读物之一,经典又实用的结构力学普及读物)
》
售價:HK$
93.2

《
影响世界的十八个定律:破解万物运行规律人类,如何用公式定义世界?
》
售價:HK$
65.8
|
編輯推薦: |
本书以案例为驱动,由浅入深地介绍Python数据采集、预处理与可视化涉及的内容,实用性很强。
|
內容簡介: |
本书共5部分。第1部分(第1章)为基础理论,概述大数据的基本概念、特征、发展历史、生态系统及实际应用。第2部分(第2、3章)为数据采集,详细介绍数据采集的基本概念、特征、方法和技术,并重点讲解如何使用Python进行网络数据采集。第3部分(第4、5章)为数据预处理,深入探讨数据清理、数据集成、数据归约、数据转换等理论和技术,以及如何使用NumPy和Pandas这两个强大的Python库来进行数据预处理。第4部分(第6、7章)为数据可视化,讲解数据可视化的发展历史、分类和应用,并展示如何使用Matplotlib等Python库来绘制各种类型的图表。第5部分(第8~10章)为案例,展示使用Python进行数据采集、预处理与可视化的全过程。
來源:香港大書城megBookStore,http://www.megbook.com.hk 本书既可以作为高等院校计算机及相关专业的教材,也可以作为软件从业人员、计算机爱好者的学习指导用书。
|
目錄:
|
第1部分基础理论
第1章大数据概述
1.1大数据基础
1.1.1大数据的基本概念
1.1.2大数据的5V特征
1.1.3大数据的发展历程
1.2大数据生态系统
1.2.1Hadoop
1.2.2Spark
1.3大数据的实际应用
1.3.1大数据的应用领域
1.3.2大数据面临的挑战
思考与练习
章节实训: 大数据软件生态探索
第2部分数据采集
第2章数据采集基础
2.1数据采集的基本概念和特征
2.1.1数据采集的基本概念
2.1.2数据采集的特征
2.2数据采集的方法
2.2.1数据库采集
2.2.2系统日志采集
2.2.3网络数据采集
2.2.4传感器采集
2.2.5众包采集
2.3数据采集的技术
2.3.1网络爬虫
2.3.2数据抽取技术
2.4数据采集工具介绍
思考与练习
章节实训: 利用Octoparse采集网站数据
第3章Python网络数据采集
3.1网络爬虫基础
3.1.1HTML
3.1.2HTTP
3.1.3JavaScript
3.1.4Robots协议
3.2Python爬虫基础库编写爬虫
3.2.1Requests库采集网页
3.2.2BeautifulSoup库解析网页
3.3Scrapy框架构建爬虫
3.3.1Scrapy框架简介
3.3.2Scrapy框架安装
3.3.3Scrapy框架爬虫编写
3.4Selenium库模拟人工爬虫
3.4.1Selenium库简介
3.4.2Selenium库与浏览器驱动安装
3.4.3Selenium库爬虫编写
思考与练习
章节实训: 股票报告爬虫编写
第3部分数据预处理
第4章数据预处理基础
4.1概述
4.1.1数据预处理的意义
4.1.2数据预处理的分类
4.2数据清理
4.2.1内容格式错误数据处理
4.2.2缺失值处理
4.2.3噪声数据处理
4.2.4重复数据处理
4.3数据集成
4.3.1实体识别问题
4.3.2冗余问题
4.3.3冲突数据值的检测与处理
4.4数据归约
4.4.1维度归约
4.4.2数量归约
4.4.3数据压缩
4.5数据转换
4.5.1数据离散化
4.5.2数据标准化
4.5.3对数变换与指数变换
4.5.4数据脱敏
思考与练习
章节实训: 文本数据预处理
第5章Python数据预处理
5.1科学计算库NumPy
5.1.1NumPy介绍与安装
5.1.2NumPy的数据结构与索引
5.1.3NumPy的数据类型与转换
5.1.4NumPy的数学运算
5.1.5NumPy常用的数学函数
5.1.6Numpy缺失值、异常值和重复值的处理
5.2数据分析库Pandas
5.2.1Pandas介绍与安装
5.2.2Pandas的数据结构与索引
5.2.3Pandas的数据类型与转换
5.2.4Pandas的数据输入与输出
5.2.5Pandas常用的数学函数
5.2.6Pandas缺失值、异常值和重复值处理
5.2.7apply()函数
5.2.8Pandas数据分组
5.2.9Pandas数据合并
思考与练习
章节实训: 空气质量分析
第4部分数据可视化
第6章数据可视化基础
6.1数据可视化概述
6.1.1数据可视化的发展历史
6.1.2数据可视化的分类
6.2时间数据可视化
6.2.1时间数据可视化的方法
6.2.2时间数据可视化的应用
6.3比例数据可视化
6.3.1比例数据可视化的方法
6.3.2比例数据可视化的应用
6.4关系数据可视化
6.4.1关系数据可视化的方法
6.4.2关系数据可视化的应用
6.5文本数据可视化
6.5.1文本数据可视化的方法
6.5.2文本数据可视化的应用
6.6复杂数据可视化
6.6.1复杂数据可视化的方法
6.6.2复杂数据可视化的应用
思考与练习
章节实训: 可视化图表绘制
第7章Python数据可视化
7.1Python数据可视化库概述
7.1.1Matplotlib
7.1.2Seaborn
7.1.3pyecharts
7.1.4NetworkX
7.1.5wordcloud
7.2Matplotlib图表绘制
7.2.1Matplotlib安装
7.2.2Matplotlib绘图
7.2.3Matplotlib绘图参数设置
7.3Seaborn图表绘制
7.3.1Seaborn安装
7.3.2Seaborn绘图
7.3.3Seaborn绘图参数设置
7.4pyecharts图表绘制
7.4.1pyecharts安装
7.4.2pyecharts绘图
7.4.3pyecharts绘图参数设置
7.5NetworkX图表绘制
7.5.1NetworkX安装
7.5.2NetworkX绘图
7.5.3NetworkX绘图参数设置
7.6wordcloud图表绘制
7.6.1wordcloud安装
7.6.2wordcloud绘图
7.6.3wordcloud绘图参数设置
思考与练习
章节实训: 绘制可视化图表
第5部分应用案例
第8章案例: 用户消费行为分析
8.1RFM模型简介
8.2数据读入
8.3数据清洗和预处理
8.3.1数据清洗
8.3.2数据预处理
8.4RFM统计量计算
8.5RFM归类
8.6结果保存
8.7可视化结果
第9章案例: 爬取二手房房价数据并绘制热力图
9.1数据抓取
9.1.1分析网页
9.1.2地址转换成经纬度
9.1.3编写代码
9.1.4数据下载结果
9.2绘制热力图
第10章案例: 使用Spark实现数据统计分析及性能优化
10.1背景
10.2系统架构
10.2.1总体方案
10.2.2详细设计
10.2.3优化设计
10.3具体实现
10.3.1数据获取
10.3.2数据可视化
10.4性能优化
10.4.1读取优化
10.4.2查询优化
10.4.3Spark参数级优化
|
內容試閱:
|
如今,大数据已成为推动社会进步与产业升级的重要力量。从商业智能到科学研究,从城市管理到个人生活,大数据的应用无处不在,深刻改变着世界。然而,大数据需要经过精心的采集、预处理与可视化,才能转化为有价值的信息和知识。
本书基于这一背景,通过深入浅出的讲解和丰富的案例演示,帮助读者理解大数据的基本概念、生态系统和实际应用,数据采集、预处理与可视化的各个环节,以及如何使用Python编程语言来实现这些过程。
本书共5部分。在基础理论部分,将带领读者走进大数据的世界,了解大数据的基本概念、特征、发展历史、生态系统及实际应用; 在数据采集部分,将详细介绍数据采集的基本概念、特征、方法和技术,并重点讲解如何使用Python进行网络数据采集,包括网络爬虫基础及Scrapy框架和Selenium库的应用; 在数据预处理部分,将深入探讨数据清理、数据集成、数据归约、数据转换等关键技术,并介绍如何使用NumPy和Pandas这两个强大的Python库来进行数据预处理; 在数据可视化部分,将讲解数据可视化的发展历史、分类和应用,并展示如何使用Matplotlib等Python库来绘制各种类型的图表,从而直观展示数据的内在规律和趋势; 在案例部分,将展示使用Python进行数据采集、预处理与可视化的全过程。通过阅读本书,读者将能够掌握数据处理与分析的核心技能,提升数据素养和数据分析能力,为未来的职业发展打下坚实的基础。
本书的作者为吕云翔、姚泽良、宗坚、杨壮、韩延刚、仇善召、朱英豪、张扬,此外,曾洪立参与了部分内容的编写并进行了素材整理及配套资源制作等。
由于作者水平和能力有限,本书难免有疏漏之处。恳请各位同仁和广大读者给予批评指正,也希望各位读者将实践过程中的经验和心得与我们交流。
作者2025年5月
|
|