登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入   新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2024年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書

『簡體書』Python数据采集、预处理与可视化

書城自編碼: 4144121
分類:簡體書→大陸圖書→教材研究生/本科/专科教材
作者: 吕云翔,姚泽良,宗坚,杨壮,韩延刚,仇善召,朱英豪,张扬
國際書號(ISBN): 9787302695424
出版社: 清华大学出版社
出版日期: 2025-07-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 53.9

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
弗里德里希二世皇帝:一部传记
《 弗里德里希二世皇帝:一部传记 》

售價:HK$ 221.8
阿非利加征服者:比拿破仑更伟大的西庇阿
《 阿非利加征服者:比拿破仑更伟大的西庇阿 》

售價:HK$ 69.6
营救里斯本丸
《 营救里斯本丸 》

售價:HK$ 66.1
鸟瞰最美国保全书(刷边版)
《 鸟瞰最美国保全书(刷边版) 》

售價:HK$ 1177.6
上海市民生活记忆
《 上海市民生活记忆 》

售價:HK$ 83.2
分肥游戏:古代中国权力分配规则
《 分肥游戏:古代中国权力分配规则 》

售價:HK$ 70.6
结构 Structures(埃隆马斯克推荐读物之一,经典又实用的结构力学普及读物)
《 结构 Structures(埃隆马斯克推荐读物之一,经典又实用的结构力学普及读物) 》

售價:HK$ 93.2
影响世界的十八个定律:破解万物运行规律人类,如何用公式定义世界?
《 影响世界的十八个定律:破解万物运行规律人类,如何用公式定义世界? 》

售價:HK$ 65.8

編輯推薦:
本书以案例为驱动,由浅入深地介绍Python数据采集、预处理与可视化涉及的内容,实用性很强。
內容簡介:
本书共5部分。第1部分(第1章)为基础理论,概述大数据的基本概念、特征、发展历史、生态系统及实际应用。第2部分(第2、3章)为数据采集,详细介绍数据采集的基本概念、特征、方法和技术,并重点讲解如何使用Python进行网络数据采集。第3部分(第4、5章)为数据预处理,深入探讨数据清理、数据集成、数据归约、数据转换等理论和技术,以及如何使用NumPy和Pandas这两个强大的Python库来进行数据预处理。第4部分(第6、7章)为数据可视化,讲解数据可视化的发展历史、分类和应用,并展示如何使用Matplotlib等Python库来绘制各种类型的图表。第5部分(第8~10章)为案例,展示使用Python进行数据采集、预处理与可视化的全过程。 來源:香港大書城megBookStore,http://www.megbook.com.hk
本书既可以作为高等院校计算机及相关专业的教材,也可以作为软件从业人员、计算机爱好者的学习指导用书。
目錄
第1部分基础理论
第1章大数据概述
1.1大数据基础
1.1.1大数据的基本概念
1.1.2大数据的5V特征
1.1.3大数据的发展历程
1.2大数据生态系统
1.2.1Hadoop
1.2.2Spark
1.3大数据的实际应用
1.3.1大数据的应用领域
1.3.2大数据面临的挑战
思考与练习
章节实训: 大数据软件生态探索
第2部分数据采集
第2章数据采集基础
2.1数据采集的基本概念和特征
2.1.1数据采集的基本概念
2.1.2数据采集的特征
2.2数据采集的方法
2.2.1数据库采集
2.2.2系统日志采集
2.2.3网络数据采集
2.2.4传感器采集
2.2.5众包采集
2.3数据采集的技术
2.3.1网络爬虫
2.3.2数据抽取技术
2.4数据采集工具介绍
思考与练习
章节实训: 利用Octoparse采集网站数据
第3章Python网络数据采集
3.1网络爬虫基础
3.1.1HTML
3.1.2HTTP
3.1.3JavaScript
3.1.4Robots协议
3.2Python爬虫基础库编写爬虫
3.2.1Requests库采集网页
3.2.2BeautifulSoup库解析网页
3.3Scrapy框架构建爬虫
3.3.1Scrapy框架简介
3.3.2Scrapy框架安装
3.3.3Scrapy框架爬虫编写
3.4Selenium库模拟人工爬虫
3.4.1Selenium库简介
3.4.2Selenium库与浏览器驱动安装
3.4.3Selenium库爬虫编写
思考与练习
章节实训: 股票报告爬虫编写
第3部分数据预处理
第4章数据预处理基础
4.1概述
4.1.1数据预处理的意义
4.1.2数据预处理的分类
4.2数据清理
4.2.1内容格式错误数据处理
4.2.2缺失值处理
4.2.3噪声数据处理
4.2.4重复数据处理
4.3数据集成
4.3.1实体识别问题
4.3.2冗余问题
4.3.3冲突数据值的检测与处理
4.4数据归约
4.4.1维度归约
4.4.2数量归约
4.4.3数据压缩
4.5数据转换
4.5.1数据离散化
4.5.2数据标准化
4.5.3对数变换与指数变换
4.5.4数据脱敏
思考与练习
章节实训: 文本数据预处理
第5章Python数据预处理
5.1科学计算库NumPy
5.1.1NumPy介绍与安装
5.1.2NumPy的数据结构与索引
5.1.3NumPy的数据类型与转换
5.1.4NumPy的数学运算
5.1.5NumPy常用的数学函数
5.1.6Numpy缺失值、异常值和重复值的处理
5.2数据分析库Pandas
5.2.1Pandas介绍与安装
5.2.2Pandas的数据结构与索引
5.2.3Pandas的数据类型与转换
5.2.4Pandas的数据输入与输出
5.2.5Pandas常用的数学函数
5.2.6Pandas缺失值、异常值和重复值处理
5.2.7apply()函数
5.2.8Pandas数据分组
5.2.9Pandas数据合并
思考与练习
章节实训: 空气质量分析
第4部分数据可视化
第6章数据可视化基础
6.1数据可视化概述
6.1.1数据可视化的发展历史
6.1.2数据可视化的分类
6.2时间数据可视化
6.2.1时间数据可视化的方法
6.2.2时间数据可视化的应用
6.3比例数据可视化
6.3.1比例数据可视化的方法
6.3.2比例数据可视化的应用
6.4关系数据可视化
6.4.1关系数据可视化的方法
6.4.2关系数据可视化的应用
6.5文本数据可视化
6.5.1文本数据可视化的方法
6.5.2文本数据可视化的应用
6.6复杂数据可视化
6.6.1复杂数据可视化的方法
6.6.2复杂数据可视化的应用
思考与练习
章节实训: 可视化图表绘制
第7章Python数据可视化
7.1Python数据可视化库概述
7.1.1Matplotlib
7.1.2Seaborn
7.1.3pyecharts
7.1.4NetworkX
7.1.5wordcloud
7.2Matplotlib图表绘制
7.2.1Matplotlib安装
7.2.2Matplotlib绘图
7.2.3Matplotlib绘图参数设置
7.3Seaborn图表绘制
7.3.1Seaborn安装
7.3.2Seaborn绘图
7.3.3Seaborn绘图参数设置
7.4pyecharts图表绘制
7.4.1pyecharts安装
7.4.2pyecharts绘图
7.4.3pyecharts绘图参数设置
7.5NetworkX图表绘制
7.5.1NetworkX安装
7.5.2NetworkX绘图
7.5.3NetworkX绘图参数设置
7.6wordcloud图表绘制
7.6.1wordcloud安装
7.6.2wordcloud绘图
7.6.3wordcloud绘图参数设置
思考与练习
章节实训: 绘制可视化图表
第5部分应用案例
第8章案例: 用户消费行为分析
8.1RFM模型简介
8.2数据读入
8.3数据清洗和预处理
8.3.1数据清洗
8.3.2数据预处理
8.4RFM统计量计算
8.5RFM归类
8.6结果保存
8.7可视化结果
第9章案例: 爬取二手房房价数据并绘制热力图
9.1数据抓取
9.1.1分析网页
9.1.2地址转换成经纬度
9.1.3编写代码
9.1.4数据下载结果
9.2绘制热力图
第10章案例: 使用Spark实现数据统计分析及性能优化
10.1背景
10.2系统架构
10.2.1总体方案
10.2.2详细设计
10.2.3优化设计
10.3具体实现
10.3.1数据获取
10.3.2数据可视化
10.4性能优化
10.4.1读取优化
10.4.2查询优化
10.4.3Spark参数级优化
內容試閱
如今,大数据已成为推动社会进步与产业升级的重要力量。从商业智能到科学研究,从城市管理到个人生活,大数据的应用无处不在,深刻改变着世界。然而,大数据需要经过精心的采集、预处理与可视化,才能转化为有价值的信息和知识。
本书基于这一背景,通过深入浅出的讲解和丰富的案例演示,帮助读者理解大数据的基本概念、生态系统和实际应用,数据采集、预处理与可视化的各个环节,以及如何使用Python编程语言来实现这些过程。
本书共5部分。在基础理论部分,将带领读者走进大数据的世界,了解大数据的基本概念、特征、发展历史、生态系统及实际应用; 在数据采集部分,将详细介绍数据采集的基本概念、特征、方法和技术,并重点讲解如何使用Python进行网络数据采集,包括网络爬虫基础及Scrapy框架和Selenium库的应用; 在数据预处理部分,将深入探讨数据清理、数据集成、数据归约、数据转换等关键技术,并介绍如何使用NumPy和Pandas这两个强大的Python库来进行数据预处理; 在数据可视化部分,将讲解数据可视化的发展历史、分类和应用,并展示如何使用Matplotlib等Python库来绘制各种类型的图表,从而直观展示数据的内在规律和趋势; 在案例部分,将展示使用Python进行数据采集、预处理与可视化的全过程。通过阅读本书,读者将能够掌握数据处理与分析的核心技能,提升数据素养和数据分析能力,为未来的职业发展打下坚实的基础。
本书的作者为吕云翔、姚泽良、宗坚、杨壮、韩延刚、仇善召、朱英豪、张扬,此外,曾洪立参与了部分内容的编写并进行了素材整理及配套资源制作等。
由于作者水平和能力有限,本书难免有疏漏之处。恳请各位同仁和广大读者给予批评指正,也希望各位读者将实践过程中的经验和心得与我们交流。


作者2025年5月

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2025 (香港)大書城有限公司  All Rights Reserved.