登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

2025年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

一月出版：大陸書台灣書
12月出版：大陸書台灣書
11月出版：大陸書台灣書
十月出版：大陸書台灣書
九月出版：大陸書台灣書
八月出版：大陸書台灣書
七月出版：大陸書台灣書
六月出版：大陸書台灣書
五月出版：大陸書台灣書
四月出版：大陸書台灣書
三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書
12月出版：大陸書台灣書

『簡體書』Python数据采集、预处理与可视化

書城自編碼： 4144121
分類：簡體書→大陸圖書→教材→研究生/本科/专科教材
作者：吕云翔，姚泽良，宗坚，杨壮，韩延刚，仇善召，朱英豪，张扬
國際書號(ISBN)： 9787302695424
出版社：清华大学出版社
出版日期： 2025-07-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：HK$ 53.9

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《心灵银行脑科学轻松创造真正的改变世界级催眠大师约翰卡帕斯送给普通人改写命运的秘密武器》
售價：HK$ 74.8

《被偷走的尊严：美国保守派的失落、耻辱与奋起（三联·哈佛燕京学术丛书）》
售價：HK$ 85.8

《尖叫的数学：令人惊叹的数学之美：修订新版（从数学的角度发现不一样的逻辑和处世哲学。随书附赠手账本。）》
售價：HK$ 63.8

《数学老师没教过的数学》
售價：HK$ 46.2

《法国在乍得的战争：在非洲的军事干预与非殖民化》
售價：HK$ 107.8

《西学东渐记（插图本）》
售價：HK$ 85.8

《新民说·保罗·策兰与勒内·夏尔书信集（1954—1968 》
售價：HK$ 75.9

《大历史学家——世界100位著名历史学家画传》
售價：HK$ 162.8

編輯推薦：

本书以案例为驱动，由浅入深地介绍Python数据采集、预处理与可视化涉及的内容，实用性很强。

內容簡介：

本书共5部分。第1部分（第1章）为基础理论，概述大数据的基本概念、特征、发展历史、生态系统及实际应用。第2部分（第2、3章）为数据采集，详细介绍数据采集的基本概念、特征、方法和技术，并重点讲解如何使用Python进行网络数据采集。第3部分（第4、5章）为数据预处理，深入探讨数据清理、数据集成、数据归约、数据转换等理论和技术，以及如何使用NumPy和Pandas这两个强大的Python库来进行数据预处理。第4部分（第6、7章）为数据可视化，讲解数据可视化的发展历史、分类和应用，并展示如何使用Matplotlib等Python库来绘制各种类型的图表。第5部分（第8~10章）为案例，展示使用Python进行数据采集、预处理与可视化的全过程。
本书既可以作为高等院校计算机及相关专业的教材，也可以作为软件从业人员、计算机爱好者的学习指导用书。

第1部分基础理论
第1章大数据概述
1.1大数据基础
1.1.1大数据的基本概念
1.1.2大数据的5V特征
1.1.3大数据的发展历程
1.2大数据生态系统
1.2.1Hadoop
1.2.2Spark
1.3大数据的实际应用
1.3.1大数据的应用领域
1.3.2大数据面临的挑战
思考与练习
章节实训：大数据软件生态探索
第2部分数据采集
第2章数据采集基础
2.1数据采集的基本概念和特征
2.1.1数据采集的基本概念
2.1.2数据采集的特征
2.2数据采集的方法
2.2.1数据库采集
2.2.2系统日志采集
2.2.3网络数据采集
2.2.4传感器采集
2.2.5众包采集
2.3数据采集的技术
2.3.1网络爬虫
2.3.2数据抽取技术
2.4数据采集工具介绍
思考与练习
章节实训：利用Octoparse采集网站数据
第3章Python网络数据采集
3.1网络爬虫基础
3.1.1HTML
3.1.2HTTP
3.1.3JavaScript
3.1.4Robots协议
3.2Python爬虫基础库编写爬虫
3.2.1Requests库采集网页
3.2.2BeautifulSoup库解析网页
3.3Scrapy框架构建爬虫
3.3.1Scrapy框架简介
3.3.2Scrapy框架安装
3.3.3Scrapy框架爬虫编写
3.4Selenium库模拟人工爬虫
3.4.1Selenium库简介
3.4.2Selenium库与浏览器驱动安装
3.4.3Selenium库爬虫编写
思考与练习
章节实训：股票报告爬虫编写
第3部分数据预处理
第4章数据预处理基础
4.1概述
4.1.1数据预处理的意义
4.1.2数据预处理的分类
4.2数据清理
4.2.1内容格式错误数据处理
4.2.2缺失值处理
4.2.3噪声数据处理
4.2.4重复数据处理
4.3数据集成
4.3.1实体识别问题
4.3.2冗余问题
4.3.3冲突数据值的检测与处理
4.4数据归约
4.4.1维度归约
4.4.2数量归约
4.4.3数据压缩
4.5数据转换
4.5.1数据离散化
4.5.2数据标准化
4.5.3对数变换与指数变换
4.5.4数据脱敏
思考与练习
章节实训：文本数据预处理
第5章Python数据预处理
5.1科学计算库NumPy
5.1.1NumPy介绍与安装
5.1.2NumPy的数据结构与索引
5.1.3NumPy的数据类型与转换
5.1.4NumPy的数学运算
5.1.5NumPy常用的数学函数
5.1.6Numpy缺失值、异常值和重复值的处理
5.2数据分析库Pandas
5.2.1Pandas介绍与安装
5.2.2Pandas的数据结构与索引
5.2.3Pandas的数据类型与转换
5.2.4Pandas的数据输入与输出
5.2.5Pandas常用的数学函数
5.2.6Pandas缺失值、异常值和重复值处理
5.2.7apply（）函数
5.2.8Pandas数据分组
5.2.9Pandas数据合并
思考与练习
章节实训：空气质量分析
第4部分数据可视化
第6章数据可视化基础
6.1数据可视化概述
6.1.1数据可视化的发展历史
6.1.2数据可视化的分类
6.2时间数据可视化
6.2.1时间数据可视化的方法
6.2.2时间数据可视化的应用
6.3比例数据可视化
6.3.1比例数据可视化的方法
6.3.2比例数据可视化的应用
6.4关系数据可视化
6.4.1关系数据可视化的方法
6.4.2关系数据可视化的应用
6.5文本数据可视化
6.5.1文本数据可视化的方法
6.5.2文本数据可视化的应用
6.6复杂数据可视化
6.6.1复杂数据可视化的方法
6.6.2复杂数据可视化的应用
思考与练习
章节实训: 可视化图表绘制
第7章Python数据可视化
7.1Python数据可视化库概述
7.1.1Matplotlib
7.1.2Seaborn
7.1.3pyecharts
7.1.4NetworkX
7.1.5wordcloud
7.2Matplotlib图表绘制
7.2.1Matplotlib安装
7.2.2Matplotlib绘图
7.2.3Matplotlib绘图参数设置
7.3Seaborn图表绘制
7.3.1Seaborn安装
7.3.2Seaborn绘图
7.3.3Seaborn绘图参数设置
7.4pyecharts图表绘制
7.4.1pyecharts安装
7.4.2pyecharts绘图
7.4.3pyecharts绘图参数设置
7.5NetworkX图表绘制
7.5.1NetworkX安装
7.5.2NetworkX绘图
7.5.3NetworkX绘图参数设置
7.6wordcloud图表绘制
7.6.1wordcloud安装
7.6.2wordcloud绘图
7.6.3wordcloud绘图参数设置
思考与练习
章节实训: 绘制可视化图表
第5部分应用案例
第8章案例：用户消费行为分析
8.1RFM模型简介
8.2数据读入
8.3数据清洗和预处理
8.3.1数据清洗
8.3.2数据预处理
8.4RFM统计量计算
8.5RFM归类
8.6结果保存
8.7可视化结果
第9章案例：爬取二手房房价数据并绘制热力图
9.1数据抓取
9.1.1分析网页
9.1.2地址转换成经纬度
9.1.3编写代码
9.1.4数据下载结果
9.2绘制热力图
第10章案例：使用Spark实现数据统计分析及性能优化
10.1背景
10.2系统架构
10.2.1总体方案
10.2.2详细设计
10.2.3优化设计
10.3具体实现
10.3.1数据获取
10.3.2数据可视化
10.4性能优化
10.4.1读取优化
10.4.2查询优化
10.4.3Spark参数级优化

內容試閱：

如今，大数据已成为推动社会进步与产业升级的重要力量。从商业智能到科学研究，从城市管理到个人生活，大数据的应用无处不在，深刻改变着世界。然而，大数据需要经过精心的采集、预处理与可视化，才能转化为有价值的信息和知识。
本书基于这一背景，通过深入浅出的讲解和丰富的案例演示，帮助读者理解大数据的基本概念、生态系统和实际应用，数据采集、预处理与可视化的各个环节，以及如何使用Python编程语言来实现这些过程。
本书共5部分。在基础理论部分，将带领读者走进大数据的世界，了解大数据的基本概念、特征、发展历史、生态系统及实际应用；在数据采集部分，将详细介绍数据采集的基本概念、特征、方法和技术，并重点讲解如何使用Python进行网络数据采集，包括网络爬虫基础及Scrapy框架和Selenium库的应用；在数据预处理部分，将深入探讨数据清理、数据集成、数据归约、数据转换等关键技术，并介绍如何使用NumPy和Pandas这两个强大的Python库来进行数据预处理；在数据可视化部分，将讲解数据可视化的发展历史、分类和应用，并展示如何使用Matplotlib等Python库来绘制各种类型的图表，从而直观展示数据的内在规律和趋势；在案例部分，将展示使用Python进行数据采集、预处理与可视化的全过程。通过阅读本书，读者将能够掌握数据处理与分析的核心技能，提升数据素养和数据分析能力，为未来的职业发展打下坚实的基础。
本书的作者为吕云翔、姚泽良、宗坚、杨壮、韩延刚、仇善召、朱英豪、张扬，此外，曾洪立参与了部分内容的编写并进行了素材整理及配套资源制作等。
由于作者水平和能力有限，本书难免有疏漏之处。恳请各位同仁和广大读者给予批评指正，也希望各位读者将实践过程中的经验和心得与我们交流。

作者2025年5月

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　海外用户

	megBook.com.hk
Copyright © 2013 - 2026 （香港）大書城有限公司　 All Rights Reserved.