《Python爬虫数据分析与可视化：工具详解与案例实战》 - 成立明，胡书敏，黄勇 - Meg Book Store

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台( 0 )　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

2023年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

『簡體書』Python爬虫数据分析与可视化：工具详解与案例实战

書城自編碼： 3570906
分類：簡體書→大陸圖書→計算機/網絡→程序設計
作者：成立明，胡书敏，黄勇
國際書號(ISBN)： 9787111667759
出版社：机械工业出版社
出版日期： 2020-11-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：HK$ 91.1

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《京华万象：一百年前的北京附赠超大尺寸《清末民初北京万象图》全图》
售價：HK$ 158.7

《傲慢与偏见：希腊化-罗马时期地中海世界的犹太观念》
售價：HK$ 112.7

《像欧奈尔信徒一样交易：我们如何在股市赚得18000%的利润》
售價：HK$ 101.2

《战败者：1917—1923年欧洲的革命与暴力（方尖碑）》
售價：HK$ 112.7

《成唯识论直解（修订本）（全二册）》
售價：HK$ 193.2

《我国政府对在华境外非政府组织分类管理研究》
售價：HK$ 112.7

《奔月》
售價：HK$ 91.8

《基于量子计算的量子密码协议》
售價：HK$ 92.0

內容簡介：

全书共13章。第1~4章为基础篇，主要讲述Python基础知识、Python数据结构、面向对象程序设计思想，Python异常处理和读写文件的技巧；第5~7章为数据分析的工具篇，主要讲述Numpy库、Pandas库和Matplotlib库的基本功能和应用；第8章和第9章为“数据分析高级技能篇”，主要讲述通过爬取技术博客案例、基于Scrapy爬虫框架的实用技巧、数据分析的常用方法，如Python连接操作数据库的相关技能，基于时间序列、概率分析、推断统计和回归分析方法的数学分析方法；第10~13章为“综合案例篇”，主要讲述二手房数据分析案例、股票数据分析案例以及基于Sklearn库的机器学习相关实践。

前言
第1章Python编程基础1
1.1搭建Python开发环境1
1.1.1安装Python解释器1
1.1.2安装Python第三方开发包2
1.1.3在PyCharm里新建项目和文件3
1.1.4在PyCharm里更换Python解释器5
1.2实践Python基本语法5
1.2.1针对基本数据类型的操作6
1.2.2针对字符串的操作7
1.2.3多行注释与引入中文8
1.2.4条件分支语句9
1.2.5循环操作语句9
1.2.6break和continue的用法10
1.2.7格式化输出语句11
1.3定义和调用函数11
1.4return的重要性——函数的递归调用12
1.5熟悉函数的特殊写法13
1.5.1函数作为参数14
1.5.2函数作为返回结果14
1.5.3匿名函数15
1.6本章小结15
第2章Python的数据结构16
2.1列表16
2.1.1定义列表16
2.1.2在列表中增、删、改元素17
2.1.3列表的切片操作18
2.1.4遍历列表19
2.1.5列表的常见用法19
2.2元组20
2.2.1创建和使用元组20
2.2.2元组的常见用法21
2.3集合22
2.3.1创建和使用集合22
2.3.2针对集合的常用数据操作23
2.4字典23
2.4.1创建和使用字典24
2.4.2增加、删除和修改字典中的元素24
2.4.3遍历字典25
2.5针对数据结构的通用性操作25
2.5.1通过map方法实现序列的映射25
2.5.2filter方法与数据筛选26
2.5.3通过reduce方法实现累计效果27
2.5.4通过sorted方法排序对象27
2.6本章小结28
第3章Python面向对象编程29
3.1什么是面向对象思想29
3.2封装特性30
3.2.1创建类并在类里封装属性和方法30
3.2.2类方法的第一个参数必须指向实例31
3.2.3私有属性的典型错误用法31
3.2.4了解其他常用魔术方法33
3.2.5从私有属性和私有方法体会封装特性34
3.3继承特性35
3.3.1继承的语法和使用场景35
3.3.2子类无法使用父类的私有属性和方法36
3.3.3受保护的属性和方法37
3.3.4多重继承与组合模式38
3.4多态特性40
3.4.1以迭代器为例来理解多态40
3.4.2可变参数与方法重载41
3.4.3整合使用多态和继承42
3.5模块、包以及第三方库43
3.5.1通过import重用现有模块中的功能43
3.5.2自定义包和使用包43
3.5.3引入并使用第三方库44
3.6本章小结45
第4章异常处理机制与文件读写46
4.1通过try…except…finally处理异常46
4.1.1处理异常的try…except从句46
4.1.2使用异常处理类47
4.1.3同时处理多个异常48
4.1.4在处理异常时引入else代码块49
4.1.5引入finally从句50
4.2raise与except的整合使用51
4.2.1通过raise抛出异常51
4.2.2自定义异常且与except整合使用51
4.3异常处理的实践经验52
4.3.1尽可能缩小try的代码块53
4.3.2用专业的异常处理类针对性地处理异常53
4.3.3拿到异常别忽视54
4.3.4合理确定异常的影响范围54
4.4在读写文件案例中使用异常机制55
4.4.1通过os.path获取目录和文件属性55
4.4.2以只读模式打开文件56
4.4.3逐行读取文件58
4.4.4通过write写文件59
4.4.5以添加的方式写文件59
4.4.6读写csv文件60
4.5本章小结61
第5章NumPy数组处理62
5.1NumPy库的基础数据结构：ndarray对象62
5.1.1通过array方法创建ndarray62
5.1.2ndarray的dtype属性63
5.1.3创建全0或全1的ndarray64
5.2NumPy库的常用操作65
5.2.1通过arange方法创建序列数组65
5.2.2针对ndarray的数学运算66
5.2.3常用的科学计算函数67
5.2.4常用的聚合统计函数68
5.2.5遍历ndarray数组69
5.3针对ndarray的索引和切片操作69
5.3.1索引操作69
5.3.2布尔索引与条件过滤70
5.3.3切片操作与共享内存70
5.3.4通过copy函数创建副本72
5.4本章小结72
第6章Pandas数据清洗73
6.1以一维方式存储数据的Series对象73
6.1.1Series的常规操作74
6.1.2创建并使用Series索引75
6.1.3获取Series里的切片数据76
6.1.4通过布尔Series获取满足条件的元素78
6.1.5遍历Series数据78
6.2以表格格式存储数据的DataFrame对象79
6.2.1DataFrame对象的常规用法79
6.2.2通过loc、iloc和ix提取数据81
6.2.3遍历DataFrame里的数据82
6.3面向DataFrame的常用数据分析方法82
6.3.1对DataFrame数据进行排序83
6.3.2以列为单位进行运算83
6.3.3增加和删除列84
6.3.4过滤和重设数据85
6.3.5在DataFrame中进行数据统计分析85
6.3.6衡量变量间关联程度的corr方法86
6.4Pandas与各类文件的交互87
6.4.1DataFrame数据与csv文件的相互转换87
6.4.2NaN与缺失值处理89
6.4.3DataFrame数据与Excel文件的相互转换90
6.4.4DataFrame数据与json文件的相互转换91
6.5本章小结92
第7章Matplotlib数据可视化93
7.1通过Matplotlib绘制各类图形93
7.1.1绘制折线图93
7.1.2绘图时的通用属性参数94
7.1.3绘制柱状图95
7.1.4绘制饼图97
7.1.5绘制直方图98
7.2设置坐标的技巧99
7.2.1设置x和y坐标标签文字并展示中文99
7.2.2设置坐标的范围100
7.2.3设置坐标的主刻度和次刻度101
7.2.4设置并旋转坐标刻度文字102
7.3增加可视化美观效果103
7.3.1设置图例104
7.3.2设置中文标题105
7.3.3设置网格效果106
7.4设置多图和子图效果107
7.4.1通过figure对象同时绘制多张图107
7.4.2通过add_subplot方法绘制子图108
7.4.3通过subplot方法绘制子图109
7.4.4子图共享x坐标轴110
7.4.5在大图里绘制子图112
7.5绘制高级图表113
7.5.1绘制散点图113
7.5.2绘制热图114
7.5.3绘制等值线图115
7.6通过mplot3d绘制三维图形116
7.6.1绘制三维曲线图116
7.6.2绘制三维散点图117
7.6.3绘制三维柱状图118
7.7本章小结119
第8章通过网络爬虫获取数据120
8.1和爬虫有关的HTTP120
8.1.1基于HTTP的请求处理流程120
8.1.2HTTP请求头包含操作系统和浏览器信息122
8.1.3Post和Get请求方法122
8.1.4HTTP常见的状态码122
8.2通过Urllib库获取网页信息123
8.2.1通过request爬取网页123
8.2.2设置超时时间124
8.2.3用URLError处理网络异常124
8.2.4设置header属性来模拟浏览器发送请求125
8.3通过BeautifulSoup提取页面信息125
8.3.1安装BeautifulSoup库125
8.3.2用Tag提取HTML元素和属性126
8.3.3用NavigableString提取元素值127
8.3.4用Comment提取注释127
8.3.5制定规则搜索指定的内容128
8.4通过正则表达式截取信息130
8.4.1查找指定字符串130
8.4.2用通用字符来模糊匹配130
8.4.3通过原子表来定义匹配规则131
8.4.4用findall按匹配规则截取内容132
8.5用Scrapy爬取博客园文章信息134
8.5.1通过Scrapy命令创建爬虫项目134
8.5.2明确爬取目标，制定爬取规则134
8.5.3在Item模块里定义数据模型136
8.5.4生成爬虫文件，定义爬取动作136
8.5.5在pipelines文件里定义数据存储方式137
8.5.6启动爬虫程序，观察运行效果138
8.6本章小结139
第9章数据分析的常用方法140
9.1准备并存储数据140
9.1.1用Pandas_datareader库获取数据140
9.1.2以csv和Excel格式存储数据141
9.1.3准备MySQL环境142
9.1.4在MySQL里存储数据142
9.1.5从数据表里读取数据145
9.2描述性统计146
9.2.1平均数、中位数和百分位数146
9.2.2用箱状图展示分位数147
9.2.3统计极差、方差和标准差148
9.3基于时间序列的统计方法148
9.3.1用rolling方法计算移动平均值148
9.3.2基于时间序列的自相关性分析149
9.3.3基于时间序列的偏自相关性分析151
9.3.4用热力图分析不同时间序列的相关性152
9.4概率分析方法与推断统计154
9.4.1分析收盘价，绘制小提琴图154
9.4.2用直方图来拟合正态分布效果155
9.4.3验证序列是否满足正态分布156
9.4.4参数估计方法157
9.4.5显著性验证158
9.5回归分析方法159
9.5.1构建一元线性回归模型159
9.5.2以多元线性回归模型预测股价162
9.6本章小结1

內容試閱：

如果你想快速地掌握Python数据分析和可视化方面的相关技术，以满足一般公司的开发需求，那么本书是很好的选择。本书根据大多数软件公司对Python数据分析和可视化的需求，面向Python初学者讲述爬虫、数据分析、数据可视化和机器学习等方面的技术和实践案例。
从内容体系上看，本书涵盖了Python数据分析和可视化的相关技术，包括Python语法、Python爬虫技术、基于NumPy和Pandas的大数据分析技术、基于Matplotlib的可视化技术和基于sklearn的机器学习技术等。
在讲解技术的同时给出丰富的案例，包括基于唐奇安通道、布林带通道和鳄鱼组线的股票分析案例，用Scrapy框架爬取二手房数据并进行可视化分析的案例，以及基于机器学习的手写体数字识别案例等，这些案例能有效地提高读者的学习兴趣。在这些案例中，不是割裂地讲解各个技能点，而是综合性地讲述爬虫、数据分析、数据可视化和机器学习等技术，从而让读者融会贯通地掌握Python数据分析和可视化的相关技能。
本书内容
本书共分13章，下面进行简要的说明。
第1～4章为基础篇。第1章讲述Python编程的基础知识；第2章讲述Python数据结构的相关知识点；第3章讲述基于Python的面向对象编程思想，包括封装、继承和多态的语法要点；第4章讲述Python异常处理机制和读写文件的技巧，并且在读写文件的案例中引入了异常处理机制的实践要点。
第5～7章为数据分析的工具篇。第5章讲述NumPy库的实践要点；第6章讲述Pandas库的用法；第7章讲述用Matplotlib库绘制可视化界面的技巧。这三个库被称为“数据分析三剑客”，学习这三章的内容能为进一步学习数据分析的案例打下扎实的基础。
第8、9章为数据分析高级技能篇。在第8章中，通过爬取技术博客的案例讲述基于Scrapy爬虫框架的实用技巧，读者不仅能了解通过Scrapy框架搭建爬虫项目的一般方法，还能掌握分析网页制定爬取规则的实用技巧；第9章讲述数据分析的常用方法，其中不仅讲述Python连接、操作数据库的相关技能，还结合Python语言通过箱状图、热力图、时间序列图和小提琴图等可视化效果讲述基于时间序列、概率分析、推断统计和回归分析等数学分析方法。
第10～13章为综合案例篇。在第10章的图书分析案例和第11章的二手房数据分析案例中，不仅给出用Scrapy爬虫框架爬取相关数据的实现代码，还在此基础上绘制柱状图、饼图和词云等可视化效果图；第12章的股票分析案例偏重于数据分析，根据MACD、CCI、唐奇安通道、布林带通道和鳄鱼组线等股票指标算法，计算并绘制相关指标图；第13章讲述基于sklearn库的机器学习相关实践，其中通过波士顿房价、鸢尾花、酒和手写体识别等案例综合运用线性回归分析、岭回归分析、SVM分类、KNN分类和逻辑回归等机器学习算法。
本书特点
本书编者具有多年大型Python数据分析应用系统的开发经验，还有Python数据分析和机器学习等方面的授课经验，所以不仅了解软件公司对Python程序员的普遍要求，还知道如何快速提升Python初学者的实战技能。本书的措辞和写作风格非常适合初学者：一方面，在讲解知识点时使用初学者易接受的语言；另一方面，讲解中包含大量从实际项目提炼出来的开发经验，能让读者快速掌握数据分析、可视化以及机器学习等方面的开发要点，满足读者的职业需求。
本书源代码、教学视频、PPT课件
为方便读者使用，本书提供了配书源代码、教学视频、PPT课件。本书配套资源可以登录机械工业出版社华章公司的网站（www.hzbook.com）下载，首先搜索到本书，然后在页面上的“资源下载”模块下载即可。如果在下载过程中遇到问题，可发邮件到booksaga@126.com，邮件主题为“Python爬虫、数据分析与可视化：工具详解与案例实战”。
本书在写作过程中，得到了夏非彼老师的大力支持，她提出了很多有益的建议，在此深表谢意。
虽然编者在写这本书的时候处处留意，字字斟酌，但限于水平，疏漏之处在所难免，恳请相关技术专家和读者不吝指正。
编者
2020年9月20日

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　大陸用户　\|　海外用户

	megBook.com.hk
Copyright © 2013 - 2024 （香港）大書城有限公司　 All Rights Reserved.