登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入   新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書

『簡體書』Python爬虫与反爬虫开发从入门到精通

書城自編碼: 3653360
分類:簡體書→大陸圖書→計算機/網絡程序設計
作者: 刘延林
國際書號(ISBN): 9787301322697
出版社: 北京大学出版社
出版日期: 2021-08-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 163.4

我要買

share:

** 我創建的書架 **
未登入.


新書推薦:
甲骨文丛书·沙漠之王:英美在中东的霸权之争
《 甲骨文丛书·沙漠之王:英美在中东的霸权之争 》

售價:HK$ 110.9
汗青堂丛书147·光明时代:中世纪新史
《 汗青堂丛书147·光明时代:中世纪新史 》

售價:HK$ 85.1
能成事的团队
《 能成事的团队 》

售價:HK$ 111.9
现代无人机鉴赏(珍藏版)
《 现代无人机鉴赏(珍藏版) 》

售價:HK$ 78.2
汗青堂丛书·晚清风云(4册套装):帝国的切口 清朝与中华传统文化 太平天国运动史 冲击与回应
《 汗青堂丛书·晚清风云(4册套装):帝国的切口 清朝与中华传统文化 太平天国运动史 冲击与回应 》

售價:HK$ 427.8
穿在身上的历史:世界服饰图鉴(增订珍藏版)
《 穿在身上的历史:世界服饰图鉴(增订珍藏版) 》

售價:HK$ 557.8
历史的严妆:解读道学阴影下的南宋史学(中华学术·有道)
《 历史的严妆:解读道学阴影下的南宋史学(中华学术·有道) 》

售價:HK$ 109.8
海外中国研究·江南:中国文雅的源流
《 海外中国研究·江南:中国文雅的源流 》

售價:HK$ 76.2

 

建議一齊購買:

+

HK$ 113.9
《机器学习数学基础(Python语言实现)》
+

HK$ 98.8
《Python网络爬虫框架Scrapy从入门到精通》
+

HK$ 106.7
《Python网络爬虫开发从入门到精通》
+

HK$ 93.2
《Python自动化测试实战》
+

HK$ 120.2
《TensorFlow深度学习实战大全》
+

HK$ 66.2
《Git从入门到精通》
編輯推薦:
学爬虫:知原理,抓数据,做分析,用自动化解放双手
会反爬:懂框架,会部署,见招拆招,攻防兼备
在攻与防的对立统一中寻求爬虫技术突破
內容簡介:
本书从零开始系统地介绍了Python网络爬虫与反爬虫的开发与实战技能,全书共分为4篇,具体内容安排如下。
第1篇:基础篇(第1~3章)。系统地讲解了Python爬虫与反爬虫开发环境的搭建、爬虫与反爬虫通用基础知识、Python编程基础。
第2篇:爬虫篇(第4~8章)。这部分讲解了网络爬虫的相关知识与技能,主要包括网络爬虫快速入门、XPath匹配网页数据、re正则匹配数据、WebSocket数据抓取、Scrapy爬虫框架应用与开发等。
第3篇:反爬虫篇(第9~16章)。这部分讲解了网络反爬虫的相关知识与技能,主要包括爬虫与反爬虫的区别与认识、反爬—Header信息校验、反爬—IP限制、反爬—动态渲染页面、反爬—文本混淆、反爬—特征识别、反爬—验证码识别、反爬—APP数据抓取等。
第4篇:项目实战篇(第17章)。本篇主要列举了4个案例,综合讲解Python爬虫与反爬虫项目的实战应用。
本书从零基础开始讲解,系统全面,案例丰富,注重实战,既适合Python程序员和爬虫爱好者阅读学习,也可以作为广大职业院校相关专业的教材或参考用书。础操作、图形处理基本操作、简单图形的绘制和对象的管理等内容。
關於作者:
刘延林,云镜团队创始人,拥有多年网络爬虫开发经验,著有《Python网络爬虫开发从入门到精通》,擅长Python网络爬虫、Web、数据挖掘与分析、网络安全、产品研发等领域。
目錄
目录
Contents
第1篇 基础篇
第1章 爬虫与反爬虫开发环境搭建 /2
1.1 Python 3环境搭建 /3
1.1.1 下载Python 3安装包 /3
1.1.2 安装Python /4
1.1.3 pip包管理工具 /6
1.2 PyCharm的安装与基本使用 /7
1.2.1 安装PyCharm /7
1.2.2 创建Python项目 /8
1.2.3 debug调试代码 /12
1.2.4 创建venv虚拟环境 /14
1.3 Tesseract-OCR /16
1.3.1 下载 /16
1.3.2 安装 /17
1.3.3 配置环境变量 /18
1.4 mitmproxy /18
1.4.1 下载 /19
1.4.2 安装 /20
1.4.3 安装SSL证书 /21
1.5 JDK 1.8 /22
1.5.1 下载JDK /22
1.5.2 安装 /22
1.5.3 测试是否安装成功 /23
本章小结 /24
第2章 爬虫与反爬虫通用基础知识 /25
2.1 网页基础 /26
2.1.1 网页的组成 /26
2.1.2 网页的类型 /28
2.2 网络传输协议 /28
2.2.1 认识HTTP /29
2.2.2 HTTPS /29
2.2.3 HTTP与HTTPS请求过程示例 /29
2.3 Session和Cookies /31
2.3.1 Cookie /31
2.3.2 Session /33
2.3.3 Session和Cookie的区别 /33
2.3.4 常见误区 /33
2.4 Nginx服务器 /34
2.4.1 Nginx信号 /34
2.4.2 反向代理 /35
2.4.3 Nginx中实现反向代理 /35
2.5 代理IP /36
2.5.1 原理 /36
2.5.2 分类 /37
2.5.3 获取途径 /37
2.6 HTTP接口概念 /40
2.7 新手问答 /40
本章小结 /41
第3章 Python编程基础 /42
3.1 Python的基础语法 /43
3.1.1 个Python程序 /43
3.1.2 运行程序 /43
3.1.3 注释 /46
3.1.4 行与缩进 /46
3.1.5 多行语句 /47
3.1.6 import 与 from...import导入模块 /48
3.1.7 变量 /48
3.2 基本数据类型 /49
3.2.1 Number /49
3.2.2 String /50
3.2.3 List /50
3.2.4 Tuple /52
3.2.5 Dictionary /52
3.2.6 Set /53
3.2.7 布尔类型 /54
3.3 流程控制 /55
3.3.1 条件控制 /55
3.3.2 循环 /56
3.3.3 range()函数 /58
3.3.4 break和continue语句 /58
3.3.5 pass /59
3.4 函数 /60
3.4.1 定义一个函数 /60
3.4.2 调用函数 /60
3.5 文件操作 /61
3.5.1 txt文件读写 /61
3.5.2 csv文件读写 /62
3.6 面向对象 /64
3.6.1 类 /64
3.6.2 类对象 /65
3.6.3 类方法 /66
3.6.4 继承 /67
3.7 多线程 /68
3.7.1 threading /68
3.7.2 多线程装饰器封装 /69
3.8 新手实训 /70
3.9 新手问答 /71
本章小结 /72
第2篇 爬虫篇
第4章 网络爬虫快速入门 /74
4.1 爬虫的基本结构及工作流程 /75
4.2 urllib网络请求库 /75
4.2.1 请求一个简单的网页 /75
4.2.2 设置请求超时 /78
4.2.3 使用data参数提交数据 /78
4.2.4 Request /79
4.3 requests网络请求库 /82
4.3.1 requests模块的安装 /82
4.3.2 请求个网页 /82
4.3.3 get和post请求 /84
4.3.4 参数提交 /86
4.4 urllib3网络请求库 /86
4.4.1 发起请求 /87
4.4.2 响应内容 /88
4.4.3 查询参数 /88
4.4.4 表单数据 /89
4.4.5 提交JSON数据 /89
4.5 Postman接口测试工具 /90
4.5.1 请求接口 /90
4.5.2 常用功能介绍 /93
4.6 新手实训 /95
4.7 新手问答 /95
本章小结 /96
第5章 XPath匹配网页数据 /97
5.1 安装XPath /98
5.2 XPath的基础语法 /98
5.3 在Python中使用XPath匹配数据 /99
5.3.1 根据class属性进行匹配 /100
5.3.2 根据id属性进行匹配 /101
5.3.3 根据name属性进行匹配 /102
5.4 XPath表达式技巧 /103
5.5 扩展补充知识点 /105
5.5.1 Selector /105
5.5.2 Beautiful Soup /106
5.6 新手实训 /107
5.7 新手问答 /109
本章小结 /109
第6章 re正则匹配数据 /110
6.1 re.compile函数 /111
6.2 re.match函数 /111
6.3 re.search函数 /113
6.4 re.match与re.search的区别 /114
6.5 检索和替换 /114
6.6 findall函数 /115
6.7 常见正则表达式写法 /116
6.8 新手实训 /117
6.9 新手问答 /119
本章小结 /120
第7章 WebSocket数据抓取 /121
7.1 WebSocket通信原理 /122
7.2 使用aioWebSocket获取数据 /122
7.2.1 安装AioWebSocket /123
7.2.2 分析WebSocket请求 /123
7.2.3 编写代码获取数据 /126
7.3 新手实训 /129
7.4 新手问答 /131
本章小结 /131
第8章 Scrapy爬虫框架应用与开发 /132
8.1 Scrapy框架的基本架构 /133
8.1.1 Scrapy的基本组件 /133
8.1.2 工作原理 /133
8.2 安装Scrapy /134
8.3 创建项目 /135
8.4 定义Item /135
8.5 编写个Spider /136
8.6 运行爬虫 /137
8.7 提取Item /137
8.8 在Shell中尝试Selector选择器 /138
8.9 提取数据 /139
8.10 使用Item /140
8.11 Item Pipeline /141
8.12 将Item写入JSON文件 /142
8.13 新手实训 /143
8.14 新手问答 /146
本章小结 /146
第3篇 反爬虫篇
第9章 爬虫与反爬虫 /148
9.1 爬虫知识的回顾与总结 /149
9.1.1 爬虫的爬取过程 /149
9.1.2 案例演示 /149
9.2 反爬虫的概念与定义 /154
本章小结 /155
第10章 反爬—Header信息校验 /156
10.1 User-Agent /157
10.1.1 如何应对User-Agent反爬 /157
10.1.2 User-Agent反爬原理 /161
10.2 Cookie校验 /162
10.2.1 如何应对Cookie反爬 /162
10.2.2 Cookie反爬原理 /163
10.3 Referer校验 /165
10.3.1 Referer的反爬原理 /165
10.3.2 应对方法 /165
10.4 签名校验 /166
10.4.1 签名反爬原理 /166
10.4.2 应对方法 /166
10.5 新手实训 /170
10.6 新手问答 /176
本章小结 /176
第11章 反爬—IP限制 /177
11.1 代理设置 /178
11.1.1 urllib代理设置 /178
11.1.2 requests代理设置 /179

11.2 代理池构建 /17911.2.1 获取IP /180
11.2.2 验证代理是否可用 /181
11.2.3 使用代理池 /182
11.3 搭建自己的代理服务器 /183
11.3.1 什么是ADSL /183
11.3.2 购买代理云主机 /183
11.3.3 测试拨号 /185
11.3.4 设置代理服务器 /188
11.3.5 动态获取IP /190
11.3.6 使用Python实现拨号 /192
11.4 使用Nginx实现封禁IP /194
11.5 新手问答 /195
本章小结 /196
第12章 反爬—动态渲染页面 /197
12.1 动态渲染案例介绍 /198
12.1.1 单击事件 /198
12.1.2 异步加载数据 /199
12.1.3 焦点事件 /200
12.2 常见应对动态渲染页面的解决办法 /201
12.3 使用Selenium爬取动态渲染页面 /201
12.3.1 安装Selenium库 /202
12.3.2 Selenium定位方法 /203
12.3.3 控制浏览器操作 /204
12.3.4 WebDriver常用方法 /206
12.3.5 其他常用方法 /207
12.3.6 鼠标键盘事件 /208
12.3.7 获取断言 /211
12.3.8 设置元素等待 /212
12.3.9 多表单切换 /214
12.3.10 下拉框选择 /215
12.3.11 调用JavaScript代码 /216
12.3.12 窗口截图 /217
12.3.13 无头模式 /217
12.4 获取浏览器Network请求和响应 /218
12.4.1 Browsermob-Proxy /219
12.4.2 获取接口返回数据 /220
12.4.3 二级代理 /222
12.5 新手实训 /222
12.6 新手问答 /224
本章小结 /225
第13章 反爬—文本混淆 /226
13.1 图片伪装反爬 /227
13.1.1 飞常准航班动态信息 /227
13.1.2 分析网站 /228
13.1.3 应对方案 /230
13.1.4 代码实现 /230
13.2 CSS偏移反爬 /231
13.2.1 去哪儿网 /231
13.2.2 分析网站 /232
13.2.3 代码实现 /235
13.3 编码映射反爬 /238
13.3.1 大众点评网 /238
13.3.2 分析网站 /239
13.3.3 代码实现 /240
13.4 字体反爬 /242
13.4.1 美团手机版网页 /242
13.4.2 分析网站 /243
13.4.3 代码实现 /247
13.5 新手实训 /248
13.6 新手问答 /252
本章小结 /252
第14章 反爬—特征识别 /253
14.1 浏览器指纹 /254
14.1.1 浏览器指纹实现技术有哪些 /254
14.1.2 防止浏览器指纹检测方法 /254
14.1.3 防客户端追踪措施 /255
14.2 WebDriver驱动识别 /255
14.2.1 WebDriver识别示例 /255
14.2.2 WebDriver识别原理 /257
14.2.3 如何绕过被识别 /259
14.3 使用mitmproxy /262
14.3.1 认识mitmproxy /262
14.3.2 工作原理 /263
14.3.3 使用mitmproxy绕过驱动检测 /263
14.4 网页精灵 /269
14.4.1 安装网页精灵 /270
14.4.2 网页精灵的简单使用 /271
14.5 新手实训 /275
14.6 新手问答 /277
本章小结 /277
第15章 反爬—验证码识别 /278
15.1 普通图形验证码 /279
15.1.1 识别图形验证码的解决方案 /279
15.1.2 OCR识别图形验证码 /279
15.1.3 采用第三方打码平台识别 /280
15.2 滑动验证码 /281
15.2.1 分析思路 /282
15.2.2 使用Selenium实现模拟淘宝登录的拖动验证 /282
15.3 滑动拼图验证码 /285
15.3.1 分析思路 /285
15.3.2 使用代码实现滑动 /285
15.3.3 运行测试 /291
15.4 新手实训 /292
15.5 新手问答 /294
本章小结 /295
第16章 反爬—APP数据抓取 /296
16.1 APP的抓包分析 /297
16.1.1 Fiddler抓包工具 /297
16.1.2 Fiddler设置 /297
16.1.3 使用Fiddler抓包猎聘APP测试 /299
16.1.4 Charles抓包工具 /300
16.1.5 Charles设置 /301
16.1.6 Charles抓包 /304
16.1.7 Charles分析 /307
16.1.8 Charles重发 /309
16.2 Appium自动化 /310
16.2.1 安装Appium /311
16.2.2 Android开发环境配置 /312
16.2.3 启动APP /313
16.2.4 appPackage和appActivity参数获取方法 /322
16.3 APK安装包反编译 /324
16.3.1 准备工作 /324
16.3.2 反编译得到源码 /324
16.4 APK反编译知识补充 /327
16.5 新手实训 /327
16.6 新手问答 /332
本章小结 /332
第4篇 实战篇
第17章 项目实战 /334
17.1 土地市场网——地块公示 /335
17.1.1 分析网站 /336
17.1.2 代码实现 /342
17.1.3 实例总结 /348
17.2 纽约工商数据采集 /348
17.2.1 分析网站 /348
17.2.2 编写代码爬取 /351
17.2.3 实例总结 /356
17.3 携程旅行火车票票价数据采集 /356
17.3.1 分析网站 /358
17.3.2 编写代码爬取 /360
17.3.3 实例总结 /361
17.4 智联招聘数据采集 /361
17.4.1 分析网站 /362
17.4.2 编写代码爬取 /365
17.4.3 实例总结 /367
附录A 爬虫法律法规 /368
附录B 实验环境的搭建方法及说明 /371
附录C Python常见面试题精选 /375
內容試閱
Python 爬虫与反爬虫
见招拆招,攻防兼备
关于本书
在大数据(简称DT)时代,尤其是人工智能浪潮的兴起,爬虫技术成了当下不可或缺的技术,被广泛应用于金融、房地产、科技、贸易、制造、互联网等相关行业领域中,对企业的生产、经营、管理及决策产生了很大的正向作用。在大数据架构中,数据的收集存储与统计分析占据了极为重要的地位,而数据的收集很大程度上依赖于爬虫的爬取,所以网络爬虫也逐渐变得越来越火爆。近两年,在各种社交媒体上经常出现一些培训机构宣传推广相关培训课程的广告,证明了Python在爬虫领域的火爆程度。
从就业的角度来说,企业日益增长的数据需求创造了非常多的爬虫岗位,而爬虫工程师目前属于紧缺人才,并且薪资待遇普遍较高。因此,想成为优秀的网络爬虫工程师,深层次地掌握这门技术,对于就业来说是非常有利的。
在众多的网络爬虫工具中,Python 以其使用简单、功能强大等优点成为网络爬虫开发常用的工具。与其他语言相比,Python 是一门非常适合网络爬虫开发的编程语言,其拥有大量的框架和库,可以轻松实现网络爬虫功能。Python 爬虫可以做的事情很多,如广告过滤、Ajax 数据爬取、动态渲染页面爬取、APP数据抓取、使用代理爬取、模拟登录爬取、数据存取等,Python 爬虫还可以用于数据分析,在数据的抓取方面可以说作用巨大!
这是市面上一本非常专业的全面讲解Python爬虫与反爬虫技术的图书,让你深入理解网络爬虫与反爬虫原理、技术与开发经验,在应用中“见招拆招,攻防兼备”,可以说是爬虫工程师从业必读宝典!

本书特点
本书力求简单、实用,坚持以实例为主,理论为辅的路线。全书共分17章,从环境搭建、 Python 基础、爬虫开发常用网络请求库,到爬虫框架的使用和各种常见反爬虫技术应对及其原理阐述,基本涵盖了爬虫项目开发阶段的整个生命周期。本书内容有以下几个特点。
(1)避免高深的理论,每一章均以实例为主,读者参考源码修改实例,就能得到自己想要的结果。目的是让读者看得懂、学得会、做得出。
(2)常见实训与问答几乎每章都有配备,以让读者尽快巩固所学知识,从而能够举一反三。
(3)内容系统全面,实战应用性强。适合零基础读者和有一定基础的初级爬虫工程师学习,然后逐步掌握相关知识技能,从而达到从入门到精通的学习效果。
(4)安排了丰富的实战案例,以增强读者的实际动手能力,从而达到学以致用的目的。

写给读者的建议
如果您是零基础,建议先从第1章的环境搭建和第3章的Python 基础开始学习。因为学习爬虫需要对Python的基础语法和结构有深刻的理解和熟练应用,这样才能在后面的内容学习中达到事半功倍的效果。读者需要注意的是,本书在初稿之前所使用的 Python 版本为 3.8.x。
写爬虫的难点不是拿下数据,而是在于在实际工作中整合各种需求业务场景,实现爬虫合理的任务调度、性能优化等。所以在阅读本书时,建议读者着重于爬取思路和逻辑方面的思考,不要太过于纠结书中给出的示例代码。针对同一个网站或APP,可以尝试采用不同的策略和解决办法去爬取,观察每一种方法的优缺点并进行总结和积累。
当今的反爬虫技术每天都在更新迭代,将来的爬虫技术也会越来越难。但是万变不离其宗,写爬虫是个研究性的工作,需要每天不断地学习和研究各种案例,希望读者多思考,勤动手。对于书中给出的一些案例代码,读者在阅读本书时可能会发现所涉及的目标网站因更新升级导致案例源码失效的问题,此时不必惊慌,可通过本书所提供的渠道联系作者获取的案例源码或者与之相关的学习资料。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.