新書推薦:
《
全球化的黎明:亚洲大航海时代
》
售價:HK$
109.8
《
危局
》
售價:HK$
84.0
《
穿裙子的士:叶嘉莹传
》
售價:HK$
53.8
《
肌肤会说话 : 听懂自己肌肤的语言,呵护肌肤
》
售價:HK$
98.6
《
财富方程式
》
售價:HK$
77.3
《
知识社会史(下卷):从《百科全书》到“在线百科”
》
售價:HK$
99.7
《
我读巴芒:永恒的价值
》
售價:HK$
132.2
《
你漏财了:9种逆向思维算清人生这本账
》
售價:HK$
55.8
|
編輯推薦: |
如何在大数据时代获得实时的数据信息,分析挖掘、提取出有价值的信息,并以直观清晰的图形表示出关键的数量关系和概念,是一个值得研究的问题。本书通过数据抓取篇(如何获得数据信息)、数据分析篇(分析挖掘,提取出有价值的信息)、数据可视化篇(以直观清晰的图形表示出关键的数量关系和概念)详细描述数据抓取、分析、展示的整个流程,每一篇自成一体,可以单独学习掌握。
|
內容簡介: |
如何在大数据时代获得实时的数据信息,分析挖掘、提取出有价值的信息,并以直观清晰的图形表示出关键的数量关系和概念,是一个值得研究的问题。本书通过数据抓取篇(如何获得数据信息)、数据分析篇(分析挖掘,提取出有价值的信息)、数据可视化篇(以直观清晰的图形表示出关键的数量关系和概念)详细描述数据抓取、分析、展示的整个流程,每一篇自成一体,可以单独学习掌握。
|
關於作者: |
2011年7月毕业于哈尔滨工业大学计算机科学与技术学院,计算机应用技术专业,获得工学博士学位。2011年8月至今,哈尔滨商业大学计算机与信息工程学院,计算机科学与技术专业教师,讲师,主教课程:本科专业课《操作系统》,《专业英语》,研究生《形式语言与自动机》,《大数据技术基础》。2014年获得哈尔滨商业大学优秀教师称号。
|
目錄:
|
目录
第1章 Python基础1 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!
11 Python安装1 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!
12 安装pip 6 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
13 如何查看帮助7 !!!!!!!!!!!!!!!!!!!!!!!!!!!!
14 第一个程序10 !!!!!!!!!!!!!!!!!!!!!!!!!!!!
15 文件操作25 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!
16 循环28 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
17 异常30 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
18 元组30 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
19 列表32 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
110 字典36 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
111 集合38 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
112 随机数39 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
113 enumerate的使用40 !!!!!!!!!!!!!!!!!!!!!!!!!!
114 第二个例子41 !!!!!!!!!!!!!!!!!!!!!!!!!!!!
第2章 字符串解析46 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!
21 常用函数46 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!
22 正则表达式50 !!!!!!!!!!!!!!!!!!!!!!!!!!!!
23 BeautifulSoup 55 !!!!!!!!!!!!!!!!!!!!!!!!!!!!
24 json结构62 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
第3章 单机数据抓取77 !!!!!!!!!!!!!!!!!!!!!!!!!!!!
31 单机顺序抓取77 !!!!!!!!!!!!!!!!!!!!!!!!!!!
32 requests 107 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
33 并发和并行抓取117 !!!!!!!!!!!!!!!!!!!!!!!!!!
第4章 分布式数据抓取137 !!!!!!!!!!!!!!!!!!!!!!!!!!!
41 RPC的使用138 !!!!!!!!!!!!!!!!!!!!!!!!!!!!
42 Celery系统145 !!!!!!!!!!!!!!!!!!!!!!!!!!!!
第5章 全能的Selenium 159 !!!!!!!!!!!!!!!!!!!!!!!!!!
Ⅴ
51 Selenium单机159 !!!!!!!!!!!!!!!!!!!!!!!!!!!
52 Selenium分布式抓取178 !!!!!!!!!!!!!!!!!!!!!!!!
53 Linux无图形界面使用Selenium 188 !!!!!!!!!!!!!!!!!!!
第6章 神秘的Tor 191 !!!!!!!!!!!!!!!!!!!!!!!!!!!!
61 抓取时IP封锁的问题191 !!!!!!!!!!!!!!!!!!!!!!!!
62 Tor的安装与使用192 !!!!!!!!!!!!!!!!!!!!!!!!!
63 Tor多线程197 !!!!!!!!!!!!!!!!!!!!!!!!!!!!
64 Tor与Selenium结合205 !!!!!!!!!!!!!!!!!!!!!!!!
第7章 抓取常见问题210 !!!!!!!!!!!!!!!!!!!!!!!!!!!!
71 Flash 210 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
72 桌面程序211 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!
73 U盘213 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
74 二级三级页面214 !!!!!!!!!!!!!!!!!!!!!!!!!!!
75 图片的处理214 !!!!!!!!!!!!!!!!!!!!!!!!!!!!
76 App数据抓取214 !!!!!!!!!!!!!!!!!!!!!!!!!!!
第8章 监控框架221 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
81 框架说明223 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!
82 监控系统实例225 !!!!!!!!!!!!!!!!!!!!!!!!!!!
第9章 拥抱大数据229 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!
91 Hadoop生态圈229 !!!!!!!!!!!!!!!!!!!!!!!!!!!
92 Cloudera环境搭建231
|
內容試閱:
|
大数据技术是当前工程和科学技术领域研究的热点。数据科学研究通常包括四个主要环节,即数据获取、数据存储、数据分析及数据可视化。本书主要聚焦数据获取环节。这是其他环节的基础。及时准确地获得丰富详实的数据,可为后续工作奠定坚实的基础,并提高分析结论的可信性和可靠性。
互联网的开放性为数据的获取带来了极大的便利。本书基于Python的数据抓取技术,主要介绍了如何快速准确地从网络上获得所需的数据,构建满足要求的数据集或大数据集。Python语言是一种通用编程语言,可以应用于各种编程领域,在数据科学领域也是一种十分热门的语言。本书使用Python作为数据抓取技术的实现语言,利用Python丰富的模块支持和语言特性,解决了绝大部分数据抓取中经常会遇到的问题。为了使不了解这门语言的读者快速上手,在第1章中介绍了阅读本书所需的Python语言基础知识。
本书介绍了数据抓取涉及的各类技术问题和解决方法,并按章节进行组织,每章内容基本独立,可使读者在遇到问题时能够快速地进行问题定位。书中的内容侧重于将已有的成熟理论原理和流行框架应用于数据抓取实际问题的解决中,在编写过程中,只侧重介绍应用于数据抓取时的应用方式,并未对某些原理和框架进行详细的描述,感兴趣的读者可以进一步查找相关文献和资料来加深对概念和理论的理解。实际上,阅读时,读者可通过运行书中的实例代码,看到现象后再回头去分析,有助于更好地理解相关的概念和原理,为进一步的研究打下基础。
本书主要面向初学者,读者可基于书中的运行实例进行改造,设计出符合自己要求的数据抓取程序。本书可以迅速用于实战,可供相关专业工程技术人员和高校本科生阅读参考。
如果读者阅读中发现问题,请及时与我们联系,希望大家多多批评指正。
编著者
|
|