新書推薦:
《
微观经济学(第三版)【2024诺贝尔经济学奖获奖者作品】
》
售價:HK$
159.9
《
Python贝叶斯深度学习
》
售價:HK$
91.8
《
文本的密码:社会语境中的宋代文学
》
售價:HK$
69.0
《
启微·狂骉年代:西洋赛马在中国
》
售價:HK$
80.5
《
有趣的中国古建筑
》
售價:HK$
68.8
《
十一年夏至
》
售價:HK$
78.2
《
如何打造成功的商业赛事
》
售價:HK$
91.9
《
万千教育学前·透视学前儿童的发展:解析幼儿教师常问的那些问题
》
售價:HK$
59.8
|
編輯推薦: |
这是一个数据信息时代,每分每秒都在产生数不尽的数据。这些数据如何获取,有什么用途,如何与前沿的深度学习、机器学习等相结合,如何为我们所用,尽在本书中。
|
內容簡介: |
本书从架构、业务、技术三个维度深入浅出地介绍了大数据处理领域端到端的知识。主要内容包括三部分:第一部分从数据的产生、采集、计算、存储、消费端到端的角度介绍大数据技术的起源、发展、关键技术点和未来趋势,结合生动的业界最新产品,以及学术界最新的研究方向和成果,让深奥的技术浅显易懂;第二部分从业务和技术角度介绍实际案例,让读者理解大数据的用途及技术的本质;第三部分介绍大数据技术不是孤立的,讲解如何与前沿的云技术、深度学习、机器学习等相结合。
|
關於作者: |
朱洁,2008年加入华为,具有8年大数据研发管理经验,现任华为大数据服务首席规划师。专注于大数据服务平台建设、规划和实践应用,同时参与多项企业级大数据项目解决方案的规划、设计和实施工作,在深化大数据行业落地方面有诸多实践经验,对解读大数据垂直行业的技术创新与开发有诸多独到的见解和心得。
|
目錄:
|
目录
第一部分大数据的本质
第1章大数据是什么2
1.1大数据导论2
1.1.1大数据简史2
1.1.2大数据现状3
1.1.3大数据与BI3
1.2企业数据资产4
1.3大数据挑战5
1.3.1成本挑战6
1.3.2实时性挑战6
1.3.3安全挑战6
1.4小结6
第2章运营商大数据架构7
2.1架构驱动的因素7
2.2大数据平台架构7
2.3平台发展趋势8
2.4小结8
第3章运营商大数据业务9
3.1运营商常见的大数据业务9
3.1.1SQM(运维质量管理)9
3.1.2CSE(客户体验提升)9
3.1.3MSS(市场运维支撑)10
3.1.4DMP(数据管理平台)10
3.2小结11
第二部分大数据技术
第4章数据获取14
4.1数据分类14
4.2数据获取组件14
4.3探针15
4.3.1探针原理15
4.3.2探针的关键能力16
4.4网页采集26
4.4.1网络爬虫26
4.4.2简单爬虫Python代码示例32
4.5日志收集33
4.5.1Flume33
4.5.2其他日志收集组件47
4.6数据分发中间件47
4.6.1数据分发中间件的作用47
4.6.2Kafka架构和原理47
4.7小结82
第5章流处理83
5.1算子83
5.2流的概念83
5.3流的应用场景84
5.3.1金融领域84
5.3.2电信领域85
5.4业界两种典型的流引擎85
5.4.1Storm85
5.4.2Spark Streaming89
5.4.3融合框架102
5.5CEP108
5.5.1CEP是什么108
5.5.2CEP的架构109
5.5.3Esper110
5.6实时结合机器学习110
5.6.1Eagle的特点111
5.6.2Eagle概览111
5.7小结116
第6章交互式分析117
6.1交互式分析的概念117
6.2MPP DB技术118
6.2.1MPP的概念118
6.2.2典型的MPP数据库121
6.2.3MPP DB调优实战131
6.2.4MPP DB适用场景162
6.3SQL on Hadoop163
6.3.1Hive163
6.3.2Phoenix165
6.3.3Impala166
6.4大数据仓库167
6.4.1数据仓库的概念167
6.4.2OLTPOLAP对比168
6.4.3大数据场景下的同与不同168
6.4.4查询引擎169
6.4.5存储引擎170
6.5小结171
第7章批处理技术172
7.1批处理技术的概念172
7.2MPP DB技术172
7.3MapReduce编程框架173
7.3.1MapReduce起源173
7.3.2MapReduce原理173
7.3.3Shuffle174
7.3.4性能差的主要原因177
7.4Spark架构和原理177
7.4.1Spark的起源和特点177
7.4.2Spark的核心概念178
7.5BSP框架217
7.5.1什么是BSP模型217
7.5.2并行模型介绍218
7.5.3BSP模型基本原理220
7.5.4BSP模型的特点222
7.5.5BSP模型的评价222
7.5.6BSP与MapReduce对比222
7.5.7BSP模型的实现223
7.5.8Apache Hama简介223
7.6批处理关键技术227
7.6.1CodeGen227
7.6.2CPU亲和技术228
7.7小结229
第8章机器学习和数据挖掘230
8.1机器学习和数据挖掘的联系与区别230
8.2典型的数据挖掘和机器学习过程231
8.3机器学习概览232
8.3.1学习方式232
8.3.2算法类似性233
8.4机器学习&数据挖掘应用案例235
8.4.1尿布和啤酒的故事235
8.4.2决策树用于电信领域故障快速定位236
8.4.3图像识别领域236
8.4.4自然语言识别238
8.5交互式分析239
8.6深度学习240
8.6.1深度学习概述240
8.6.2机器学习的背景241
8.6.3人脑视觉机理242
8.6.4关于特征244
8.6.5需要有多少个特征245
8.6.6深度学习的基本思想246
8.6.7浅层学习和深度学习246
8.6.8深度学习与神经网络247
8.6.9深度学习的训练过程248
8.6.10深度学习的框架248
8.6.11深度学习与GPU255
8.6.12深度学习小结与展望256
8.7小结257
第9章资源管理258
9.1资源管理的基本概念258
9.1.1资源调度的目标和价值258
9.1.2资源调度的使用限制及难点258
9.2Hadoop领域的资源调度框架259
9.2.1YARN259
9.2.2Borg260
9.2.3Omega262
9.2.4本节小结263
9.3资源分配算法263
9.3.1算法的作用263
9.3.2几种调度算法分析263
9.4数据中心统一资源调度271
9.4.1Mesos Marathon架构和原理271
9.4.2Mesos Marathon小结283
9.5多租户技术284
9.5.1多租户概念284
9.5.2多租户方案284
9.6基于应用描述的智能调度287
9.7Apache Mesos架构和原理288
9.7.1Apache Mesos背景288
9.7.2Apache Mesos总体架构288
9.7.3Apache Mesos工作原理290
9.7.4Apache Mesos关键技术295
9.7.5Mesos与YARN比较304
9.8小结305
第10章存储是基础306
10.1分久必合,合久必分306
10.2存储硬件的发展306
10.2.1机械硬盘的工作原理306
10.2.2SSD的原理307
10.2.33DXPoint309
10.2.4硬件发展小结309
10.3存储关键指标309
10.4RAID技术309
10.5存储接口310
10.5.1文件接口311
10.5.2裸设备311
10.5.3对象接口312
10.5.4块接口316
10.5.5融合是趋势328
10.6存储加速技术328
10.6.1数据组织技术328
10.6.2缓存技术335
10.7小结336
第11章大数据云化337
11.1云计算定义337
11.2应用上云337
11.2.1Cloud Native概念338
11.2.2微服务架构338
11.2.3Docker配合微服务架构342
11.2.4应用上云小结348
11.3大数据上云348
11.3.1大数据云服务的两种模式348
11.3.2集群模式AWSEMR349
11.3.3服务模式Azure Data Lake Analytics352
11.4小结354
第三部分大数据文化
第12章大数据技术开发文化356
12.1开源文化356
12.2DevOps理念356
12.2.1Development和Operations的组合357
12.2.2对应用程序发布的影响357
12.2.3遇到的问题358
12.2.4协调人358
12.2.5成功的关键359
12.3速度远比你想的重要359
12.4小结361
|
內容試閱:
|
前 言
大数据这几年真的很火,于是有越来越多的人开始学习大数据技术。很多人会误以为大数据是一门技术,其实不然,大数据更多的是一门市场宣传语言,也可以理解为一种思考方式。从技术角度来看,大数据是一系列技术的组合,所以真正全面掌握大数据技术也是一件很困难的事情。编写这本书的初衷就是总结这些年的工作和学习经验,希望可以分享给更多人,同时对自己而言也是一个提高、总结和升华的过程。
总的来说,本书围绕一个通用技术栈来组织章节,主要聚焦大数据平台的一些知识。主要分为三部分。
第一部分:第1~3章,主要讲述大数据的本质、运营商大数据的架构和一些基本的业务知识。
?第1章:阐述大数据的本质和面临的挑战。
?第2章:概述大数据架构及背后的驱动因素,以及未来发展的趋势。
?第3章:介绍运营商领域的业务,让读者对大数据能做什么有一个直观的感受。
第二部分:第4~11章,围绕大数据平台技术栈来阐述数据获取、处理、分析和应用平台涉及的技术。
?第4章:介绍数据获取涉及的探针、爬虫、日志采集、数据分发中间件等技术。
?第5章:介绍流式数据处理引擎、CEP、流式应用。
?第6章:介绍交互式分析技术、MPP DB、热门的SQL on Hadoop技术。
?第7章:介绍批处理技术、Spark,以及大规模机器学习的BSP技术等。
?第8章:探讨机器学习、深度学习相关技术。
?第9章:统一资源管理是趋势,本章介绍资源管理的核心技术和算法。
?第10章:存储是基础,本章介绍存储的关键技术。
?第11章:探讨大数据技术怎么云化,以及关键技术是什么。
第三部分:第12章,技术和文化息息相关,技术影响文化,文化影响技术。
第12章:介绍大数据开发文化、开源、DevOps,探讨理念和文化对技术的冲击。
由于编者水平有限,书中疏漏之处在所难免,敬请谅解。
最后以乔布斯的经典名句结尾:Stay hungry,Stay foolish。
朱 洁
2016年5月于深圳
|
|