新書推薦:
《
爱丁堡古罗马史-罗马城的起源和共和国的崛起
》
售價:HK$
76.8
《
自伤自恋的精神分析
》
售價:HK$
52.8
《
大宋悬疑录:貔貅刑
》
售價:HK$
74.8
《
不被大风吹倒
》
售價:HK$
65.9
《
人生解忧:佛学入门四十讲
》
售價:HK$
107.8
《
东野圭吾:分身(东野圭吾无法再现的双女主之作 奇绝瑰丽、残忍又温情)
》
售價:HK$
64.9
《
浪潮将至
》
售價:HK$
86.9
《
在虚无时代:与马克斯·韦伯共同思考
》
售價:HK$
57.2
|
內容簡介: |
本书针对愿意加入大数据行业的初学者量身定做,以简练风趣的语言介绍了大数据程核心技术及相关案例。内容包括了数据的基本概念、Hadoop的安装与配置、HDFS、基于Hadoop3的HDFS高可用、Zookeeper、MapReduce、YARN、Sqoop、KafKa、Redis,每个知识点配有可运行的案例,同时结合企业实际案例,让读者能够掌握从大数据环境搭建到大数据核心技术,并且进一步熟悉企业案例的分析及开发过程,从而轻松进入到大数据领域。本书实用性强,非常适合Hadoop大数据分析入门读者阅读,也适合相关院校作为大数据分析与挖掘的教材使用。
|
關於作者: |
温春水 毕业于中国人民大学,获硕士学位。历任森途国信新工科研究院院长、大唐网络和三点一刻大数据技术总监,负责大数据技术架构。12年以上的IT从业经验,其中从事IT培训超过5年,直接授课学员超过3万人。受邀为燕山石化和中国石油等企业完成Python及大数据技术等企业内训;受聘面向哈尔滨工业大学、南开大学、天津大学、华南农业大学、山东科技大学、北京交通大学、西安交通大学、天津师范大学和北京航空航天大学等高校的本科生及研究生讲授项目管理、需求分析、软件体系设计和项目开发等课程。
毕洁馨 亚信科技高级开发工程师。参与过北京联通看板中心及专线透明化建设,另外还参与过相关公司的门店客流分析平台和分布式网络爬虫等多个项目的开发工作。目前致力于大数据和人工智能方向的前沿技术研究。
|
目錄:
|
前言
第1篇Hadoop基础知识
第1章初识Hadoop2
1.1大数据初探2
1.1.1大数据技术2
1.1.2大数据技术框架3
1.1.3大数据的特点3
1.1.4大数据在各个行业中的应用4
1.1.5大数据计算模式4
1.1.6大数据与云计算、物联网的关系4
1.2Hadoop简介5
1.2.1Hadoop应用现状6
1.2.2Hadoop简介与意义6
1.3小结6
第2章Hadoop的安装与配置7
2.1虚拟机的创建7
2.2安装Linux系统10
2.3配置网络信息11
2.4克隆服务器12
2.5SSH免密码登录13
2.6安装和配置JDK15
2.6.1上传安装包15
2.6.2安装JDK16
2.6.3配置环境变量16
2.7Hadoop环境变量配置16
2.7.1解压缩Hadoop压缩包17
2.7.2配置Hadoop的bin和sbin文件夹到环境变量中17
2.7.3修改etchadoophadoop-env.sh17
2.8Hadoop分布式安装17
2.8.1伪分布式安装17
2.8.2完全分布式安装19
2.9小结21
第3章Hadoop分布式文件系统22
3.1DFS介绍22
3.1.1什么是DFS22
3.1.2DFS的结构22
3.2HDFS介绍23
3.2.1HDFS的概念及体系结构23
3.2.2HDFS的设计23
3.2.3HDFS的优点和缺点24
3.2.4HDFS的执行原理24
3.2.5HDFS的核心概念25
3.2.6HDFS读文件流程27
3.2.7HDFS写文件流程28
3.2.8Block的副本放置策略29
3.3Hadoop中HDFS的常用命令30
3.3.1对文件的操作30
3.3.2管理与更新31
3.4HDFS的应用31
3.4.1基于Shell的操作31
3.4.2基于Java API的操作33
3.4.3创建文件夹34
3.4.4递归显示文件34
3.4.5文件上传35
3.4.6文件下载35
3.5小结36
第4章基于Hadoop 3的HDFS高可用37
4.1Hadoop 3.x的发展37
4.1.1Hadoop 3新特性37
4.1.2Hadoop 3 HDFS集群架构38
4.2Hadoop 3 HDFS完全分布式搭建39
4.2.1安装JDK40
4.2.2配置JDK环境变量40
4.2.3配置免密码登录40
4.2.4配置IP和主机名字映射关系41
4.2.5SSH免密码登录设置41
4.2.6配置Hadoop 3.1.042
4.3什么是HDFS高可用47
4.3.1HDFS高可用实现原理47
4.3.2HDFS高可用实现48
4.4搭建HDFS高可用50
4.4.1配置ZooKeeper50
4.4.2配置Hadoop配置文件52
4.4.3将配置文件复制到其他节点上54
4.4.4启动JN节点54
4.4.5格式化55
4.4.6复制元数据到node2节点上55
4.4.7格式化ZKFC55
4.4.8启动集群56
4.4.9通过浏览器查看集群状态56
4.4.10高可用测试57
4.5小结58
第2篇Hadoop核心技术
第5章Hadoop的分布式协调服务——ZooKeeper60
5.1ZooKeeper的核心概念60
5.1.1Session会话机制60
5.1.2数据节点、版本与Watcher的关联61
5.1.3ACL策略61
5.2ZooKeeper的安装与运行61
5.3ZooKeeper服务器端的常用命令63
5.4客户端连接ZooKeeper的相关操作64
5.4.1查看ZooKeeper常用命令64
5.4.2connect命令与ls命令65
5.4.3create命令——创建节点65
5.4.4get命令——获取数据与信息66
5.4.5set命令——修改节点内容66
5.4.6delete命令——删除节点67
5.5使用Java API访问ZooKeeper67
5.5.1环境准备与创建会话实例68
5.5.2节点创建实例69
5.5.3Java API访问ZooKeeper实例70
5.6小结73
第6章分布式离线计算框架——MapReduce74
6.1MapReduce概述74
6.1.1MapReduce的特点74
6.1.2MapReduce的应用场景75
6.2MapReduce执行过程76
6.2.1单词统计实例76
6.2.2MapReduce执行过程77
6.2.3MapReduce的文件切片Split77
6.2.4Map过程和Reduce过程78
6.2.5Shuffle过程78
6.3MapReduce实例79
6.3.1WordCount本地测试实例79
6.3.2ETL本地测试实例84
6.4温度排序实例86
6.4.1时间和温度的封装类MyKey.Java87
6.4.2Map任务MyMapper.java88
6.4.3数据分组类MyGroup.Java89
6.4.4温度排序类MySort.java89
6.4.5数据分区MyPartitioner.java90
6.4.6Reducer任务MyReducer.java90
6.4.7主函数RunJob.java91
6.5小结94
第7章Hadoop的集群资源管理系统——YARN95
7.1为什么要使用YARN95
7.2YARN的基本架构96
7.2.1ResourceManager进程96
7.2.2ApplicationMaster和NodeManager97
7.3YARN工作流程97
7.4YARN搭建98
7.5小结100
第8章Hadoop的数据仓库框架——Hive101
8.1Hive的理论基础101
8.1.1什么是Hive101
8.1.2Hive和数据库的异同102
8.1.3Hive设计的目的与应用104
8.1.4Hive的运行架构104
8.1.5Hive的执行流程105
8.1.6Hive服务106
8.1.7元数据存储Metastore106
8.1.8Embedded模式107
8.1.9Local模式108
8.1.10Remote模式109
8.2Hive的配置与安装109
8.2.1安装MySQL110
8.2.2配置Hive112
8.3Hive表的操作113
8.3.1创建Hive表114
8.3.2导入数据114
8.4表的分区与分桶115
8.4.1表的分区115
8.4.2表的分桶117
8.5内部表与外部表118
8.5.1内部表119
8.5.2外部表119
8.6内置函数与自定义函数121
8.6.1内置函数实例121
|
內容試閱:
|
随着互联网的发展,人们日常工作和生活中产生的数据越来越多,伴随着信息的爆炸,大数据应运而生。分布式集群对大量数据的存储和分析处理有极大优势,因此Hadoop的各种技术得到了广泛应用和普及。大数据项目的开发除了需要扎实的理论基础外,还需要掌握Hadoop的搭建环境和运行部署方法,这样才能在大数据技术领域有更强的竞争力和职业发展前景。
目前市场上关于Hadoop的原理介绍和环境搭建的图书不少,但是真正从实战出发,通过“理论讲解→环境搭建→项目案例实战”这种符合初学者学习规律的科学编排体系的图书却不多。本书便是基于这一编排体系而写,以实战为主旨,通过Hadoop的14个基础组件的相关模块和4个完整的项目实战案例,让读者在理解大数据原理的同时,完成Hadoop的环境搭建,并亲自动手实现书中的实战案例,提高开发水平和项目实战能力。
本书可以帮助大数据开发人员充分了解当下流行的大数据技术和应用方法,从而在大数据项目中能更加自信、高效地完成项目开发。书中为有意涉猎大数据领域的人提供了详尽的指导,让他们能够更快、更好地掌握大数据的核心技术,并应用于项目实践,从而脱颖而出,顺利进军大数据行业。另外,本书也为大数据项目开发小组提供了可参考和借鉴的选拔大数据人才的技术标准。
本书特色
1.提供了20小时同步配套教学视频,高效、直观
为了便于读者高效、直观地学习,笔者专门为本书重点内容录制了20小时同步配套教学视频。读者可以一边看书,一边结合教学视频进行学习,取得更好的学习效果。
2.对Hadoop开发做了基础上的准备
本书从一开始就对大数据的应用、特点和Hadoop的起源与发展做了基本介绍,并简要介绍了大数据的技术框架及Hadoop的核心构件,然后详细介绍了Hadoop的安装和配置步骤,便于读者理解后续章节中介绍的各种组件和案例。
3.全面涵盖Hadoop的各种核心技术
本书介绍了Hadoop的核心构件HDFS和MapReduce,并详细介绍了基于存储和计算的YARN、Hive、HBase、Flume、Sqoop、Kafka和Redis等大数据技术的原理、环境搭建步骤和整合应用示例。
4.模块驱动,实用性强
本书介绍了Hadoop开发的14个典型模块,有很强的实用性。这些模块都是Hadoop开发经常要用到的模块,开发人员可以随时查阅和参考。
5.详解4个高价值项目实战案例
本书介绍了4个项目实战案例,这些案例来源于大数据实际项目,有较高的参考价值和实际应用价值。这些案例用不同的大数据整合技术实现,读者稍加修改即可用于自己的实际项目中。通过这些实战案例,可以让读者对书中介绍的相关理论知识和技术细节有更加透彻的理解。
6.提供完善的售后服务
本书提供了专门的售后服务邮箱:hzbook2017@163.com。读者在阅读本书的过程中有任何疑问都可以通过该邮箱获得帮助。
7.提供教学PPT,方便老师教学和学生学习
笔者专门为本书制作了专业的教学PPT,以方便相关院校的教学人员讲课时使用;读者也可以通过教学PPT,来提纲挈领地掌握书中的内容脉络。
本书内容
第1篇Hadoop基础知识(第1~4章)
第1章初识Hadoop,介绍了大数据的特点和在各行业的应用;阐述了大数据和云计算、物联网之间的关系;讲述了Hadoop的起源、发展和意义。
第2章Hadoop的安装与配置,介绍了Hadoop安装与配置的相关知识,主要包括虚拟机的创建、克隆服务器、SSH免密码登录、JDK安装、Hadoop环境变量配置及Hadoop分布式安装等。
第3章Hadoop分布式文件系统,主要介绍了Hadoop的分布式文件系统,包括HDFS的核心概念、读写文件的流程,以及HDFS基于Shell和Java API的操作。
第4章基于Hadoop 3的HDFS高可用,主要介绍了Hadoop 3.x的发展和HDFS的高可用实现原理,以及如何基于Hadoop 3搭建完全分布式和NameNode的高可用。
第2篇Hadoop核心技术(第5~15章)
第5章Hadoop的分布式协调服务——ZooKeeper,介绍了ZooKeeper的核心概念,包括Session、数据节点(Znode)、版本、Watcher和ACL等;还介绍了ZooKeeper的安装步骤、服务器端和客户端的相关命令,以及Java API访问ZooKeeper的多种操作。
第6章分布式离线计算框架——MapReduce,主要介绍了MapReduce的原理和应用知识,包括MapReduce的特点、应用场景、执行原理和测试实例。
第7章Hadoop的集群资源管理系统——YARN,比较了YARN和MapReduce的异同,并介绍了YARN集群资源管理系统的基本架构、工作流程和环境搭建步骤等。
第8章Hadoop的数据仓库框架——Hive,介绍了Hive的理论基础,以及Hive和数据库的异同、Hive设计目的与应用、Hive运行框架及执行原理;完成了Hive的环境搭建、内部表的创建、外部表的创建及数据操作;另外,还介绍了如何通过Java访问Hive及Hive的优化等相关内容。
第9章大数据快速读写——HBase,介绍了HBase列式数据库的体系架构、执行原理及安装步骤,还介绍了通过Shell操作HBase,以及基于Java API访问HBase实现数据增加和查询的相关内容。
第10章海量日志采集工具——Flume,主要介绍了Flume的概念、特
|
|