《Hadoop大数据技术原理与编程（微课版）》 - 曹洁，齐平，陈明，王福成 - 清华大学出版社 - 香港大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

2023年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

『簡體書』Hadoop大数据技术原理与编程（微课版）

書城自編碼： 4016035
分類：簡體書→大陸圖書→教材→研究生/本科/专科教材
作者：曹洁，齐平，陈明，王福成
國際書號(ISBN)： 9787302666790
出版社：清华大学出版社
出版日期： 2024-07-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：HK$ 79.4

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《布鲁克林有棵树（孩子喜欢的阅读经典读本基于真实生活的全球经典成长小说走出成长困境追逐梦想人生励志自我塑造小说）》
售價：HK$ 76.2

《构建未来教育图景：实践以学生为中心的育人模式》
售價：HK$ 87.4

《技术统治（未来哲学系列）》
售價：HK$ 53.8

《中考热点作家孙道荣2024年散文精选集三册》
售價：HK$ 127.7

《全球城市案例研究2023：基于网络的合作与竞争国际经验借鉴》
售價：HK$ 199.4

《引爆：炸药、硝酸盐和现代世界的形成》
售價：HK$ 85.1

《人类星球：我们如何创造了人类世（企鹅·鹈鹕丛书013）》
售價：HK$ 91.8

《伏候圣裁：中国古代的君主与政治》
售價：HK$ 98.6

建議一齊購買：

HK$ 55.2
《大学生心理健康（王永）（第三版）》

HK$ 57.3
《公路工程施工组织（高峰）》

HK$ 82.8
《土壤肥料学（第3版）》

HK$ 57.3
《水粉风景画的创作与表达（唐保平）》

HK$ 52.8
《C语言程序设计训练教程》

HK$ 135.7
《中国农业史概论》

編輯推薦：

内容系统全面：涵盖Hadoop大部分生态组件。
理论实践结合：每章知识点配丰富实例实践。
原理浅显易懂：对操作给出示例代码和注解。
入门门槛较低：零基础轻松快速掌握Hadoop。
配套资源丰富：有教学课件、教学大纲、源代码、教学视频。

內容簡介：

本书系统介绍了大数据技术的相关知识，全书共13章，内容包括Hadoop大数据处理架构、HDFS分布式文件系统、YARN资源管理、MapReduce分布式计算框架、HBase分布式数据库、流数据采集、典型非关系数据库的安装与使用、分布式数据分析工具Pig、Spark大数据处理框架、基于Python语言的Spark RDD编程、基于Python语言的Spark SQL结构化数据处理、Hive分布式数据仓库、典型数据可视化工具的使用。本书对大数据相关技术给出详细的编程示例，并给出详细的注解。
本书可作为高等院校计算机、信息管理、软件工程、人工智能、数据科学与大数据技术等相关专业的大数据技术课程教材，也可供相关技术人员参考。

第1章Hadoop大数据处理架构1
1.1大数据的基本概念1
1.1.1大数据时代1
1.1.2大数据定义1
1.1.3大数据的特征2
1.1.4大数据思维2
1.2大数据计算模式与典型系统3
1.2.1批处理计算模式与典型系统3
1.2.2流式计算模式与典型系统4
1.2.3迭代计算模式与典型系统4
1.2.4图计算模式与典型系统4
1.2.5内存计算模式与典型系统5
1.3Hadoop发展历程5
1.4Hadoop优缺点6
1.5Hadoop生态圈6
1.6在VirtualBox上搭建Linux操作系统8
1.6.1创建Master节点9
1.6.2克隆虚拟电脑17
1.7Hadoop安装前的准备工作21
1.7.1创建hadoop用户22
1.7.2安装SSH、配置SSH无密码登录23
1.7.3安装Java环境23
1.7.4Linux操作系统下Scala版本的Eclipse的安装与配置… 24
1.7.5Eclipse环境下Java语言程序开发实例25
1.8Hadoop的安装与配置28
1.8.1下载Hadoop安装文件28
1.8.2Hadoop单机模式配置28
1.8.3Hadoop伪分布式模式配置30
1.8.4Hadoop分布式模式配置34
1.9习题43
第2章HDFS分布式文件系统44
2.1HDFS基本特征44
2.2HDFS存储架构及组件功能45
2.2.1HDFS存储架构45
2.2.2数据块45
2.2.3数据节点46
2.2.4名称节点46
2.2.5第二名称节点47
2.2.6心跳消息47
2.2.7客户端48
2.3HDFS读写文件流程48
2.3.1HDFS读文件流程48
2.3.2HDFS写文件流程49
2.4HDFS的Shell操作50
2.4.1查看命令使用方法50
2.4.2HDFS常用的Shell操作52
2.4.3HDFS管理员命令55
2.4.4HDFS的Java API操作57
2.5案例实战1：修改文件名58
2.5.1在Eclipse中创建项目58
2.5.2为项目添加需要用到的JAR包58
2.5.3编写Java语言应用程序60
2.5.4编译运行程序62
2.5.5应用程序的部署63
2.6案例实战2：文件读取、上传和下载65
2.6.1读取文件内容66
2.6.2文件上传和下载66
2.7习题67
第3章YARN资源管理68
3.1YARN概述68
3.2YARN基础架构68
3.2.1Container68
3.2.2ResourceManager69
3.2.3NodeManager69
3.2.4Application Master70
3.2.5Client70
3.3YARN常用命令70
3.3.1YARN启动与停止70
3.3.2用户命令71
3.3.3管理命令73
3.4习题74
第4章MapReduce分布式计算框架75
4.1MapReduce工作原理75
4.1.1MapReduce并行编程核心思想75
4.1.2Map函数和Reduce函数75
4.2MapReduce工作机制77
4.2.1Map任务工作机制78
4.2.2Reduce任务工作机制79
4.3MapReduce编程类80
4.3.1InputFormat数据输入格式类81
4.3.2Mapper类85
4.3.3Combiner合并类86
4.3.4Partitioner分区类87
4.3.5Sort排序类87
4.3.6Reducer归约类87
4.3.7OutputFormat输出格式类88
4.4MapReduce编程实现词频统计89
4.4.1WordCount执行流程89
4.4.2WordCount具体实现91
4.4.3使用Eclipse编译运行词频统计程序94
4.5习题100
第5章HBase分布式数据库101
5.1HBase概述101
5.1.1HBase的技术特点101
5.1.2HBase与传统关系数据库的区别101
5.1.3HBase与Hadoop中其他组件的关系102
5.2HBase系统架构和数据访问流程102
5.2.1HBase系统架构102
5.2.2HBase数据访问流程105
5.3HBase数据表107
5.3.1HBase数据表逻辑视图107
5.3.2HBase数据表物理视图109
5.3.3HBase数据表面向列的存储110
5.3.4HBase数据表的查询方式111
5.3.5HBase表结构设计111
5.4HBase的安装112
5.4.1下载安装文件112
5.4.2配置环境变量112
5.4.3添加用户权限113
5.4.4查看HBase版本信息113
5.5HBase的配置113
5.5.1单机模式配置114
5.5.2伪分布式模式配置115
5.6HBase的Shell操作117
5.6.1基本操作117
5.6.2创建表118
5.6.3插入与更新表中的数据119
5.6.4查看表中的数据120
5.6.5删除表中的数据122
5.6.6表的启用/禁用122
5.6.7修改表结构122
5.6.8删除HBase表123
5.7HBase的Java API操作123
5.7.1HBase数据库管理API123
5.7.2HBase数据库表API124
5.7.3HBase数据库表行列API126
5.8HBase案例实战127
5.8.1在Eclipse中创建工程127
5.8.2添加项目用到的JAR包128
5.8.3编写Java语言应用程序129
5.8.4编译运行程序132
5.9利用Python语言操作HBase133
5.9.1HappyBase的安装133
5.9.2Connection类133
5.9.3Table类134
5.10拓展阅读——HBase存储策略的启示134
5.11习题135
第6章流数据采集136
6.1流数据采集工具Flume136
6.1.1Flume概述136
6.1.2Flume组成架构136
6.1.3Flume安装139
6.1.4Flume简单使用141
6.2Kafka分布式发布订阅消息系统142
6.2.1Kafka基本架构142
6.2.2Kafka安装143
6.2.3Kafka测试实例144
6.3习题145
第7章典型非关系数据库的安装与使用146
7.1NoSQL数据库概述146
7.1.1NoSQL数据库兴起的原因146
7.1.2NoSQL数据库的特点147
7.2“键值”数据库147
7.2.1Redis安装147
7.2.2Redis数据库的特点149
7.2.3Redis数据库的基本数据类型149
7.3列族数据库154
7.4文档数据库154
7.4.1MongoDB简介154
7.4.2MongoDB下载与安装154
7.4.3MongoDB文档操作158
7.4.4MongoDB集合操作161
7.4.5MongoDB数据库操作162
7.4.6MongoDB数据类型163
7.5图数据库164
7.5.1下载和安装Neo4j164
7.5.2Neo4j的启动和停止165
7.5.3Neo4j的CQL操作167
7.5.4在Neo4j浏览器中创建节点和关系169
7.6习题170
第8章分布式数据分析工具Pig171
8.1Pig概述171
8.2Pig安装与配置171
8.2.1Pig安装171
8.2.2配置环境变量172
8.2.3Pig运行模式和工作方式172
8.3Pig Latin语言173
8.3.1Pig Latin语言基本概念173
8.3.2Pig Latin语言数据类型174
8.3.3Pig操作HDFS文件系统常用的命令175
8.3.4实用程序命令176
8.3.5Pig常用的数据分析命令177
8.4习题180
第9章Spark大数据处理框架181
9.1Spark概述181
9.1.1Spark的产生背景181
9.1.2Spark的优点182
9.1.3Spark的应用场景182
9.1.4Spark的生态系统182
9.2Spark运行机制184
9.2.1Spark基本概念184
9.2.2Spark运行架构186
9.3Spark的安装与配置186
9.3.1下载Spark安装文件187
9.3.2单机模式配置187
9.3.3伪分布式模式配置188
9.4使用PySpark编写Python语言代码190
9.5安装pip工具和常用的数据分析库191
9.6安装Anaconda和配置Jupyter Notebook192
9.6.1安装Anaconda192
9.6.2配置Jupyter Notebook193
9.6.3运行Jupyter Notebook194
9.6.4配置Jupyter Notebook实现和PySpark交互196
9.6.5为Anaconda安装扩展库197
9.7习题197
第10章基于Python语言的Spark RDD编程198
10.1RDD的创建方式198
10.1.1使用程序中的数据集创建RDD198
10.1.2使用文本文件创建RDD200
10.1.3使用JSON文件创建RDD201
10.1.4使用CSV文件创建RDD203
10.2RDD转换操作203
10.2.1映射操作203
10.2.2去重操作205
10.2.3排序操作206
10.2.4分组聚合操作208
10.2.5集合操作210
10.2.6抽样操作211
10.2.7连接操作方法211
10.2.8打包操作方法212
10.2.9获取键值对RDD的键和值集合212
10.2.10重新分区操作212
10.3RDD行动操作214
10.3.1统计操作215
10.3.2取数据操作216
10.3.3聚合操作217
10.3.4迭代操作217
10.3.5存储操作218
10.4RDD之间的依赖关系218
10.4.1窄依赖219
10.4.2宽依赖219
10.5RDD的持久化219
10.6案例实战: 利用Spark RDD实现词频统计221
10.7实验1: RDD编程实验222
10.8拓展阅读——中国女排精神223
10.9习题224
第11章基于Python语言的Spark SQL结构化数据处理225
11.1Spark SQL概述225
11.1.1Spark SQL简介225
11.1.2DataFrame与DataSet225
11.2创建DataFrame对象的方法226
11.2.1使用Parquet文件创建DataFrame对象226
11.2.2使用JSON文件创建DataFrame对象227
11.2.3使用SparkSession方式创建DataFrame对象228
11.3将DataFrame对象保存为不同格式的文件232
11.3.1通过write.xxx()方法保存DataFrame对象232
11.3.2通过write.format()方法保存DataFrame对象233
11.3.3将DataFrame对象转化成RDD保存到文件中233
11.4DataFrame的常用操作233
11.4.1行类操作233
11.4.2列类操作234
11.4.3DataFrame的常用属性236
11.4.4输出236
11.4.5筛选239
11.4.6排序241
11.4.7汇总与聚合243
11.4.8统计244
11.4.9合并245
11.4.10连接245
11.4.11to系列转换247
11.5读写MySQL数据库248
11.5.1安装并配置MySQL数据库248
11.5.2读取MySQL数据库中的数据250
11.5.3向MySQL数据库写入数据250
11.6实验2: Spark SQL编程实验251
11.7拓展阅读——中国芯片之路253
11.8习题254
第12章Hive分布式数据仓库255
12.1Hive分布式数据仓库概述255
12.2Hive的安装255
12.2.1下载Hive安装文件255
12.2.2配置Hive环境变量256
12.2.3修改Hive配置文件256
12.2.4安装并配置MySQL数据库257
12.3MySQL数据库常用操作259
12.3.1数据库基本语句259
12.3.2数据表基本语句261
12.4Hive的数据类型264
12.5Hive基本操作265
12.5.1数据库操作265
12.5.2创建表266
12.5.3创建带有分区的表267
12.5.4查看和修改表268
12.6习题269
第13章典型数据可视化工具的使用270
13.1WordCloud绘制词云图270
13.2PyeCharts数据可视化274
13.2.1绘制柱状图275
13.2.2绘制折线图277
13.2.3绘制饼图278
13.2.4绘制雷达图279
13.2.5绘制漏斗图280
13.2.6绘制3D柱状图280
13.2.7绘制词云图281
13.3Tableau绘图282
13.3.1Tableau的主要特性282
13.3.2Tableau工作表工作区283
13.3.3Tableau仪表板工作区288
13.3.4Tableau故事工作区289
13.3.5Tableau菜单栏290
13.3.6Tableau可视化与数据分析举例291
13.4习题293
参考文献294

內容試閱：

大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合，正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析，从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。大数据技术涉及的知识点非常多，一本书根本无法覆盖所有的知识点。本书从各专业对大数据技术需求的实际情况出发，从大数据技术涉及的基本知识开始，层层推进大数据相关技术的讲解，让初学者能够轻松理解并快速掌握。本书对每个知识点都进行了深入分析，并针对每个知识点精心设计了相关案例。
全书共13章。
第1章 Hadoop大数据处理架构。主要介绍大数据的基本概念、大数据计算模式与典型系统、Hadoop发展历程、Hadoop优缺点、Hadoop生态圈、在VirtualBox上搭建Linux操作系统、Hadoop安装前的准备工作与Hadoop的安装与配置。
第2章 HDFS分布式文件系统。主要介绍HDFS基本特征、HDFS存储架构及组件功能、HDFS读写文件流程、HDFS的Shell操作、HDFS编程实战。
第3章 YARN资源管理。主要介绍YARN基础架构和YARN常用命令。
第4章 MapReduce分布式计算框架。主要介绍MapReduce工作原理、MapReduce工作机制、MapReduce编程类、MapReduce编程实现词频统计。
第5章 HBase分布式数据库。主要介绍HBase系统架构和数据访问流程、HBase数据表、HBase安装与配置、HBase的Shell操作、HBase的Java API操作、HBase案例实战和利用Python语言操作HBase。
第6章流数据采集。主要介绍Flume和Kafka两种流数据采集工具。
第7章典型非关系数据库的安装与使用。主要介绍“键值”数据库、列族数据库、文档数据库和图数据库。
第8章分布式数据分析工具Pig。主要介绍Pig安装与配置和Pig Latin语言。
第9章 Spark大数据处理框架。主要介绍Spark运行机制、Spark的安装及配置、使用PySpark编写Python语言代码、安装pip工具和常用的数据分析库、安装Anaconda和配置Jupyter Notebook。
第10章基于Python语言的Spark RDD编程。主要介绍RDD的创建方式、RDD转换操作、RDD行动操作、RDD之间的依赖关系、RDD的持久化以及利用Spark RDD实现词频统计的案例实战。
第11章基于Python语言的Spark SQL结构化数据处理。主要介绍创建DataFrame对象的方法、将DataFrame对象保存为不同格式的文件、DataFrame的常用操作、使用Spark SQL读写MySQL数据库。
第12章 Hive分布式数据仓库。主要介绍Hive的安装、MySQL数据库常用操作、Hive的数据类型和Hive基本操作。
第13章典型数据可视化工具的使用。主要介绍用基于Python语言编程的WordCloud绘制词云图库、PyeCharts数据可视化库和Tableau绘图软件。
本书可作为高等院校计算机、信息管理、软件工程、人工智能、智能科学与技术、数据科学与大数据技术等相关专业的大数据技术课程教材，也可供相关技术人员参考。
本书由曹洁、齐平、陈明、王福成著，参与撰写的还有崔念杰、周开来、范乃梅、胡春晖。
在本书撰写和出版过程中得到了铜陵学院、清华大学出版社的大力支持和帮助，在此表示感谢。
本书在撰写过程中，参考了大量专业书籍和网络资料，在此向这些作者表示感谢。
由于编写时间仓促，作者水平有限，书中肯定会有不少缺点和不足，热切期望得到专家和读者的批评指正。您如果遇到任何问题，或有更多的宝贵意见，欢迎发送邮件至邮箱bailj@tup.tsinghua.edu.cn，期待能够收到您的真挚反馈。
作者2024年3月

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　海外用户

	megBook.com.hk
Copyright © 2013 - 2024 （香港）大書城有限公司　 All Rights Reserved.