新書推薦:
《
财富方程式
》
售價:HK$
77.3
《
知识社会史(下卷):从《百科全书》到“在线百科”
》
售價:HK$
99.7
《
我读巴芒:永恒的价值
》
售價:HK$
132.2
《
你漏财了:9种逆向思维算清人生这本账
》
售價:HK$
55.8
《
我们终将老去:认识生命的第二阶段(比利时的“理查德·道金斯”,一位行为生物学家的老年有用论
》
售價:HK$
91.8
《
谁是窃书之人 日本文坛新锐作家深绿野分著 无限流×悬疑×幻想小说
》
售價:HK$
55.8
《
一个经济杀手的自白 第3版
》
售價:HK$
110.9
《
8秒按压告别疼痛
》
售價:HK$
87.4
|
內容簡介: |
本书按照需求规划、需求实现、可视化的流程进行编排,通过项目开发的主要流程,介绍数据仓库的搭建过程。在整个数据仓库的搭建过程中,本书介绍了主要组件的安装部署、需求实现的具体思路,以及各种问题的解决方案等,并在其中穿插了许多与大数据和数据仓库相关的理论知识,包括数据仓库的概念、电商业务概述、数据仓库理论和数据仓库建模等。 本书共14章,其中,第1~3章是项目的前期准备阶段,主要介绍了数据仓库的概念和搭建需求,并初步搭建了本数据仓库项目所需的基本环境;第4~7章是项目的核心部分,详细介绍了数据仓库的建模理论,并完成了数据从采集到分层搭建的全过程,是本书的重点部分;第8~14章是对数据治理各功能模块的实现,针对数据治理的不同功能需求分模块进行实现。 本书适合具有一定编程基础并对大数据感兴趣的读者阅读。通过学习本书,读者可以快速了解数据仓库,全面掌握数据仓库相关技术。
|
關於作者: |
尚硅谷教育是一家专业的IT教育培训机构,开设了JavaEE、大数据、HTML5前端等多门学科,在互联网上发布的JavaEE、大数据、HTML5前端、区块链、C语言、Python等技术视频教程广受赞誉。
|
目錄:
|
目录第1章 数据仓库概论11.1 数据仓库的概念与特点11.2 数据仓库的演进过程21.3 数据仓库技术31.4 数据仓库基本架构51.5 数据库和数据仓库的区别81.6 学前导读91.6.1 学习的基础要求91.6.2 你将学到什么91.7 本章总结10第2章 项目需求描述112.1 前期调研112.2 项目架构分析122.2.1 电商数据仓库产品描述122.2.2 系统功能结构132.2.3 系统流程图142.3 项目业务概述142.3.1 采集模块业务描述142.3.2 数据仓库需求业务描述152.3.3 数据可视化业务描述172.3.4 即席查询业务描述172.3.5 数据治理业务描述182.4 系统运行环境192.4.1 硬件环境192.4.2 软件环境202.5 本章总结22第3章 项目部署的环境准备233.1 Linux环境准备233.1.1 VMware安装233.1.2 CentOS安装233.1.3 远程终端安装313.2 Linux环境配置353.2.1 网络配置353.2.2 网络IP地址配置363.2.3 主机名配置363.2.4 防火墙配置373.2.5 一般用户设置383.3 Hadoop环境搭建383.3.1 虚拟机环境准备383.3.2 JDK安装433.3.3 Hadoop安装443.3.4 Hadoop分布式集群部署453.4 本章总结51第4章 用户行为数据采集模块524.1 日志生成524.1.1 数据埋点524.1.2 用户行为日志内容524.1.3 用户行为日志格式544.1.4 数据模拟584.2 消息队列Kafka614.2.1 ZooKeeper安装614.2.2 ZooKeeper集群启动、停止脚本634.2.3 Kafka安装644.2.4 Kafka Eagle安装654.2.5 Kafka集群启动、停止脚本674.2.6 Kafka topic相关操作684.3 采集日志的Flume684.3.1 Flume组件694.3.2 Flume安装694.3.3 采集日志的Flume配置704.3.4 Flume的拦截器714.3.5 采集日志的Flume启动、停止脚本754.4 消费日志的Flume764.4.1 消费日志的Flume配置774.4.2 时间戳拦截器784.4.3 消费日志的Flume启动、停止脚本804.4.4 数据通道测试814.5 采集通道启动、停止脚本814.6 本章总结83第5章 业务数据采集模块845.1 电商业务概述845.1.1 电商业务流程845.1.2 电商常识855.1.3 电商业务表结构855.1.4 数据同步策略955.1.5 数据同步工具选择975.2 业务数据采集975.2.1 MySQL安装975.2.2 业务数据生成995.2.3 业务数据模型梳理1025.2.4 DataX安装1065.2.5 Maxwell安装1085.2.6 全量同步1125.2.7 增量同步1225.3 本章总结130第6章 数据仓库搭建模块1316.1 数据仓库理论准备1316.1.1 数据建模概述1316.1.2 关系模型与范式理论1326.1.3 维度模型1356.1.4 维度建模理论之事实表1366.1.5 维度建模理论之维度表1396.1.6 雪花模型、星形模型与星座模型1426.2 数据仓库建模实践1446.2.1 名词概念1446.2.2 为什么要分层1456.2.3 数据仓库搭建流程1466.2.4 数据仓库开发规范1536.3 数据仓库搭建环境准备1576.3.1 Hive安装1576.3.2 Hive on Spark配置1606.3.3 YARN容量调度器并发度问题1626.3.4 数据仓库开发环境配置1626.3.5 模拟数据准备1666.3.6 常用函数1686.3.7 复杂数据类型1696.4 数据仓库搭建——ODS层1706.4.1 用户行为数据1716.4.2 ODS层用户行为数据导入脚本1726.4.3 业务数据1736.4.4 ODS层业务数据导入脚本1836.5 数据仓库搭建——DIM层1866.5.1 商品维度表(全量)1866.5.2 优惠券维度表(全量)1896.5.3 活动维度表(全量)1916.5.4 地区维度表(全量)1936.5.5 时间维度表(特殊)1946.5.6 用户维度表(拉链表)1956.5.7 DIM层首日数据装载脚本1996.5.8 DIM层每日数据装载脚本1996.6 数据仓库搭建——DWD层1996.6.1 交易域加购物车事务事实表2006.6.2 交易域下单事务事实表2046.6.3 交易域取消订单事务事实表2096.6.4 交易域支付成功事务事实表2146.6.5 交易域退单事务事实表2206.6.6 交易域退款成功事务事实表2246.6.7 交易域购物车周期快照事实表2276.6.8 工具域优惠券领取事务事实表2286.6.9 工具域优惠券使用(下单)事务事实表2296.6.10 工具域优惠券使用(支付)事务事实表2306.6.11 互动域收藏事务事实表2326.6.12 互动域评价事务事实表2336.6.13 流量域页面浏览事务事实表2356.6.14 流量域启动事务事实表2386.6.15 流量域动作事务事实表2406.6.16 流量域曝光事务事实表2436.6.17 流量域错误事务事实表2456.6.18 用户域注册事务事实表2486.6.19 用户域登录事务事实表2516.6.20 DWD层首日业务数据装载脚本2546.6.21 DWD层每日业务数据装载脚本2546.7 数据仓库搭建——DWS层2556.7.1 最近1日汇总表2566.7.2 最近n日汇总表2696.7.3 历史至今汇总表2796.8 数据仓库搭建——ADS层2836.8.1 流量主题指标2836.8.2 用户主题指标2866.8.3 商品主题指标2946.8.4 交易主题指标3026.8.5 优惠券主题指标3066.8.6 活动主题指标3076.8.7 ADS层数据导入脚本3076.9 数据模型评估及优化3086.10 本章总结308第7章 DolphinScheduler全流程调度3097.1 DolphinScheduler概述与安装部署3097.1.1 DolphinScheduler概述3097.1.2 DolphinScheduler安装部署3107.2 创建MySQL数据库和表3177.3 DataX数据导出3227.4 全流程调度3297.4.1 数据准备3297.4.2 全流程调度配置3307.5 电子邮件报警3377.5.1 注册邮箱3377.5.2 配置电子邮件报警3397.6 本章总结341第8章 数据可视化模块3428.1 Superset部署3428.1.1 环境准备3428.1.2 Superset安装3448.2 Superset使用3478.2.1 对接MySQL数据源3478.2.2 制作仪表盘3508.3 Superset实战3548.3.1 制作柱状图3548.3.2 制作旭日图3558.3.3 制作桑基图3578.3.4 合成仪表盘页面3588.4 ECharts可视化3598.5 本章总结361第9章 即席查询模块3629.1 Presto3629.1.1 Presto简介3629.1.2 Presto安装3639.1.3 Presto优化之数据存储3679.1.4 Presto优化之SQL查询语句3679.1.5 Presto注意事项3689.2 Kylin3689.2.1 Kylin简介3689.2.2 HBase安装3709.2.3 Kylin安装3719.2.4 Kylin使用3739.2.5 Kylin Cube构建原理3849.2.6 Kylin Cube存储原理3879.2.7 Kylin Cube构建优化3889.2.8 Kylin BI工具集成3929.3 即席查询框架对比3989.4 本章总结399第10章 集群监控模块40010.1 Zabbix入门40010.2 Zabbix部署40110.2.1 集群规划40110.2.2 准备工作40110.2.3 配置Zabbix yum源40210.2.4 安装并配置Zabbix40410.2.5 启动、停止Zabbix40510.3 Zabbix使用40910.3.1 术语介绍41010.3.2 Zabbix实战41010.3.3 创建模板42210.4 Grafana42710.4.1 Grafana安装部署42710.4.2 快速入门42810.4.3 集成Zabbix43010.5 本章总结439第11章 安全认证模块44011.1 Kerberos入门44011.1.1 Kerberos概述44011.1.2 Kerberos认证原理44011.2 Kerberos安装44111.2.1 安装Kerberos相关服务44111.2.2 修改配置文件44111.2.3 初始化KDC数据库44211.2.4 修改管理员权限配置文件44211.2.5 启动Kerberos相关服务44311.2.6 创建Kerberos管理员用户44311.3 Kerberos操作44311.3.1 Kerberos数据库操作44311.3.2 Kerberos认证操作44411.4 Hadoop集成Kerberos44411.4.1 创建Hadoop系统用户44411.4.2 为Hadoop各服务创建Kerberos主体(Principal)44511.4.3 修改Hadoop配置文件44811.4.4 配置HDFS使用HTTPS协议45211.4.5 配置YARN使用LinuxContainerExecutor45311.5 在安全认证模式下启动Hadoop集群45511.5.1 修改本地特定路径访问权限45511.5.2 启动HDFS45611.5.3 修改HDFS特定路径访问权限45711.5.4 启动YARN45811.5.5 启动HistoryServer45811.6 在安全认证模式下操作Hadoop集群45911.6.1 用户要求45911.6.2 HDFS操作45911.6.3 MapReduce任务提交46311.7 Hive集成Kerberos46311.7.1 配置要求46311.7.2 配置认证46411.7.3 启动HiveServer2服务46511.8 在安全认证模式下操作Hive46511.8.1 Beeline客户端46511.8.2 DataGrip客户端46511.9 在安全认证模式下执行数据仓库全流程调度46911.9.1 用户准备46911.9.2 修改数据采集通道47011.9.3 修改数据仓库各层脚本47311.9.4 修改数据导出DataX配置文件474
|
|