新書推薦:
《
协和专家大医说:医话肿瘤
》
售價:HK$
109.8
《
潜水指南 全彩图解第4版
》
售價:HK$
132.2
《
超大规模集成电路设计——从工具到实例
》
售價:HK$
88.5
《
村上春树·旅(一本充满村上元素的旅行指南,带你寻访电影《挪威的森林》拍摄地,全彩印刷;200余幅摄影作品)
》
售價:HK$
66.1
《
智能驾驶硬件在环仿真测试与实践
》
售價:HK$
155.7
《
都铎王朝时期英格兰海事法庭研究
》
售價:HK$
87.4
《
中年成长:突破人生瓶颈的心理自助方案
》
售價:HK$
65.0
《
维奥莱塔:一个女人的一生
》
售價:HK$
76.2
編輯推薦:
适读人群 :本书适合读者包括:高校师生及企业中从事分布式计算的高级工程师、架构师及技术管理者等。
挖掘海量用户行为数据,如用户的浏览、收藏、分享、购买、评论、点赞和搜索等
快速有效地使用用户兴趣点大数据,挖掘出用户对产品的兴趣点,实时更新用户画像
向用户推荐其当前感兴趣的产品及广告
用计算将数据和流量变成财富、真正发挥数据资产的巨大价值。
互联网行业数据变现利器!
海报:
內容簡介:
授人以鱼不如授人以渔,本书是作者以如此初心写成的,主要参考当前主流分布式实时计算框架Storm的任务分发和Spark Streaming的Mini-Batch设计思想,以及底层实现技术,开源了作者自研的轻量级分布式实时计算框架Light_drtc,并且重点介绍设计思想和相关实现技术(KafkaRabbitMQ、RedisSSDB 、GuavaCache、MongoDB、HBase、ES/SolrCloud、Thrift、Avro、Jetty),最后从工程角度向大家介绍完整的个性化推荐系统,并实例介绍Light_drtc在用户画像实时更新的应用。本书描述浅显易懂,希望读者理解分布式实时计算的实现原理,并快速上手解决实际问题。
關於作者:
王成光,目前任职一点资讯研发架构师,硕士毕业8年,曾先后任职窝窝团、优购、搜狐、网易等架构师、技术专家职位,专注于搜索、推荐、数据挖掘领域研发工作,涉足技术范围:搜索:ES/SolrCloud分布式计算:Hadoop、Storm和SparkMQ: Kafka、RabbitMQ、ActiveMQ、ZeroMQNoSQL: ReidsSSDB、Mongo3.0、HBase1.0、AeroSpikeSOA微服务: RPC和Web Service
目錄 :
第1 章 分布式实时计算框架介绍....1
1.1 分布式计算Hadoop........1
1.2 分布式实时计算......3
1.2.1 Spark Streaming3
1.2.2 Storm 6
1.2.3 其他框架..........8
1.3 为什么自研....8
1.4 总结....10
第2 章 light_drtc 简介及使用说明. 11
2.1 light_drtc 框架简介....... 11
2.2 light_drtc 代码结构.......12
2.3 light_drtc 重要配置项...14
2.4 light_drtc 和Storm 比较......15
2.5 light_drtc 使用说明.......16
2.5.1 ACN(AN 和CN 整合)作为独立服务.....16
2.5.2 CN、AN 作为独立服务20
2.5.3 任务计算JN...23
2.6 总结....26
第3 章 light_drtc 核心技术实现......27
3.1 light_drtc 技术架构.......27
3.2 light_drtc 计算框架设计思想.30
3.2.1 CN 设计思想..30
3.2.2 AN 多主模式设计思想..31
3.2.3 JN 设计思想...34
3.3 light_drtc 核心技术的实现.36
3.3.1 实时收集数据CN...36
3.3.2 任务协调管理AN...40
3.3.3 任务计算JN...49
3.4 总结....50
第4 章 消息队列MQ..........51
4.1 消息队列使用场景........51
4.2 消息队列原理........53
4.2.1 MQ 使用流程.53
4.2.2 MQ 基本概念.54
4.2.3 MQ 通信模式.55
4.2.4 目前知名MQ 比较.56
4.3 MQ 消费状态监控61
4.3.1 KafkaOffsetMonitor 介绍....62
4.3.2 KafkaOffsetMonitor 部署....62
4.4 RabbitMQ 和Kafka 的基本使用......64
4.4.1 RabbitMQ 读写实例......64
4.4.2 Kafka 读写实例.......68
4.5 总结....71
第5 章 内存数据库Redis3.0 及SSDB.......72
5.1 Redis 相关介绍......72
5.1.1 Redis3.0 集群架构..73
5.1.2 Redis3.0 集群选举与容错...74
5.1.3 SSDB 简介.....75
5.2 Redis3.0 集群搭建76
5.2.1 集群所依赖的Ruby 环境...77
5.2.2 Redis 集群创建.......77
5.2.3 Redis 集群验证.......78
5.2.4 SSDB 简单部署......79
5.3 Redis 管理及使用.81
5.3.1 Redis 基本使用.......81
5.3.2 Redis 管理......83
5.4 Redis 客户端应用.86
5.4.1 Redis3.0 客户端......86
5.4.2 SSDB 客户端.89
5.5 本地缓存Guava Cache.90
5.5.1 认识Guava Cache ...90
5.5.2 Guava Cache 使用...91
5.5.3 Java 客户端使用.....94
5.6 总结......
內容試閱 :
授人以鱼不如授人以渔。语出《淮南子说林训》,道理很简单,鱼是目的,钓鱼是手段,一条鱼能解一时之饥,却不能解长久之饥,如果想永远有鱼吃,那就要学会钓鱼的方法。
随着时代发展,互联网,尤其是移动互联网的全民普及趋势,任何一个行业的相关产品都会有很多表示用户兴趣点的行为数据,像用户的浏览、收藏、分享、购买、评论、点赞和搜索等行为由此构建出海量用户行为数据。如何快速有效地使用上述大数据,挖掘出用户对产品的兴趣点,实时更新用户画像,进而向用户推荐其当前最感兴趣的产品及广告,是目前众企业所普遍关心的问题,也是大数据的价值所在。
大数据是时代产物,除了BAT、网易、搜狐、新浪、京东等一线互联网企业需要相关处理,国内更多中小企业或者传统行业的巨无霸也都需要大数据处理技术。一线互联网企业由于自己本身就做互联网业务拥有人才优势,处理大数据相对简单。但中小企业及传统行业巨无霸在面对自己日积月累的大数据时困难重重,主要是本身没有处理能力,也没有相关硬件设施支持。
目前大数据处理技术,以开源界大名鼎鼎的Hadoop、Spark、Storm 及后起之秀Flink 为代表,当然国内一线互联网企业像BAT 也都有各自独特的处理技术,但由于国内大环境所致,商业公司在运作时首先考虑的是商业及保密措施,使得国内开源界在分布式处理方面相对薄弱,基本上是空白战场。
目前看来,Hadoop 比较适合用于离线数据处理,Spark 及Storm 的实时处理技术正好弥补了Hadoop 实时处理的欠缺。虽然Hadoop、Spark 及Storm 都在快速发展,但国内真正深入理解这三者的人毕竟凤毛麟角,而且Hadoop 集群本身动辄就需要上百台服务器的集群,这对中小企业来说基本上是不可能的,而且中小企业也很少能够拥有精通Hadoop、Spark 及Storm 的资深技术人员,这就导致绝大部分中小企业的大数据处理基本上处于停滞状态,它们眼睁睁地看着大量数据产生,而无法进行相应处理。即使众中小企业花费巨资招聘了Storm、Spark Streaming开发人员,由于自身平台的限制,开发者基本上只是简单地调用其封装好的API,很难从源码跟踪到问题根源,也就造成生产环境下有很多问题难以解决。
时代在变,技术也在变,没有任何一项技术会解决所有问题,对企业及个人开发而言,适合自己的才是最好的。Hadoop3.x 以后将会调整方案架构,将MapReduce 基于内存 IO 磁盘,共同处理数据,这点和当前的Spark 很像;Storm1.0也打破了之前一直存在的诟病:Nimbus 单点问题,实现了HA,这点和阿里推出的JStorm 很像,而JStorm 本身也是源自Storm;最近Twitter 又推出Heron,兼容Storm。Storm 也提供了类似Spark Streaming 的微批处理方式trident(以一组tuple 为单位)。上述开源项目之间都在互相学习对方优点,取其精华为己所用。鉴于上述原因,本书作者经过多年的深入思考,结合自己硕士毕业8 年多的一线互联网开发经验,根据Hadoop 的MapReduce 及当前主流实时计算框架Storm的任务分发和Spark Streaming 的Mini-Batch 处理思想,利用时下比较流行的MQ、RPC、NoSQL 等,独力研发了一套轻量级分布式实时计算服务框架light_drtc。其最大特点就是简单易用,它可以帮助开发者快速实现自定义的实时计算平台,其设计目的是为了降低当前大数据时代的分布式实时计算入门门槛,方便初、中级读者上手,快速实现企业所需计算实时性要求比较高的业务逻辑。它本身既可以作为独立的分布式实时计算平台,也可以以嵌入式方式,作为其他项目的基础类库存在。
Light_drtc 目前以Java8 为基础设计和实现,框架主要包括三部分:实时数据集服务(CollectNode,简称CN)、资源协调及任务管理服务(AdminNode,简称AN)和任务计算服务(JobNode,简称JN)。这套框架扩展灵活,各个相关组件可以自由扩展(目前框架已整合Kafka 和RabbitMQ,物理分布上可以将CN 和AN 整合在一起),集群节点所完成计算所需要的开发语言不仅限于Java,也可以
用时下流行的各种开发语言。
对中小企业而言,利用light_drtc 搭建分布式实时计算平台,不需要庞大的服务器集群规模,完全可以根据自己业务需要。例如抽取9 台服务器:其中3 台服务器同时兼做CN 和AN,6 台服务器做JN,每个AN 独立管理2 个JN,即可搭建自己的高可用分布式实时计算集群。在light_drtc 框架中,每个AN 都有自己独立管理的JN,且每个AN 至少独立管理1 个JN。框架使用比较方便,尤其是如果开发者也选用Kafka 或RabbitMQ,对于CN 和AN 而言,仅需要开发者自定义MQ 相关配置及实现框架所定义的流数据解析接口,将实现类传递给框架AN 节点启动类即可。对于JN,则需要开发者按照自己业务需求自行实现,框架中有丰富的实例可供参考。
本书偏重工程架构方面,主要内容除了作者自研的light_drtc 详细介绍,还会以作者多年一线互联网开发经验角度,陆续向读者介绍当前主流MQ、NoSQL、全文检索ElasticsearchSolr,及常用微服务架构技术实现RPC 和Web Service 的多种框架,最后介绍整个新闻个性化推荐系统的各个组成部分,对核心模块用户画像实时更新做了详细设计,并对比Storm、Spark Streaming 和light-drtc 不同实现方式。作者希望读者通过阅读本书,让您对分布式实时计算系统的设计原理及相关实现技术有更加清晰的理解,也希望让众多中小企业可以快速组建自己的分布式实时计算平台,也同时为国内分布式处理技术贡献一点自己的力量。最后给读者朋友分享一下个人多年学习的一点心得:万丈高楼平地起,任何
一项别人看似游刃有余的技能都是经过时间打磨后的熟能生巧,希望读者朋友们经过自己的奋斗都可以实现人生目标,达到人生顶峰。
王成光
201685