新書推薦:
《
元朝理财记 从成吉思汗的崛起到元朝的衰亡
》
售價:HK$
98.6
《
欧洲史:一本书历览欧洲数千年兴衰起伏,理解欧洲文明何以铸就今日世界
》
售價:HK$
333.8
《
趣学CCNA——路由与交换(第2版)
》
售價:HK$
100.6
《
世界航空地理(世界国别与区域地理研究丛书)
》
售價:HK$
244.2
《
学术的中心:英法德美
》
售價:HK$
87.4
《
为什么要读人类学
》
售價:HK$
77.3
《
井邑无衣冠 : 地方视野下的唐代精英与社会
》
售價:HK$
95.2
《
星地融合移动通信系统与关键技术从5G NTN到6G的卫星互联网发展
》
售價:HK$
212.6
|
編輯推薦: |
对于数据驱动型公司,设计和构建流式数据架构能够实现实时或近实时应用,提升整个组织的效率。《流式架构:Kafka与MapR Streams数据流处理》简明的指南讲述了流设计中的关键因素(聚焦于消息层的关键特性)、新的消息技术 ApacheKafka 和 MapR Streams、流架构是如何支持微服务的,以及当下可供选择的流技术:Apache Spark Streaming、Apache Flink、Apache Storm和 Apache Apex,适合架构师、大数据科学家及 IT 工程师阅读。
|
內容簡介: |
所有连续的事件流都可以称为数据流。对连续数据流设计和构建流式数据架构,能够实现实时或近实时应用,提升整个组织的效率。本书以Apache Kafka 和MapRStreams为例,重点讲解如何确定使用流数据的时机、如何为多用户系统设计流式架构、为什么要求消息传递层具备某些特定功能,以及为什么需要微服务,并且描述了目前*符合流式设计需求的消息传递和流分析工具,适合架构师、大数据科学家及IT工程师阅读。
|
關於作者: |
Ted Dunning,MapR Technologies首席应用架构师,开源社区的活跃成员。现任Apache Foundation孵化器的VP,是大量项目的冠军得主和导师,也是Apache ZooKeeper和Drill项目的贡献者和PMC成员。Ellen Friedman,解决方案咨询师,著名演讲者和作家,目前主要撰写大数据方面的著作。她是Apache Drill和Apache Mahout项目的贡献者。
唐李洋,博士,研究方向为云计算、并行计算、数据挖掘与分析等。曾经在Cisco从事过数据架构方面的设计与分析工作。
|
目錄:
|
目录
第1 章 为什么使用流 ........................................................................................1
飞机、火车和汽车:车联网和物联网 .......................................................................................3
流数据:这才是现实世界 ...........................................................................................................6
什么时候需要流 ...........................................................................................................8
不止是实时:流架构的更多优势 ..............................................................................................11
流架构的最佳实践 ......................................................................................................................13
医疗数据流案例 ..........................................................................................................................14
流数据:架构设计的核心 ..........................................................................................................17
第2 章 流式架构 ...............................................................................................19
狭义视角:实时应用 ..................................................................................................................20
通用流式架构的关键问题 ..........................................................................................................21
消息传递技术的重要性 ..............................................................................................................24
实时分析工具 ..............................................................................................................................28
Apache Storm ....................................................................................................................30
Apache Spark Streaming ................................................................................................31
Apache Flink ....................................................................................................................32
Apache Apex ....................................................................................................................33
流分析功能比较 ......................................................................................................................33
小结 ..........................................................................................................................................36
第3 章 流架构:微服务的理想平台 ..............................................................37
为什么需要微服务 ..................................................................................................................38
微服务需要哪些支撑 ..............................................................................................................41
关于微服务的更多详情 ..........................................................................................................42
设计流架构:以在线视频服务为例 ......................................................................................45
新设计:支持消息传递的基础设施 ...............................................................................47
通用微架构的重要性 ..............................................................................................................49
命名问题 ..................................................................................................................................50
为什么使用分布式文件和NoSQL 数据库 ............................................................................52
视频服务的新设计 ..................................................................................................................52
小结:综合平台视角 ..............................................................................................................54
第4 章 使用Kafka 进行流传输 .....................................................................57
Kafka 的动机 ...........................................................................................................................57
Kafka 的创新 ...........................................................................................................................58
Kafka 的基本概念 ...................................................................................................................60
排序 ...............................................................................................................................61
持久化 ...........................................................................................................................62
Kafka API ....................................................................................................................................62
KafkaProducer API .............................................................................................................63
KafkaConsumer API ............................................................................................................66
遗留API ............................................................................................................................70
Kafka 实用程序 .......................................................................................................................71
负载均衡 ...........................................................................................................................71
镜像 ...................................................................................................................................72
Kafka 的陷阱 ...........................................................................................................................73
产品环境下的Kafka .........................................................................................................73
主题和分区的数目有限 ...................................................................................................74
手动均衡分区负载 ...........................................................................................................75
没有固有的序列化机制 ..................................................................................................76
镜像的不足 ......................................................................................................................77
小结 ..........................................................................................................................................78
第5 章 MapR Streams .....................................................................................79
MapR Streams 的创新 .............................................................................................................79
MapR 流系统的历史和情境 ....................................................................................................82
MapR Streams 的工作原理 ......................................................................................................84
配置MapR Streams ....................................................................................................................86
地理分布式复制 .......................................................................................................................89
MapR Streams 的陷阱 ...........................................................................................................91
第6 章 基于流数据的欺诈检测 ....................................................................93
刷卡速度 ................................................................................................................................94
快速响应决策:这是欺诈吗 ...........................................................................................95
多用途流数据 ...........
|
內容試閱:
|
OReilly Media, Inc.介绍
OReilly Media 通过图书、杂志、在线服务、调查研究和会议等方式传播创新知识。自1978 年开始,OReilly 一直都是前沿发展的见证者和推动者。超级极客们正在开创着未来,而我们关注真正重要的技术趋势通过放大那些细微的信号来刺激社会对新科技的应用。作为技术社区中活跃的参与者,OReilly 的发展充满了对创新的倡导、创造和发扬光大。
OReilly 为软件开发人员带来革命性的动物书;创建第一个商业网站(GNN);组织了影响深远的开放源代码峰会,以至于开源软件运动以此命名;创立了Make 杂志,从而成为DIY 革命的主要先锋;公司一如既往地通过多种形式缔结信息与人的纽带。OReilly 的会议和峰会集聚了众多超级极客和高瞻远瞩的商业领袖,共同描绘出开创新产业的革命性思想。作为技术人士获取信息的选择,OReilly 现在还将先锋专家的知识传递给普通的计算机用户。无论是通过书籍出版、在线服务或者面授课程,每一项OReilly 的产品都反映了公司不可动摇的理念信息是激发创新的力量。
业界评论
OReilly Radar 博客有口皆碑。
Wired
Oeilly 凭借一系列(真希望当初我也想到了)非凡想法建立了数百万美元的业务。
Business 2.0
Oeilly Conference 是聚集关键思想领袖的绝对典范。
CRN
一本Oeilly 的书就代表一个有用、有前途、需要学习的主题。
Irish Times
Tim 是位特立独行的商人,他不光放眼于最长远、最广阔的视野并且切实地按照Yogi Berra 的建议去做了:如果你在路上遇到岔路口,走小路(岔路)。回顾过去Tim 似乎每一次都选择了小路,而且有几次都是一闪即逝的机会,尽管大路也不错。
Linux Journal
前言
使用和处理连续数据流的能力,是一项极具竞争力的优势。因此,能够利用流数据,逐渐成为构建数据驱动型组织的一个重要条件。流数据的广泛使用引发了如何进行更好的系统设计才能有效处理流数据的思考,涉及从多个数据源提取数据,以及各种不同的使用场景,包括流分析和持久化问题。流架构设计的最佳实践层出不穷,甚至会让我们目瞪口呆流系统设计的范畴已经远远超出服务于特定的实时或近实时应用。使用新的方法进行流设计,能够极大地提升整个组织的效率。
目标读者
如果你已经在使用流数据,并且希望设计出一种能够实现最佳性能的体系结构,或者正要探索流数据的价值,那么这本书应该对你很有帮助。本书提供了很多真实案例,帮助你理解如何将这些方法应用到不同场景。此外,本书还为开发人员提供了示例程序的链接。
本书适合非技术或技术出身的读者,包括商业分析师、架构师、团队领导、数据科学家及开发人员。
内容梗概
本书内容包括:
如何确定使用流数据的时机
在多用户系统中如何更好地设计流架构
为什么这种设计要求消息传递层具备某些特定的功能
为什么流式架构支持微服务
最符合流设计需求的消息传递和流分析工具的描述
第1~3 章阐述了流和微服务架构的基本知识。如果你已经对流数据的业务目标很熟悉,可以直接从第2 章开始读,第2 章描述了我们推荐的适合流系统的架构。
我们不仅解释了流架构最佳实践所需的能力,还介绍了一些目前能够满足这些要求的技术。第4 章详细讲述Apache Kafka,并提供了示例代码链接。第5 章介绍另一种更适合消息传递的技术,即MapR Streams,它使用Apache Kafka API,但提供的功能更多。
后面的章节深入介绍了利用流数据的真实案例,并对这一激动人心的领域做出了前景展望。
相关补充资料(示例代码、练习等)在这里下载:https:www.mapr.combloggetting-started-sample-programs-apache-kafka-09 以及https:www.mapr.combloggetting-started-sample-programsmapr-streams。
本书的目的是帮助你完成工作。一般来说,如果书中有示例代码,你可以在自己的程序和文档中使用这些示例代码。只要不是大批量复制这些代码,都不必联系我们请求许可。例如,借用书中若干块代码编写程序,不需要许可;而将Oeilly 书中的例子制作成CD 售卖或发行,则需要许可。引用书中的示例代码回答某个问题,不需要许可;而在产品文档中大量使用示例代码,则需要许可。
我们非常希望你能在引用本书内容时标明出处,但并不强求。出处一般包含有书名、作者、出版商和ISBN。例如:Streaming Architecture: New Designs Using Apache Kafka and MapR Streams
by Ted Dunning and Ellen Friedman Oeilly.Copyright 2016 Ted Dunning and Ellen Friedman, 978-1-491-95392-1
如果你觉得示例代码的使用可能超越了合理使用范围,或者需要获得许可,请随时联系我们:permissions@oreilly.com。
Safari Books Online Safari Books Online
Safari Books Online 是应需而变的数字图书馆。它同时以图书和视频的形式出版世界顶级技术和商务作家的专业作品
技术专家、软件开发者、Web 设计师、商务人士和创意精英都可以将Safari 在线图书作为他们的调研、解决问题、学习和认证的主要资料来源。
Safari Books Online 对于组织团体、政府机构和个人提供各种产品组合和灵活的定价策略。用户可通过一个功能完备的数据库检索系统访问OReilly Media、Prentice Hall Professional、Addison-Wesley Professional、Microsoft Press、Sam、Que、Peachpit Press、Focal Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGarw-Hill、Jones & Bartlett、Course Technology 及其他数十家出版社的上千种图书、培训视频和正式出版前的书稿。要了解更多关于Safari Books Online 的信息,请访问我们的网站。
联系方式
请将对本书的评价和发现的问题通过如下地址告知出版者。
美国:
Oeilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
中国:
北京市西城区西直门南大街2 号成铭大厦C 座807 室
(100035)
奥莱利技术咨询(北京)有限公司
我们在http:bit.lystreaming-architecture 上列出了勘误表、示例和所有额外的信息。
要评论或者询问关于本书的任何技术问题, 请发邮件到bookquestions@oreilly.com。
要了解Oeilly 更多的图书、课程、会议和新闻,请访问我们的网站http:www.oreilly.com。
我们的Facebook 账号:http:facebook.comoreilly
我们的Twitter 账号:http:twitter.comoreillymedia
我们的YouTube 网址:http:www.youtube.comoreillymedia
读者服务
轻松注册成为博文视点社区用户(www.broadview.com.cn),您即可享受以下服务:
提交勘误:您对书中内容的修改意见可在 提交勘误处提交,若被采纳,将获赠博文视点社区积分(在您购买电子书时,积分可用来抵扣相应金额)。
交流互动:在页面下方 读者评论 处留下您的疑问或观点,与我们和其他读者一同学习交流。
页面入口:http:www.broadview.com.cn31722
|
|