新書推薦:
《
RDI人际关系发展疗法:修复孤独症核心障碍,让干预回归生活
》
售價:HK$
99.7
《
金融科技监管的目标、原则和实践:全球视野下加密货币的监管
》
售價:HK$
110.9
《
城市轨道交通绿色低碳规划设计研究——深圳地铁6号线工程创新与实践
》
售價:HK$
221.8
《
艾尔米塔什国家博物馆 少年游学 人一生一定要看的博物馆
》
售價:HK$
38.1
《
世界四大博物馆4册套装 卢浮宫大英大都会艾尔米塔什博物馆 青少年游学艺术参观科普书
》
售價:HK$
152.3
《
艺术家之路 塑造插画风格
》
售價:HK$
166.8
《
古乐钩沉(中国音乐学院60周年校庆中青年学者文集)
》
售價:HK$
132.2
《
我和抑郁症的3000天
》
售價:HK$
66.1
|
編輯推薦: |
(1)作者在Twitter等硅谷独角兽企业有多年大数据平台架构与开发经验,同时又在国内有数年数据中台建设经验,本书在内容上对这两方面的经验进行了充分比较和深度融合。
(2)本书得到了武汉大学计算机学院前院长、FaceBook和Twitter前工程总监、明略科技副总裁等多位国内外学术界和企业界专家的一致好评。
(3)从云原生角度切入,全面讲解云原生数据中台的架构、技术选型、落地方法论、实施路径和行业案例。
【免费视频课】作者亲授“;数字化能力与平台构建”;,搭配图书学习效果更佳!
获取方式:
1、微信关注“;华章计算机”;
2、在后台回复关键词:舞动数字
|
內容簡介: |
这是一部从云原生角度讲解数据中台的业务价值、产品形态、架构设计、技术选型、落地方法论、实施路径和行业案例的著作,得到了国内外企业界和学术界的技术专家一致好评。
本书的作者曾在硅谷的Twitter等企业从事大数据平台的建设工作多年,随后又成功创办了国内领先的以云原生数据中台为核心技术和产品的企业。他们将在硅谷的大数据平台建设经验与在国内的数据中台建设经验进行深度融合,并系统阐述了云原生架构对数据中台的必要性及其相关实践,对国内企业的中台建设和运营具有很高的参考价值。
全书共18章,分为四个部分:
第1部分(第1~4章) 数据中台与硅谷大数据平台
首先,从起源、定义、能力、应用场景、建设目标、建设方法论总纲等角度对数据中台做了全面的介绍;其次,讲解了数据中台如何驱动数字化转型;Z后,通过对硅谷的Twitter等独角兽企业的数据平台和国内的数据中台进行对比,给出了这两种架构之间的异同点。核心内容是让读者透彻理解数据中台对于业务的价值。
第二部分(第5~8章) 数据中台架构与方法论
结合硅谷的数据平台的架构方法,讲解了数据中台的架构方法和9大原则、数据中台建设的全套准备工作和系统方法论,以及云原生架构与数据中台的融合。
第三部分(第9~15章)数据中台技术选型与核心内容
首先,全方位地介绍了建设数据中台时如何进行技术选型,然后重点讲解了数据湖、数据仓库、数据资产管理、数据流水线管理、数据中台应用开发、数据门户等数据中台建设的核心内容。
第四部分(第16~18章)数据中台案例分析
通过游戏、零售、物联网3个领域的案例讲解了数据中台的搭建、实现与运营。
|
關於作者: |
彭锋
智领云科技联合创始人兼CEO
武汉大学计算机系本科及硕士,美国马里兰大学计算机专业博士,主要研究方向是流式半结构化数据的高性能查询引擎,在数据库会议和期刊SIGMOD、ICDE、TODS上发表多篇开创性论文。
2005年加入世界五百强企业IAC Ask.com,任分布式系统及大数据工程总监,负责研发分布式操作系统及中间件,以及集团大数据平台的建设。2011年加入Twitter,任大数据平台主任工程师、公司架构师委员会大数据负责人,负责公司大数据平台及流水线的建设和管理。作为硅谷天使投资人,曾投资硅谷多家大数据相关初创企业,并担任技术指导和行业顾问。2016年回国联合创立智领云科技有限公司。
宋文欣
智领云科技联合创始人兼CTO
武汉大学计算机系本科及硕士,美国纽约州立大学石溪分校计算机专业博士。曾先后就职于Ask.com和EA(电子艺界)。在Ask.com期间,担任大数据部门技术负责人及工程经理,使用Hadoop集群处理实时搜索数据,形成全球第1大Search Ads Arbitrage用户;在EA期间,担任数字平台部门高级研发经理,从无到有组建EA数据平台团队,建设公司大数据平台,为EA全球工作室提供数据能力支持。
2016年回国联合创立智领云科技有限公司,组建智领云技术团队,开发了BDOS大数据平台操作系统。
孙浩峰
智领云科技市场总监
前CSDN内容运营副总编,负责网站内容和商务合作、新媒体方面事宜,关注云计算、大数据、人工智能、区块链等技术领域,对云计算、网络技术、网络存储有深刻认识。拥有丰富的媒体从业经验和专业的网络安全技术功底,具有超过15年的企业级IT市场传播、推广、宣传和写作经验,撰写过多篇在业界具有一定影响力的文章。
|
目錄:
|
前言
部分 数据中台与硅谷大数据平台
第1章 全面了解数据中台
1.1 数据中台概念的起源 3
1.1.1 艺电的“;数据中台”;改造 4
1.1.2 Twitter的数据驱动 6
1.2 什么是数据中台 8
1.2.1 数据中台建设的目标 8
1.2.2 如何实现数据中台建设的目标 11
1.2.3 数据中台的定义和4个特点 13
1.3 大数据平台与数据中台 16
1.3.1 为什么要建设数据中台 16
1.3.2 数据中台与传统大数据平台的区别 20
1.3.3 数据中台的评判标准 24
1.4 数据中台建设方法论总纲 24
1.5 本章小结 27
第2章 数据中台能力和应用场景
2.1 数据中台不是“;银弹”; 28
2.2 数据中台的核心能力 31
2.2.1 全局商业洞见 31
2.2.2 个性化服务 34
2.2.3 实时数据报表 38
2.2.4 共享能力开发新业务 39
2.3 数据中台的行业应用场景 41
2.3.1 互联网行业 41
2.3.2 连锁零售业 42
2.3.3 金融业 43
2.3.4 物联网 44
2.4 数据中台如何为企业赋能 45
2.4.1 组织架构 46
2.4.2 决策部门 48
2.4.3 业务部门 51
2.4.4 研发部门 53
2.4.5 大数据部门 55
2.5 本章小结 56
第3章 数据中台与数字化转型
3.1 数字化转型的4个阶段 58
3.1.1 信息化 58
3.1.2 数据仓库(数据平台1.0) 59
3.1.3 大数据平台(数据平台2.0) 61
3.1.4 数据中台(数据平台3.0) 63
3.2 数据驱动 64
3.2.1 面向用户的数据驱动产品及服务 66
3.2.2 面向内部业务部门的数据驱动服务 68
3.2.3 数据驱动的系统管理 71
3.3 数据中台如何支持数字化转型 72
3.3.1 从技术层面支持数字化转型 73
3.3.2 从组织架构层面支持数字化转型 74
3.4 本章小结 75
第4章 从大数据平台到数据中台
4.1 大数据平台建设阶段 76
4.1.1 大数据平台起步 77
4.1.2 系统自动化 77
4.1.3 大数据平台的生产化 78
4.2 数据管理及应用阶段 80
4.2.1 数据湖/数据仓库建设 80
4.2.2 数据管理 81
4.2.3 数据安全 82
4.3 数据能力中台化阶段 84
4.3.1 全局的数据治理 85
4.3.2 数据能力的复用和共享 85
4.3.3 云原生架构的支撑 85
4.4 DataOps 87
4.4.1 什么是DataOps 87
4.4.2 DataOps解决的问题 88
4.4.3 DataOps的目标功能 90
4.4.4 DataOps的主要技术 91
4.4.5 DataOps与数据中台 92
4.5 本章小结 93
第二部分 数据中台架构与方法论
第5章 数据中台建设须知
5.1 数据中台建设需要一套方法论 96
5.2 从失败的大数据项目中吸取教训 98
5.3 数据中台建设中的常见问题 99
5.4 评判数据中台建设效果 101
5.5 数据中台建设的人员规划 103
5.6 数据中台的技术选型要求 106
5.7 本章小结 107
第6章 数据中台建设方法论
6.1 基础架构 109
6.2 数据工具 114
6.3 顶层架构设计 115
6.4 数据规范 116
6.5 业务驱动 118
6.6 关键指标 120
6.7 明确责权利 125
6.8 管理迭代 127
6.9 数据中台建设流程 128
6.10 本章小结 130
第7章 数据中台的架构
7.1 数据中台的功能定位 132
7.2 数据中台架构设计的9大原则 135
7.3 典型的硅谷大数据平台架构 137
7.3.1 Twitter的大数据平台架构 137
7.3.2 Airbnb的大数据平台架构 140
7.3.3 Uber的大数据平台架构 141
7.3.4 云平台作为大数据平台的通用底座 143
7.3.5 硅谷大数据平台架构的共性和建设思路 145
7.4 数据中台架构 147
7.5 数据中台子系统 150
7.5.1 应用基础能力平台 151
7.5.2 数据基础能力平台 152
7.5.3 数据集成开发平台 154
7.5.4 数据资产运营平台 156
7.5.5 数据业务能力层 158
7.5.6 数据中台重点建设内容 159
7.6 本章小结 160
第8章 数据中台与云原生架构
8.1 云原生架构及云平台 161
8.2 PaaS平台的主要功能 165
8.2.1 资源管理 167
8.2.2 应用全生命周期管理 169
8.2.3 高可用和容错 170
8.2.4 运维平台 172
8.3 传统方式下搭建数据中台的难点 173
8.4 云原生架构对于数据中台建设的5大意义 175
8.5 数据中台的IaaS层选择 178
8.6 本章小结 180
第三部分 数据中台技术选型与核心内容
第9章 数据中台建设与开源软件
9.1 开源软件的起源和建设过程 185
9.2 开源软件的合理使用 189
9.3 集成开源软件的5个注意事项 192
9.4 应用基础能力平台的开源选择 193
9.5 数据基础能力平台的开源选择 196
9.6 数据集成开发平台的开源选择 203
9.7 本章小结 205
第10章 数据湖与数据仓库
10.1 数据湖 207
10.1.1 数据湖的起源与作用 208
10.1.2 数据湖建设的4个目标 211
10.1.3 数据湖数据的采集和存储 212
10.1.4 数据湖中的数据治理 216
10.2 数据仓库 218
10.2.1 数据建模方式 219
10.2.2 数据仓库建设的层次 221
10.2.3 数据仓库中的数据治理 225
10.2.4 数据清洗 229
10.3 数据中台中的数据仓库和数据湖建设 231
10.4 本章小结 233
第11章 数据资产管理
11.1 数据资产管理的难题 235
11.2 数据资产管理定义 238
11.3 主数据管理 239
11.4 元数据管理 242
11.4.1 元数据的分类 243
11.4.2 元数据管理系统的功能 245
11.5 开源的元数据管理系统 247
11.6 数据资产的ROI 249
11.7 本章小结 250
第12章 数据流水线管理
12.1 数据流水线的定义与模型 251
12.2 数据流水线中的应用类别 254
12.3 数据流水线的运行方式 256
12.4 数据流水线示例 257
12.5 数据流水线管理系统面临的挑战 259
12.6 数据流水线管理系统的功能需求 262
12.6.1 自动化流水线 262
12.6.2 数据管理 263
12.6.3 性能要求 264
12.7 数据流水线管理系统的组件 265
12.8 批流合一的数据流水线 266
12.9 本章小结 269
第13章 数据中台应用开发
13.1 数据应用的形态 270
13.2 应用开发工具 277
13.3 3种典型的数据中台应用 279
13.3.1 数据即服务 279
13.3.2 模型即服务 281
13.3.3 用户标签系统 282
13.4 数据中台应用的开发和管理 283
13.4.1 应用调度系统 284
13.4.2 多租户管理 285
13.4.3 持续集成和发布 286
13.5 本章小结 287
第14章 数据门户
14.1 数据门户出现的背景 288
14.2 硅谷的数据门户建设 289
14.2.1 Twitter的DAL和EagleEye 290
14.2.2 LinkedIn的Data Hub 292
14.2.3 Airbnb的Data Portal 293
14.2.4 Lyft的Amundsen 294
14.2.5 Netflix的Metacat 296
14.2.6 Intuit的SuperGlue 297
14.2.7 硅谷数据门户总结 298
14.3 数据门户的定位及功能 299
14.4 数据门户的实现原理 301
14.5 数据门户的社交属性 303
14.6 数据应用的自助及协同工作 304
14.7 数据智能运维 306
14.8 本章小结 308
第15章 管理数据中台的演进
15.1 不断演进的数据中台 310
15.2 人员变动下的数据管理 310
15.2.1 数据安全 311
15.2.2 数据能力的传递 312
15.3 数据和应用的演进 314
15.4 资源的演进 316
15.5 演进中的关键指标 318
15.6 本章小结 321
第四部分 数据中台案例分析
第16章 EA“;数据中台”;实践
16.1 建设背景 324
16.2 组织架构调整 327
16.3 建设过程 328
16.4 体系架构 333
16.5 数据治理 336
16.5.1 数据标准和规范 336
16.5.2 元数据管理 338
16.5.3 数据质量管理 339
16.6 数据应用产品 340
16.6.1 推荐系统 340
16.6.2 打造动态游戏体验 341
16.6.3 标签系统及游戏运营 343
16.7 EA“;数据中台”;功能总结 344
16.8 本章小结 345
第17章 零售行业的数据中台
17.1 零售行业的数字化转型 346
17.2 零售行业数据中台解决方案 347
17.3 零售行业数据中台的建设 349
17.3.1 数据汇聚 350
17.3.2 业务调研 352
17.3.3 数据仓库建设及数据分析 354
17.3.4 业务系统的能力反馈 356
17.4 零售行业数据中台的应用场景 357
17.4.1 用户标签体系 357
17.4.2 精准市场营销 359
17.5 本章小结 361
第18章 物联网领域数据中台建设
18.1 现代物联网的产业链 362
18.2 物联网与ABC 365
18.3 物联网数据中台架构 366
18.4 智慧建筑物联网数据中台应用 371
18.5 本章小结 374
|
內容試閱:
|
数据中台的概念从刚刚提出时的火热到近的降温,似乎已经加速走过了Gartner技术成熟度曲线的一半周期:从出现,到受吹捧,到遭质疑,再到进入低谷。数据中台将逐渐消失,还是在成熟后成为像数据仓库一样的数据基础架构?终的答案当然要由市场给出,但我们想在本书中基于我们的经验与思考,介绍数据中台出现的根本原因、它在实现数据价值中的关键作用以及它的建设方式。
对于数据的价值,在大数据概念普及多年后的今天,大家应该是普遍认可的。我一直都在从事与数据相关的工作和研究,1996年在武汉大学跟随何炎祥老师做分布式数据挖掘方面的研究,2000年在美国马里兰大学做流式数据引擎相关的探索,2005年加入Ask.com做分布式操作系统的数据存储工作。2008年大数据概念出现,我在Ask.com做了一个非常明智的决定—;使用开源的Hadoop(而不是我们内部的分布式操作系统)替代日益昂贵、不堪重负的Oracle数据仓库,虽然我们的内部系统比Hadoop快一个数量级。替换了Oracle之后,我们还基于Hadoop平台开发了一系列数据驱动的产品,满足了不断增长的数据产品需求。2011年,我加入Twitter并负责大数据流水线的建设,我在实践中看到公司如何从数据中获取价值,实现整个企业的数据驱动。与此同时,我也与硅谷其他公司同行进行了广泛的探讨,这些使我坚定了自己的认识:未来的企业一定是数据驱动的企业,未来的大数据一定会和Word、Excel、数据库一样,成为企业运营人员的必备技能。
虽然数据的价值得到普遍认可,企业数字化转型的必要性也是大部分CEO的共识,但业界对一个关键问题的看法还远没有达成一致:数据中台是不是支撑企业数字化转型的合理的数据基础架构?在我们与国内企业交流的时候,很多企业的CEO、CIO仍对数据中台到底应该是什么形态有不少疑问。与之不同的是,硅谷的大多数知名独角兽公司有与数据中台架构相似的数据基础架构,即数据平台(Data Platform),并以此作为企业数字化运营的基础。这些数据平台虽然没有被称为中台,但却包含了我们通常认为中台需要承载的任务:打通企业各个部门之间的数据,形成统一的数据开发和使用规范,在企业各个部门之间实现数据能力的抽象、共享和复用。因此,本书试图找到这些数据平台的架构与国内普遍认可的数据中台架构之间的通用理念,并从对业务的实际需求层面探讨这些架构设计理念的合理性和必要性。
与传统技术中间件不一样,数据中台虽然也是承接底层数据和上层业务的中间层,但它的价值更多体现在与业务结合的能力矩阵,而不是简单的数据标准化和报表工具上。各个业务部门可以使用不同的技术中间件,这样虽然效率可能低一些,但是同样可以满足业务的要求。然而,分割的数据层无法对核心业务流程进行全局还原和支持,无法实现数据驱动的全局决策和产品研发。与传统的数据仓库受事前建模的限制不一样,数据中台一般使用数据湖来存储可以反映全局业务情况的原始数据,能够对核心业务流程进行更全面、更深入的分析,并在此基础上加快对市场的认识和反应,降低产品研发和试错的成本,缩短时间。因此,定义好业务能力矩阵,让业务部门看到数据中台实现从0到1的关键数据能力,将大数据平台从成本中心变成利润中心,应该是每个企业建设数据中台的目标。
除了确定对于业务的价值之外,建设数据中台的一个根本问题是技术架构的选择及设计。我在Twitter架构师委员会担任负责大数据平台的架构师期间,每个星期都会参加由CTO组织的产品架构评审和讨论会。这些会议给我留下深印象的不是对各种前沿技术的讨论,也不是架构设计中的技术难点攻关,而是技术架构对业务的重大影响。很多时候,我们看到一个快速发展的业务因为早期架构设计的问题而难以迭代,或者企业的发展受限于IT部门的效率。而一个高效的架构能够解放业务部门的生产力,真正赋能业务人员去完成以前想都不敢想的任务。其实数据中台这个概念会在国内出现,很大程度上也是因为架构的问题。试想一下,如果我们在设计大数据平台的时候就已经考虑到了消除数据孤岛、应用孤岛,统一数据规范,那么还需要单独建设一个数据中台吗?
因此,我们在本书中讨论了云原生架构对于数据中台的必要性。数据中台的一个天然特性是支持多元异构的数据以及处理这些数据的工具。虽然很多时候孤岛的产生有组织架构的原因,但是缺乏统一的数据平台,无法快速支持不同部门对数据的不同需求,这些也是产生孤岛的重要原因—;因为业务部门需要不断建设独立的系统以满足眼前的紧迫需求。在Twitter的大数据平台建设过程中,公司规模从300人发展到4000人,集群规模从80台服务器扩展到8000台服务器,利用云原生架构我们快速满足了各个部门对不同数据的需求,并极大简化了统一数据规范的工作。各个业务部门可以快速自主地在平台上开发自己的数据应用,很少需要额外的系统支持,从而大大降低了出现孤岛的可能性。随着云平台及容器技术的不断成熟,我们认为云原生架构一定是未来数据平台建设的必然选择。
当然,选择一个合适的技术架构只是数据中台建设的开始,明确了终目标也不能保证实施一定会成功,我们还需要清晰的实施路径和可落实的方法论。例如:建设数据中台是否需要改变组织架构?如何进行顶层设计以及管理实施迭代?我们认为,虽然数据中台是一个复杂的项目,但是其建设流程是非常明确和可控制的。与业务中台建设一般需要与业务组织架构对齐不同,数据中台建设很少要求对现有业务流程进行大的改动,它的目的是深刻理解当前的业务流程,提出优化建议并提供能力支持。因此,数据中台落地应该采取业务驱动、快速落地、小步快跑的方式,而不是一开始就做一把大而全的“;钥匙”;。在这个过程中,使用合适的指标体系衡量数据中台的投入产出比,以及提供合适的工具赋能业务部门,有助于数据中台得到业务部门的支持和认可,顺利完成中台的实施。在本书中,我们根据自己的经验和业界的一些成功实践对数据中台建设方法论进行了深入的探讨,希望能对读者有所帮助。
1995年,我作为一名程序员参与了中国农业银行武汉分行办公自动化系统的建设,此后25年,我有幸在国内和美国硅谷见证了IT技术为企业带来的运营效率的巨大提升。虽然一直在一线,参与了很多有挑战的技术工作,但是让我收获的还是作为企业技术管理者和数据负责人,与CEO、CMO、CIO一起探讨如何用数据为企业产生价值,以及作为架构师来推动OA、数据仓库、ERP、CRM、大数据、人工智能在企业的各种复杂场景中的落地。对这两个方面进行交叉审视,可以发现技术架构和业务能力间的独特连接:二者看似没有必然的因果关系,但在深层次上业务能力永远是技术架构的推动力、决策者和买单方。从这个角度来讲,数据库的出现解决了交易的问题,数据仓库的出现解决了关系型数据高维度的深度分析问题,大数据的出现解决了海量异构数据的存储和分析问题,而数据中台的出现是为了解决业务打通和提供全局数据能力的问题。数据库、数据仓库、大数据已经成为企业IT架构不可或缺的部分,我们认为,无论数据中台这个名称是否会继续存在,它所涉及的问题都是企业的数据基础架构必须解决的。因此,本书重点讨论了对于业务需求和架构设计而言数据中台这个概念出现的必然性,也深入介绍了架构选择与业务需求之间的联系,试图为正在解决这些问题的企业和机构提供一些架构设计和落地方案上的参考。
本书是智领云团队协作的结晶,除了署名的三位作者之外,产品经理王龙飞、王纯、黄艳以及设计师龚清、市场部刘丹等也在本书的内容组织、图片设计方面做了大量工作。此外,非常感谢机械工业出版社华章公司的编辑杨福川和罗词亮,他们在本书的写作过程中提供了大量的帮助和反馈,让我们得以顺利完成本书的写作。
希望本书能在应对数字化转型挑战方面为读者提供一些思路和参考,感谢大家的支持。
彭锋
2021年4月
|
|