新書推薦:
《
大英博物馆东南亚简史
》
售價:HK$
177.0
《
纯粹·我只要少许
》
售價:HK$
80.6
《
投机苦旅:一位投机客的凤凰涅槃
》
售價:HK$
88.5
《
重返马赛渔场:社会规范与私人治理的局限
》
售價:HK$
69.4
《
日子慢慢向前,事事慢慢如愿
》
售價:HK$
55.8
《
场景供应链金融:将风口变成蓝海
》
售價:HK$
111.8
《
汗青堂丛书146·布鲁克王朝:一个英国家族在东南亚的百年统治
》
售價:HK$
91.8
《
人生是旷野啊
》
售價:HK$
72.8
|
內容簡介: |
大数据技术生态体系中的各类技术构件本身没有可自省的安全机制,构件间使用的RPC协议也没有安全机制,大数据平台的安全性面临着巨大挑战,如何高效、快速地检测大数据平台中的应用异常对提高大数据平台的安全性具有重要意义。本书在介绍相关研究工作及相关基础内容之后,主要针对大数据平台的应用层日志数据,研究了平台异常的检测与分析问题,构建了大数据平台异常的离线检测分析的方法体系及实时检测的机制。研究了基于数据流二重概念漂移检测的增量学习、分布式日志的*频繁序列模式挖掘算法、基于*频繁模式的动态规则库构建算法、基于Web会话流的分布式实时异常定位算法、基于*信息系数的在线异常检测算法、基于聚类分析的离线异常检测算法、基于相邻请求的动态时间阈值会话识别算法、基于会话特征相似性模糊聚类的SFAD异常检测算法、基于贝叶斯粒子群的异常检测算法、平台异常时的推测式任务调度策略、基于实时负载的推测式任务调度算法。分析了大数据平台异常检测分析(RADA)系统在实现时所采用的大数据技术与组件技术选型,针对RADA系统进行了深入的结构化分析,介绍了基于融合架构的RADA系统概要设计,研究了RADA系统的详细设计与实现方法,完整地总结了大数据平台异常的实时检测技术与分析RADA系统的关键技术。本书可为产业界与学术界相关人员提供应用研发的帮助,可供计算机专业、软件工程专业的相关工程技术人员、研究人员学习、参考。
|
關於作者: |
肖如良,福建师范大学软件学院教授,中国通信学会云计算机专委委员、中国计算机学会学术工委委员、福建省人工智能学会常务理事,中国计算机学会高级会员,IEEE计算机学会会员、ACM会员。福建师范大学智能软件工程中心Web智能新技术研发实验室负责人,多个期刊及多个国际会议的论文审稿人。
|
目錄:
|
第1章 绪论 1
1.1 大数据平台异常检测分析研究的背景与意义 1
1.2 大数据平台异常检测分析技术的国内外相关研究进展 3
1.2.1 大数据平台异常检测分析技术的国内外研究现状 3
1.2.2 大数据平台异常检测分析系统的国内外研究现状 5
1.3 本书的主要贡献 7
1.4 本书的组织结构 8
1.5 本章小结 11
第2章 大数据平台异常检测分析的相关基础 12
2.1 引言 12
2.2 日志 12
2.3 日志预处理 13
2.4 异常检测 14
2.4.1 异常检测的定义 14
2.4.2 几类常见的异常检测算法 14
2.5 入侵检测Snort系统 16
2.6 Web用户行为模式挖掘 17
2.7 本章小结 19
第3章 基于数据流二重概念漂移检测的增量学习 20
3.1 引言 20
3.2 二重概念漂移检测机制 20
3.3 基于数据属性的二重概念漂移检测机制 21
3.4 基于分类性能的二重概念漂移检测机制 22
3.5 基于增量SVM与二重检测的概念漂移数据流分类模型TDD-ISVM 23
3.6 TDD-ISVM算法的时间复杂度分析 25
3.7 实验设计与结果分析 26
3.7.1 实验数据集 26
3.7.2 实验结果与分析 26
3.8 本章小结 29
第4章 分布式日志的最大频繁序列模式挖掘算法 31
4.1 引言 31
4.2 序列模式挖掘相关工作 32
4.3 动机与背景 33
4.3.1 使用分布式计算框架的动机与背景 33
4.3.2 使用PrefixSpan算法挖掘序列模式的动机与背景 34
4.3.3 改进PrefixSpan算法提取局部最大频繁序列的动机与背景 34
4.3.4 改进PrefixSpan算法提取全局最大频繁序列的动机与背景 35
4.4 分布式日志最大频繁序列模式挖掘算法描述 35
4.4.1 基于Spark的分布式计算框架 35
4.4.2 算法总体描述 36
4.4.3 算法第一阶段:各节点提取局部最大频繁序列 37
4.4.4 算法第二阶段:各节点集成,提取全局最大频繁序列 37
4.5 实验设计与结果分析 38
4.5.1 实验数据集 38
4.5.2 实验结果与分析 38
4.6 本章小结 41
第5章 基于最大频繁模式的动态规则库构建算法 42
5.1 引言 42
5.2 动态Web用户访问序列数据库DWASD的构建 43
5.3 基于DWASD的分布式PrefixSpan算法 44
5.3.1 PrefixSpan算法改进描述 44
5.3.2 算法的时间复杂度分析 46
5.4 实验设计与结果分析 46
5.4.1 实验数据集 46
5.4.2 实验结果与分析 46
5.5 本章小结 48
第6章 基于Web会话流的分布式实时异常定位算法 49
6.1 引言 49
6.2 基于Web会话流的实时异常定位框架 50
6.3 基于混合生物基因序列比对的异常定位AL_HBGSA算法 50
6.3.1 基本概念 51
6.3.2 AL_HBGSA序列比对算法 51
6.3.3 AL_HBGSA算法的时间复杂度分析 54
6.4 实验设计与结果分析 54
6.4.1 实验数据集 54
6.4.2 实验结果与分析 55
6.5 本章小结 59
第7章 基于最大信息系数的在线异常检测算法 60
7.1 引言 60
7.2 相关基础 60
7.2.1 用户活跃度 60
7.2.2 最大信息系数 61
7.3 基于最大信息系数的在线异常检测算法介绍 62
7.4 算法的时间复杂度分析 64
7.5 实验设计与结果分析 64
7.5.1 实验数据集 64
7.5.2 实验结果与分析 65
7.6 本章小结 68
第8章 基于聚类分析的离线异常检测算法 69
8.1 引言 69
8.2 基本聚类算法 69
8.2.1 K-means聚类算法 69
8.2.2 Canopy聚类算法 70
8.2.3 CMBK聚类算法 71
8.3 基于改进聚类分析的离线异常检测算法 72
8.3.1 异常指数 72
8.3.2 CMBK4AD离线异常检测算法 73
8.4 算法的时间复杂度分析 73
8.5 实验设计与结果分析 73
8.5.1 实验数据集 74
8.5.2 实验结果与分析 74
8.6 本章小结 76
第9章 基于相邻请求的动态时间阈值会话识别算法 77
9.1 引言 77
9.2 相关基础 78
9.2.1 页面访问时间阈值 78
9.2.2 用户访问时间阈值 78
9.2.3 设置页面时间阈值 79
9.3 DAITS算法 79
9.4 实验设计与结果分析 81
9.4.1 实验数据集 81
9.4.2 实验结果与分析 81
9.5 本章小结 82
第10章 基于会话特征相似性模糊聚类的SFAD异常检测算法 83
10.1 引言 83
10.2 基本工作 85
10.2.1 会话特征中网络权重的计算 85
10.2.2 会话特征相似性的计算 85
10.2.3 会话数据集的模糊聚类方法 86
10.3 会话特征相似性模糊聚类的异常检测算法 87
10.3.1 会话的数据结构及生成 87
10.3.2 建立用户相似性矩阵 88
10.3.3 检测和定位异常用户 88
10.4 实验设计与结果分析 89
10.4.1 数据集描述 89
10.4.2 实验结果与分析 90
10.5 本章小结 93
第11章 基于贝叶斯粒子群的异常检测算法 94
11.1 引言 94
11.2 基于朴素贝叶斯分类的异常检测模型ADM-NBC 95
11.2.1 用户会话特征提取 95
11.2.2 ADM-NBC的构建 96
11.3 基于ADM-NBC的WNB-PSO算法 97
11.3.1 加权朴素贝叶斯分类算法 97
11.3.2 粒子群优化算法 97
11.3.3 改进的粒子群优化算法 99
11.3.4 WNB-PSO算法描述 99
11.4 实验设计与结果分析 101
11.4.1 实验数据集 101
11.4.2 实验结果与分析 101
11.5 本章小结 104
第12章 平台异常时的推测式任务调度策略 105
12.1 引言 105
12.2 多用户作业调度器 105
12.2.1 公平调度器 105
12.2.2 计算能力调度器 107
12.3 推测执行调度算法 109
12.3.1 Hadoop-Original推测执行调度算法 110
12.3.2 LATE推测执行调度算法 110
12.3.3 基于备份任务完成时间的推测执行调度策略 111
12.3.4 Mantri系统推测执行调度策略 112
12.4 本章小结 112
第13章 基于实时负载的推测式任务调度算法 113
13.1 引言 113
13.1.1 Hadoop-Original推测式任务调度算法的不足 113
13.1.2 LATE推测式任务调度算法的不足 113
13.2 推测式任务调度算法改进 114
13.2.1 基于混合进度比的任务进度估算方法 114
13.2.2 慢任务判定方法 115
13.2.3 慢节点判定方法 116
13.3 节点负载分级模型 117
13.4 基于实时负载的推测式任务调度算法流程 119
13.5 实验设计与结果分析 120
13.5.1 实验平台及部署 120
13.5.2 测试作业选择及评估方式 121
13.5.3 实验方案 122
13.5.4 实验结果与分析 122
13.6 本章小结 126
第14章 大数据Lambda架构与微服务架构技术选型 127
14.1 引言 127
14.2 大数据技术Lambda架构 127
14.2.1 Hadoop技术基础 127
14.2.2 Spark技术生态体系 129
14.2.3 基于Flume Kafka的大数据收集组件 130
14.2.4 基于Spark的大数据处理组件 131
14.2.5 基于HBase的大数据存储与管理组件 131
14.2.6 基于MLlib的大数据分析及挖掘组件 131
14.2.7 基于Spark Streaming的大数据流处理组件 132
14.3 微服务架构的有关组件技术选型 132
14.3.1 微服务架构 132
14.3.2 Spring Boot 133
14.3.3 MyBatis 133
14.3.4 Spring Cloud 134
14.4 本章小结 135
第15章 大数据平台异常检测分析系统的结构化分析 136
15.1 引言 136
15.2 问题与场景描述 136
15.3 初步需求分析 137
15.4 系统数据流 137
15.4.1 顶层数据流 137
15.4.2 第一层数据流 138
15.4.3 第二层数据流 138
15.4.4 第三层数据流 139
15.5 功能需求 139
15.6 非功能需求 140
15.7 本章小结 140
第16章 基于融合架构的RADA系统概要设计 141
16.1 引言 141
16.1.1 RADA系统逻辑架构的初步构建 141
16.1.2 RADA系统物理架构的初步构建 141
16.2 RADA系统逻辑架构设计 142
16.2.1 基于微服务架构的RADA系统逻辑架构设计 143
16.2.2 基于Lambda架构的RADA系统逻辑架构设计 143
16.2.3 基于微服务架构和Lambda架构的RADA系统技术架构设计 143
16.3 运行部署环境 144
16.3.1 系统运行网络环境 144
16.3.2 系统运行硬件环境 145
16.3.3 系统运行软件环境 145
16.4 日志预处理子系统概要设计 145
16.4.1 上传离线日志 146
16.4.2 处理离线日志 147
16.4.3 获取实时日志 148
16.4.4 处理实时日志 148
16.4.5 日志规范化 149
16.4.6 处理规范化日志 150
16.4.7 添加日志模板 151
16.4.8 处理日志模板 152
16.5 监控告警子系统概要设计 153
16.5.1 设置告警方式 154
16.5.2 离线异常检测 154
16.5.3 实时异常检测 156
16.5.4 查询异常信息 156
16.5.5 更新规则库 156
16.6 数据库设计 158
16.6.1 数据库实体关系分析 158
16.6.2 数据字典 159
16.7 本章小结 162
第17章 RADA系统的详细设计与实现方法 163
17.1 引言 163
17.2 RADA系统架构的实现机制 163
17.2.1 RADA系统中微服务架构的实现 163
17.2.2 RADA系统中Lambda架构的实现 164
17.3 日志预处理的详细设计 164
17.3.1 控制层设计 164
17.3.2 服务层设计 166
17.3.3 持久化层设计 168
17.4 监控告警模块的详细设计 169
17.4.1 控制层设计 169
17.4.2 服务层设计 170
17.4.3 持久层设计 171
17.5 核心用例的实现 172
17.5.1 上传离线日志 172
17.5.2 离线日志规范化处理 173
17.5.3 离线异常检测 174
17.5.4 获取实时日志 177
17.5.5 实时日志规范化处理 178
17.5.6 实时异常检测 178
17.6 1
|
內容試閱:
|
移动互联网、社交网、云计算、物联网的飞速发展促使大数据的各种应用迅速增多,搭建在大数据平台上的各类应用服务已成为含有大量用户隐私信息和体现运营商利益的共同体,应用层的安全问题变得越来越严峻。然而国内外相关的技术往往针对分布式集群系统的下层,很少针对分布式集群系统的上层,对于系统应用中的异常检测分析而言,实时检测与定位异常的能力较弱。分布式异常检测技术是当前学术界与产业界的广泛研究热点,但实用的成果还不多。在此背景下,针对大数据平台准确地检测异常并发现其根源,直接关系到大数据平台运营商及平台用户的广泛利益,因此,研究大数据平台在应用层的各类异常检测分析方法具有重要意义。
本书以大数据平台上层应用的异常检测关键技术为主要研究内容,一方面,将离线分析方法和实时检测方法相结合,研究大数据平台异常检测分析的关键技术;另一方面,对异常检测系统研发的关键模块进行详细描述。
全书共18章,第1章介绍对大数据平台进行异常检测分析的背景与意义、相关研究进展、本书的主要贡献与组织结构等;第2章介绍大数据平台异常检测分析的相关基础;第3章介绍基于数据流二重概念漂移检测的增量学习;第4章介绍分布式日志的最大频繁序列模式挖掘算法;第5章介绍基于最大频繁模式的动态规则库构建算法;第6章介绍基于Web会话流的分布式实时异常定位算法;第7章介绍基于最大信息系数的在线异常检测算法;第8章介绍基于聚类分析的离线异常检测算法;第9章介绍基于相邻请求的动态时间阈值会话识别算法;第10章介绍基于会话特征相似性模糊聚类的SFAD异常检测算法;第11章介绍基于贝叶斯粒子群的异常检测算法;第12章介绍平台异常时的推测式任务调度策略;第13章介绍基于实时负载的推测式任务调度算法;第14章介绍大数据Lambda架构与微服务架构技术选型;第15章介绍大数据平台异常检测分析系统的结构化分析;第16章介绍基于融合架构的RADA系统概要设计;第17章介绍RADA系统的详细设计与实现方法;第18章是总结与展望。
本书由肖如良著,较全面地介绍国内外异常检测分析领域的相关研究和成果,研究异常检测分析技术实现过程中需要解决的若干关键技术,这些技术是支撑大数据平台系统安全的核心技术。大数据平台异常检测分析的若干方法及实现RADA系统的具体方法,能为产业界提供应用示范。本书中的多项工作已申请了发明专利。
本书作者与福建榕基软件股份有限公司合作,受福建省科技计划项目的资助,开展了大数据平台异常检测分析的关键技术研发及产业化(2016H7006)的立项研究,本书全面地总结了本项目的研究成果及拓展的主要内容。
本书虽然几易其稿,但是错误仍然不可避免。梅忠、李奕诺、彭行雄、丘志鹏、张锐、曾令、苏家威、陈雄等研究生同学对本书中的关键技术进行了编程实现,付出了努力,对本书部分内容的撰写也提供了很重要的帮助。电子工业出版社的王晓庆编辑为本书的出版做了大量的工作,对此深表感谢。最后,特别感谢我的家人对我的支持。
本书成书仓促,错误之处敬请各位读者批评指正。
肖如良
xiaoruliang@fjnu.edu.cn
2020年5月
|
|