新書推薦:
《
知宋·宋代之司法
》
售價:HK$
99.7
《
空间与政治
》
售價:HK$
87.4
《
少年读三国(全套12册)
》
售價:HK$
490.6
《
不完美之美:日本茶陶的审美变
》
售價:HK$
87.4
《
现代化的迷途
》
售價:HK$
98.6
《
钛经济
》
售價:HK$
77.3
《
甲骨文丛书·无垠之海:世界大洋人类史(全2册)
》
售價:HK$
322.6
《
中国救荒史
》
售價:HK$
109.8
|
編輯推薦: |
-以易于理解的方式梳理数据挖掘背后的基础知识 -全面展示预测分析领域广泛的实践案例和方法 -无需编写代码,即可解决数据分析问题
|
內容簡介: |
《预测分析与数据挖掘 RapidMiner实现》旨在帮助读者理解数据挖掘方法的基础知识,并实现无需编写代码就能在自己的工作中实践这些方法。书中围绕分类、回归、关联分析、聚类、异常检测、文本挖掘、时间序列预测、特征分析等数据挖掘问题,着重介绍了决策树、k近邻、人工神经网络、线性回归、k均值聚类等当今广泛使用的二十多种算法,针对每一种算法都先以通俗的语言解释其原理,再使用开源数据分析工具 RapidMiner加以实现。 《预测分析与数据挖掘 RapidMiner实现》适合在日常工作中大量接触数据的分析师、金融专家、市场营销人员、商务专业人士等阅读。
|
關於作者: |
Vijay Kotu,Yahoo分析总监,负责线上业务的大数据与分析系统的实现,在预测分析领域有十余年工作经验。ACM会员,美国质量协会认证的六西格玛黑带。 Bala Deshpande,业界知名数据分析应用开发与咨询公司SimaFore创始人,20余年分析经验,精通各类分析技巧,经常在其博客www.simafore.comblog上分享数据挖掘与预测分析方面的心得。 严云研究兴趣为计算生物学,以0和1的语言解读ATGC的世界。
|
目錄:
|
第 1章 引言1
1.1 什么是数据挖掘2
1.1.1 有意义模式的提取2
1.1.2 代表性模型的构建2
1.1.3 统计、机器学习和计算的搭配3
1.1.4 算法4
1.2 对数据挖掘的误解4
1.3 数据挖掘的初衷5
1.3.1 海量数据5
1.3.2 多维6
1.3.3 复杂问题6
1.4 数据挖掘的种类7
1.5 数据挖掘的算法8
1.6 后续章节导览9
1.6.1 数据挖掘的序曲9
1.6.2 小插曲10
1.6.3 主要内容:预测分析和数据挖掘算法10
1.6.4 特别应用12
参考文献13
第 2章 数据挖掘流程14
2.1 先验知识16
2.1.1 目标16
2.1.2 研究问题的背景17
2.1.3 数据17
2.1.4 因果性与相关性18
2.2 数据准备19
2.2.1 数据探索19
2.2.2 数据质量20
2.2.3 缺失值20
2.2.4 数据类型和转换20
2.2.5 数据转换21
2.2.6 离群点21
2.2.7 特征选择21
2.2.8 数据采样22
2.3 建模22
2.3.1 训练集和测试集23
2.3.2 建模算法24
2.3.3 模型评估25
2.3.4 集成建模26
2.4 应用27
2.4.1 生产准备27
2.4.2 方法整合27
2.4.3 响应时间28
2.4.4 重构模型28
2.4.5 知识融合28
2.5 新旧知识29
2.6 后续章节预告29
参考文献29
第3章 数据探索31
3.1 数据探索的目标31
3.2 走进数据32
3.3 描述性统计分析34
3.3.1 单变量探索35
3.3.2 多变量探索36
3.4 数据可视化39
3.4.1 一个维度内数据频率分布的可视化39
3.4.2 直角坐标系内多变量的可视化43
3.4.3 高维数据通过投影的可视化48
3.5 数据探索导览50
参考文献51
第4章 分类52
4.1 决策树52
4.1.1 算法原理53
4.1.2 算法实现59
4.1.3 小结71
4.2 规则归纳72
4.2.1 建立规则方法73
4.2.2 算法原理74
4.2.3 算法实现77
4.2.4 小结81
4.3 k 近邻算法81
4.3.1 算法原理82
4.3.2 算法实现88
4.3.3 小结91
4.4 朴素贝叶斯91
4.4.1 算法原理93
4.4.2 算法实现100
4.4.3 小结102
4.5 人工神经网络102
4.5.1 算法原理105
4.5.2 算法实现108
4.5.3 小结110
4.6 支持向量机111
4.6.1 概念和术语111
4.6.2 算法原理114
4.6.3 算法实现116
4.6.4 小结122
4.7 集成学习模型122
4.7.1 集体的智慧123
4.7.2 算法原理124
4.7.3 算法实现126
4.7.4 小结134
参考文献134
第5章 回归方法137
5.1 线性回归139
5.1.1 算法原理139
5.1.2 使用RapidMiner实战的目标与数据141
5.1.3 算法实现142
5.1.4 线性回归建模要点148
5.2 Logistic回归149
5.2.1 快速入门Logistic回归150
5.2.2 模型原理151
5.2.3 模型实现155
5.2.4 Logistic回归小结158
5.3 总结158
参考文献158
第6章 关联分析160
6.1 挖掘关联规则的基本概念161
6.1.1 项集162
6.1.2 生成关联规则的一般步骤164
6.2 Apriori算法166
6.2.1 使用Apriori算法找出高频项集167
6.2.2 生成关联规则169
6.3 FP-Growth算法169
6.3.1 生成FP树170
6.3.2 高频项集的生成172
6.3.3 FP-Growth算法实现173
6.4 总结176
参考文献176
第7章 聚类178
7.1 聚类方法的种类179
7.2 k均值聚类182
7.2.1 k均值聚类原理183
7.2.2 算法实现187
7.3 DBSCAN聚类191
7.3.1 算法原理192
7.3.2 算法实现195
7.3.3 小结197
7.4 SOM 197
7.4.1 算法原理199
7.4.2 算法实现202
7.4.3 小结208
参考文献208
第8章 模型评估210
8.1 混淆矩阵210
8.2 ROC曲线和AUC212
8.3 提升曲线214
8.4 评估预测结果217
8.5 总结221
参考文献221
第9章 文本挖掘222
9.1 文本挖掘算法的原理223
9.1.1 TF-IDF223
9.1.2 术语和概念225
9.2 使用聚类和分类算法实现文本挖掘229
9.2.1 实例1:关键词聚类229
9.2.2 实例2:预测博客作者的性别232
9.3 总结241
参考文献242
第 10章 时间序列预测243
10.1 基于数据的时序分析245
10.1.1 朴素预测法245
10.1.2 简单平均法246
10.1.3 移动平均法246
10.1.4 加权移动平均法247
10.1.5 指数平滑法247
10.1.6 Holt双参数指数平滑法. . 248
10.1.7 Holt-Winter三参数指数平滑法249
10.2 基于模型的预测方法250
10.2.1 线性回归251
10.2.2 多项式回归252
10.2.3 考虑季节性的线性回归模型252
10.2.4 自回归模型与ARIMA254
10.2.5 基于RapidMiner的实现254
10.3 总结261
参考文献261
第 11 章异常检测262
11.1 异常检测的基本概念262
11.1.1 出现离群点的原因262
11.1.2 异常检测的方法264
11.2 基于距离的离群点检测方法266
11.2.1 方法原理267
11.2.2 方法实现268
11.3 基于密度的离群点检测方法270
11.3.1 方法原理270
11.3.2 方法实现271
11.4 局部离群因子272
11.5 总结274
参考文献275
第 12章 特征选择276
12.1 特征选择方法概览276
12.2 主成分分析278
12.2.1 算法原理279
12.2.2 算法实现280
12.3 以信息论为基础对数值型数据进行筛选284
12.4 以卡方检验为基础对类别型数据进行筛选286
12.5 基于封装器的特征选择289
12.5.1 向后消除法以缩减数据集大小290
12.5.2 哪些变量被消除了292
12.6 总结293
参考文献294
第 13章 RapidMiner入门295
13.1 用户操作界面以及介绍295
13.1.1 图形用户操作界面的介绍295
13.1.2 RapidMiner软件的术语296
13.2 数据导入和导出工具299
13.3 数据可视化工具302
13.3.1 单一变量可视化304
13.3.2 二维数据可视化304
13.3.3 多维数据可视化304
13.4 数据转换工具305
13.5 数据抽样与处理缺失值工具309
13.6 优化工具312
13.7 总结317
参考文献317
数据挖掘算法的比较319
|
|