《小白学数据挖掘与机器学习——SPSS Modeler案例篇》 - 张浩彬 - 电子工业出版社 - 香港大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

『簡體書』小白学数据挖掘与机器学习——SPSS Modeler案例篇

書城自編碼： 3204155
分類：簡體書→大陸圖書→計算機/網絡→數據庫
作者：张浩彬
國際書號(ISBN)： 9787121338434
出版社：电子工业出版社
出版日期： 2018-06-01
版次： 1
頁數/字數： 240/
書度/開本： 16开釘裝：平装

售價：HK$ 112.2

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《盗臣：乾隆四十六年钦办大案纪事》
售價：HK$ 82.5

《发明与经济增长》
售價：HK$ 97.9

《探秘人体》
售價：HK$ 108.9

《从奥林匹斯山走来：德意志的考古学与爱希腊主义（1750—1970）》
售價：HK$ 140.8

《乱世流离三百年：两晋南北朝十二讲（3版）两晋南北朝历史入门读物，东晋仍为皇权政治时代》
售價：HK$ 107.8

《二战图文史：战争历程完整实录》
售價：HK$ 239.8

《中世纪生活图鉴（保命tips：别被蜗牛追杀，更别惹会爆炸的猫！）》
售價：HK$ 96.8

《草原帝国》
售價：HK$ 140.8

編輯推薦：

17位业内专家联合力荐
轻松掌握图形化数据挖掘工具SPSS Modeler
快速实现各种算法及模型
减少大量编写代码的工作
更专注数据本身及模型结论

內容簡介：

《小白学数据挖掘与机器学习SPSS Modeler案例篇》用生活中常见的例子、有趣的插图和通俗的语言，把看上去晦涩难懂的数据挖掘与机器学习知识以通俗易懂的方式分享给读者，让读者从入门学习阶段就发现，原来数据挖掘与机器学习不但有用，还很有趣。
《小白学数据挖掘与机器学习SPSS Modeler案例篇》以IBM SPSS
Modeler 作为案例实践工具，首先介绍了数据挖掘的基本概念及数据挖掘方法，然后介绍了IBM SPSS Modeler 工具的基本使用、数据探索、统计检验、回归分析、分类算法、聚类算法、关联规则、神经网络以及集成学习。每一章都会以漫画形式介绍一些日常小例子并作为切入点，用通俗的语言介绍具体的算法理论，同时在每章*后都附上应用案例，让读者更轻松地阅读《小白学数据挖掘与机器学习SPSS Modeler案例篇》并掌握对应的算法和实践操作。
《小白学数据挖掘与机器学习SPSS Modeler案例篇》内容循序渐进，完整覆盖了数据挖掘与机器学习的主要知识点，适合数据挖掘与机器学习入门读者阅读。

關於作者：

张浩彬，数据分析数据挖掘专家，目前任职于国际商业机器（中国）有限公司认知计算部门，曾张浩彬，人称浩彬老撕，曾任IBM大中华区商业智能事业部SPSS分析工程师，认知解决方案事业部数据分析专家，现任广东柯内特环境科技有限公司首席数据科学家，致力机器学习及SPSS技术分享，专注于人工智能技术与应用。
微信公众号：探数寻理（wetalkdata）

第 1 章数据挖掘那些事儿 \ 1
1.1 当我们在谈数据挖掘时，其实在讨论什么 \ 2
1.2 从 CRISP-DM 开启数据挖掘实践 \ 7

第 2 章数据挖掘之利器：SPSS
Modeler \ 17
2.1 SPSS Modeler 简介 \ 18
2.2 SPSS Modeler 的下载与安装 \ 21
2.3 SPSS Modeler 的主界面及基本操作 \ 23
2.3.1 SPSS Modeler 主界面介绍 \ 23
2.3.2 鼠标基本操作 \ 31
2.4 将 SPSS Modeler 连接到服务器端 \ 31

第 3 章巧妇难为无米之炊：数据，数据！
\ 34
3.1 数据的身份 \ 35
3.1.1 变量的测量级别 \ 35
3.1.2 变量的角色 \ 36
3.2 数据的读取 \ 37
3.2.1 读取 Excel 文件数据 \ 37
3.2.2 读取变量文件数据 \ 38
3.2.3 读取 SPSS Statistics（.sav）文件数据 \ 40
3.2.4 读取数据库数据 \ 42
3.3 数据的基本设定 \ 45
3.3.1 变量角色的设定 \ 45
3.3.2 字段的筛选及命名 \ 46
3.4 数据的集成 \ 47
3.4.1 数据的变量集成：合并节点 \ 47
3.4.2 数据的记录集成：追加节点 \ 50

第 4 章一点都不简单的描述性统计分析 53
4.1 分类变量的基本分析：矩阵节点 \ 54
4.2 连续变量的基本分析：数据审核节点 \ 57
4.2.1 连续变量基本分析指标介绍 \ 57
4.2.2 数据审核节点 \ 63

第 5 章何为足够大的差异：常用的统计检验
\ 67
5.1 假设检验 \ 68
5.1.1 假设检验的基本原理 \ 68
5.1.2 假设检验的一般步骤 \ 69
5.2 连续变量与分类变量之间的关系： t 检验 \ 70
5.2.1 两组独立样本均值比较 \ 71
5.2.2 两组配对样本均值比较 \ 72
5.2.3 使用 t 检验的前提条件 \ 73
5.2.4 案例：使用均值比较分析电信客户的流失情况 73
5.3 两个连续变量之间的关系：相关分析 \ 75
5.3.1 相关分析理论 \ 76
5.3.2 案例：使用相关分析研究居民消费水平与国内生产总值的相关关系 \ 77
5.4 两个分类变量之间的关系：卡方检验 \ 80
5.4.1 卡方检验的原理 \ 80
5.4.2 卡方检验的前提条件 \ 82
5.4.3 案例：使用卡方检验研究两个分类字段之间的关系 82

第 6 章从身高和体重的关系谈起：回归分析
\ 84
6.1 一元线性回归分析 \ 85
6.1.1 分析因变量与自变量的关系，构建回归模型 \ 85
6.1.2 估计模型系数，求解回归模型 \ 87
6.1.3 对模型系数进行检验，确认模型有效性 \ 88
6.1.4 拟合优度检验，判断模型解释能力 \ 89
6.1.5 借助回归模型进行预测 \ 90
6.2 多元线性回归分析 \ 90
6.2.1 估计模型系数，求解回归模型 \ 91
6.2.2 对模型参数进行检验，确认模型有效性 \ 92
6.2.3 拟合优度检验，判断模型解释能力 \ 94
6.2.4 模型的变量选择 \ 95
6.3 使用线性回归分析的注意事项 \ 97
6.4 案例：使用回归分析研究影响房屋价格的重要因素 98

第 7 章回归岂止这么简单：回归模型的进一步扩展 \ 102
7.1 曲线回归 \ 103
7.2 Logistic 回归 \ 110
7.2.1 Logistic 回归理论 \ 110
7.2.2 案例：使用 Logistic 回归模型分析个人收入水平影响因素 \ 112

第 8 章模型评估那些事儿：过拟合与欠拟合
\ 117
8.1 过拟合与欠拟合 \ 118
8.2 留出法与交叉验证 \ 122
8.2.1 留出法与分层抽样 \ 122
8.2.2 交叉验证 \ 124

第 9 章从看电影的思考到决策树的生成 126
9.1 决策树概述 \ 127
9.2 决策树生成 \ 129
9.2.1 从 ID3 算法到 C5.0 算法 \ 131
9.2.2 CART 算法 \ 134
9.3 决策树的剪枝 \ 136
9.3.1 预剪枝策略 \ 137
9.3.2 后剪枝策略 \ 137
9.3.3 代价敏感学习 \ 138
9.4 案例：用决策树分析客户违约情况 \ 140
9.5 关于信息熵的扩展 \ 147

第 10 章人工神经网络：从人脑神经元开始
\ 151
10.1 从人脑神经元到人工神经网络 \ 152
10.2 感知机 \ 154
10.3 人工神经网络 \ 159
10.3.1 隐藏层的作用 \ 159
10.3.2 人工神经网络算法 \ 160
10.4 案例：利用人工神经网络分析某电信运营商的客户流失情况 \ 164

第 11 章物以类聚，人以群分：聚类分析 172
11.1 聚类思想的概述 \ 173
11.2 聚类方法的关键：距离 \ 175
11.3 K-Means 算法 \ 176
11.3.1 K-Means 算法原理 \ 176
11.3.2 轮廓系数（Silhouette
coefficient） \ 177
11.4 案例：利用 K-Means 算法对不同型号汽车的属性进行聚类分群研究 \ 179

第 12 章啤酒尿布=关联分析？ \ 186
12.1 一个关于关联分析的传说 \ 187
12.2 关联分析的基本概念 \ 188
12.3 关联规则的有效性指标 \ 190
12.4 Apriori 算法 \ 192
12.4.1 生成频繁项集 \ 193
12.4.2 生成关联规则 \ 195
12.5 案例：利用 Apriori 算法对顾客的个人信息及购买记录进行关联分析 \ 195

第 13 章三个臭皮匠，赛过诸葛亮：集成学习算法 \ 199
13.1 集成学习算法概述 \ 200
13.2 3 种不同的集成学习算法 \ 201
13.2.1 Bagging 算法 \ 201
13.2.2 Boosting 算法 \ 203
13.2.3 随机森林 \ 204
13.3 集成学习算法实践 \ 205
13.3.1 Bagging 算法和 Boosting 算法 \ 205
13.3.2 随机森林 \ 211
13.3.3 集成学习算法结果比较 \ 214

內容試閱：

浩彬老撕（作者网名），一个有趣的人。
数据挖掘与机器学习，一件好玩的事情。
IBM SPSS Modeler，一套有用的工具。
在日常生活和工作中，笔者经常会遇到有朋友面带难色地咨询：怎么做数据挖掘?怎么学习数据挖掘？笔者发现，大家都认识到，在这个大数据时代，数据挖掘是一项非常有用的技能，但与此同时，他们往往又会觉得学习数据挖掘与机器学习非常难，因为必须要花费大量的时间去重新学习数学知识以及各种编程技能。
对于这些困难，笔者当然理解，而且，随着大数据的兴起，市面上也出现了越来越多关于数据挖掘与机器学习方面的书籍。这些书籍固然都写得很好，但是很多都是一上来就介绍统计理论和模型算法，未免又增加了初学者的畏难情绪。
就笔者看来，从海量数据中挖掘出有用的知识本来是一件很好玩的事情，而且看上去晦涩难懂的算法，其实也有接地气的一面，只要找对学习方法和案例，数据挖掘与机器学习也可以像听故事一样有趣。也是基于这一点，笔者开始了个人公众号以及本书的写作，希望可以用生活中一些常见的例子和一些有趣的插图及通俗的语言故事，把这些看上去晦涩的数据挖掘与机器学习知识以通俗易懂的方式分享给读者，希望让读者从入门学习阶段就发现，原来数据挖掘与机器学习这件事情不但有用，而且还真的有趣。
本书采用 IBM SPSS Modeler（以下简称 SPSS
Modeler）作为案例实践工具。 SPSS Modeler 是业界公认的数据挖掘利器，它依据 CRISP-DM 方法论，内置了丰富的数据挖掘算法，同时作为一款以图形化语法的数据挖掘工具，它的最大优点就是在保证专业性的同时，很好地兼顾了易用性，相信读者使用 SPSS Modeler 作为数据挖掘与机器学习入门工具，将能够很快掌握实际的应用技巧。
本书特色
本书从结构上看，首先介绍了数据挖掘的基本概念以及数据挖掘方法论，接下来介绍了SPSS Modeler 工具的基本使用、数据探索、统计检验、回归分析、分类算法、聚类算法、关联规则、神经网络以及集成学习。全书内容循序渐进，完整覆盖了数据挖掘与机器学习的主要知识点。
特别地，在每一章中都会以漫画形式介绍一些日常小例子作为切入点，并用通俗的语言为读者介绍具体的算法理论，同时在每章最后都附上应用案例，希望以这样的形式帮助读者更轻松地阅读本书并掌握对应的算法和实践操作。
致谢
感谢图标网站 http：www.easyicon.net以及 http：pictogram2.com提供的原始素材，本书的插图大部分来源于对这些原始素材的再创作。感谢公众号探数寻理的读者的关注与支持。感谢 IBM 大中华区分析事业部周伟珠等多位同事的帮助和建议，是你们的建议让本书变得更加完善。感谢柯内特环保大数据研究院院长龙力辉等多位书评作者，感谢你们能够在百忙之中抽出时间阅读书稿，并提出宝贵的建议。感谢电子工业出版社博文视点王静老师的大力支持和辛勤工作，让本书能够顺利出版。最后感谢我的家人和徐小白同学，也因为你们的支持和理解，本书才能顺利出版。

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　海外用户

	megBook.com.hk
Copyright © 2013 - 2025 （香港）大書城有限公司　 All Rights Reserved.