新書推薦:
《
变频正弦混沌神经网络分析与设计
》
售價:HK$
63.8
《
人性、股市与兴衰周期
》
售價:HK$
72.6
《
来自苏格兰的帝师:庄士敦爵士的生平与时代(1874—1938)
》
售價:HK$
96.8
《
海德格尔文集:宗教生活现象学
》
售價:HK$
151.8
《
案析口腔黏膜病学(第3版)
》
售價:HK$
391.6
《
光年
》
售價:HK$
79.2
《
面向2035特种加工技术路线图
》
售價:HK$
96.8
《
不可能的戏剧:洛尔迦先锋戏剧三种
》
售價:HK$
60.5
|
編輯推薦: |
本书遵循教指委相关指导文件和高等院校学生学习规律编写而成。践行四新理念,融入思政元素,注重理论与实践相结合。
|
內容簡介: |
本书旨在提供一个比较全面且实用的关于大数据挖掘基本概念、方法、工具、技术及应用的指南。本书共9章,包含3部分内容。第1部分介绍大数据挖掘的基础知识、概念和方法,包括大数据的概念、发展阶段和特征,大数据挖掘的概念、标准过程模型、主要任务等内容。第2部分重点介绍具体工具与技术,包括Python的基本语法、NumPy工具包、Pandas工具包、ScikitLearn工具包和Matplotlib绘图,以及Hadoop中的MapReduce框架和Spark大数据处理技术,目的是帮助读者将数据挖掘的方法和算法落到实处,同时训练读者解决大数据挖掘实际问题的能力。第3部分为数据挖掘案例,包括关于分类、聚类、关联规则挖掘等应用主题的案例,每个案例都展示了一个数据挖掘项目的具体过程和细节,个别案例还给出了Python的实现方法与代码,目的是为读者模仿、修改、拓展、延伸、创新以及运用所学数据挖掘技术解决实际应用问题提供原型。
本书的主要特色是在重点关注数据挖掘理论、方法与算法的同时,也适当兼顾数据挖掘的实现工具以及应用,并将它们融合,读者通过学习能够具备一定解决实际应用问题的能力。
本书可作为高年级本科生的数据挖掘等课程的教材,也可作为研究生相关课程的教材,还可作为对大数据挖掘与分析感兴趣的学习者和在企业从事业务数据分析的人士的参考书。为方便教师教学,本书配套了电子教学课件。
|
目錄:
|
前言
第1章绪论
1.1数据科学和数据科学家
1.1.1数据科学的产生和数据科学家的
兴起
1.1.2从事数据科学活动的重要基础和
技能
1.2大数据的概念、发展阶段和特征
1.2.1大数据的概念
1.2.2大数据的发展阶段
1.2.3大数据的“5V”特征
1.3大数据的主要来源
1.4大数据挖掘的概念和流程
1.4.1大数据挖掘的概念
1.4.2大数据挖掘的标准过程模型
1.5大数据挖掘的主要任务
1.5.1分类与回归
1.5.2聚类分析
1.5.3关联分析
1.5.4异常检测
1.6大数据挖掘的工具与技术
1.6.1Python
1.6.2Hadoop
1.6.3Spark
1.7大数据挖掘的应用
1.7.1在金融行业的应用
1.7.2在电信行业的应用
1.7.3在医疗行业的应用
1.7.4社会网络分析
1.7.5推荐系统
习题
参考文献
第2章数据分析与可视化技术
2.1Python简介
2.1.1Python环境搭建
2.1.2Python基本语法
2.2NumPy工具包
2.2.1创建数组
2.2.2数组的属性和方法
2.2.3数组的基本操作和运算
2.2.4数组的常用方法
2.3Pandas工具包
2.3.1Series
2.3.2DataFrame概述
2.3.3DataFrame属性和操作
2.4ScikitLearn工具包
2.4.1数据集
2.4.2K最近邻分类器
2.4.3决策树
2.4.4朴素贝叶斯分类器
2.4.5多层感知器
2.4.6支持向量机
2.4.7随机森林与AdaBoost
2.4.8K均值聚类
2.4.9基于密度的聚类
2.4.10主成分分析
2.5Matplotlib绘图
2.5.1Figure和Subplot
2.5.2基本绘图方法
2.5.3颜色、线型和标记
2.5.4轴标签、刻度和网格
2.5.5添加标题、图例和注释
习题
实验
参考文献
第3章认识数据
3.1数据类型
3.1.1属性与度量
3.1.2数据集类型
3.2数据质量
3.2.1测量和数据收集
3.2.2数据应用
3.3探索数据
3.3.1中心趋势度量
3.3.2离散趋势度量
3.3.3数据基本统计描述的图形
显示
3.4数据可视化
3.4.1一般方法和技术
3.4.2少量属性的可视化
3.4.3可视化时间空间数据
3.4.4可视化高维数据
3.5数据对象相似性与相异性度量
3.5.1数据矩阵与邻近度矩阵
3.5.2标称属性的邻近度
3.5.3二元属性的邻近度
3.5.4数值属性的邻近度
3.5.5序数属性的邻近度
3.5.6混合类型属性的邻近度
3.5.7余弦相似度
习题
实验
参考文献
大数据挖掘导论与案例目录第4章数据预处理
4.1数据预处理任务
4.2数据清洗
4.2.1缺失值
4.2.2噪声数据
4.3数据归约
4.3.1聚集
4.3.2抽样
4.3.3维归约
4.3.4特征子集选择
4.3.5特征创建
4.4离散化与二元化
4.4.1离散化
4.4.2二元化
4.5数据规范化和数据泛化
4.5.1数据规范化
4.5.2数据泛化
习题
实验
参考文献
第5章分类概念与方法
5.1基本概念
5.2分类的一般方法
5.3决策树归纳
5.3.1决策树归纳的基本原理
5.3.2属性划分的度量
5.3.3树剪枝
5.3.4决策树归纳算法
5.3.5决策树归纳的一般特点
5.4模型的评估与选择
5.4.1模型的过拟合
5.4.2模型的性能度量
5.4.3模型评估方法
5.4.4模型选择
5.5基于规则的分类
5.5.1使用IFTHEN规则分类
5.5.2规则分类器的性质
5.5.3由决策树提取规则
5.5.4使用顺序覆盖算法归纳规则
5.6最近邻分类器
5.6.1K最近邻分类
5.6.2最近邻分类器的特点
5.7贝叶斯分类器
5.7.1贝叶斯定理
5.7.2朴素贝叶斯分类器
5.7.3朴素贝叶斯分类器的特征
5.8后向传播分类
5.8.1多层前馈神经网络
5.8.2误差的后向传播算法
5.8.3人工神经网络的特点
5.9支持向量机
5.9.1线性可分支持向量机与硬间隔
最大化
5.9.2线性支持向量机与软间隔
最大化
5.9.3非线性可分支持向量机与
核函数
5.9.4支持向量机的优缺点
5.10集成学习方法
5.10.1基本原理
5.10.2随机森林
5.10.3AdaBoost算法
5.10.4类别不平衡数据的分类
5.11多类问题
5.11.1多类别分类
5.11.2多标签分类
习题
实验
参考文献
第6章关联分析概念与方法
6.1基本概念
6.1.1购物篮分析
6.1.2频繁项集和关联规则
6.2关联分析的方法
6.2.1先验原理
6.2.2Apriori算法产生频繁项集
6.2.3Apriori算法生成关联规则
6.2.4提高Apriori算法效率
6.2.5挖掘频繁项集的模式增长
算法
6.2.6使用垂直数据格式挖掘频繁
项集
6.2.7频繁项集的紧凑表示
6.3关联模式评估
6.3.1模式兴趣度度量
6.3.2关联模式评估度量比较
习题
实验
参考文献
第7章聚类分析概念与方法
7.1基本概念
7.1.1什么是聚类分析
7.1.2聚类分析方法
7.2k均值聚类
7.2.1基本k均值算法
7.2.2基本k均值的附加问题
7.2.3k均值的优点和缺点
7.2.4k均值的改进算法
7.2.5Iris数据集上的k均值聚类
7.3凝聚层次聚类
7.3.1簇间邻近度度量
7.3.2基本凝聚层次聚类算法
7.3.3凝聚层次聚类实例
7.3.4时间和空间复杂度
7.3.5层次聚类的优点和主要问题
7.3.6凝聚层次聚类的Python实现
7.4DBSCAN聚类
7.4.1DBSCAN算法的有关概念
7.4.2DBSCAN算法及实现
7.4.3DBSCAN时间和空间复杂度
7.4.4DBSCAN参数选择
7.4.5DBSCAN优点与缺点
7.5期望最大化算法
7.5.1模糊簇
7.5.2基于概率模型的聚类
7.5.3使用最大似然估计模型参数
7.5.4期望最大化算法的具体步骤
7.5.5使用期望最大化算法的混合模型
聚类的优缺点
7.5.6高斯混合模型的代码实现
7.6聚类评估
7.6.1概述
7.6.2无监督簇评估:凝聚度和
分离度
7.6.3无监督簇评估:邻近度矩阵
7.6.4层次聚类的无监督评估
7.6.5确定簇的数目
7.6.6聚类趋势
7.6.7簇有效性的监督度量
7.6.8簇度量的代码实现
习题
实验
参考文献
第8章大数据挖掘关键技术
8.1大规模并行处理
8.1.1Hadoop安装
8.1.2HDFS
8.1.3MapReduce计算模型
8.2Spark内存计算
8.2.1Spark安装
8.2.2Spark运行原理
8.2.3RDD编程
8.2.4Spark SQL
8.2.5Spark流式计算
8.2.6Spark ML
习题
实验
参考文献
第9章案例分析
9.1机票航班延误预测
9.1.1应用背景与目标
9.1.2数据探索与理解
9.1.3数据预处理
9.1.4分类模型构建与评估
9.1.5模型的作用
9.2零售行业购物篮分析
9.2.1应用背景与目标
9.2.2数据探索与理解
9.2.3数据预处理
9.2.4关联规则挖掘与评估
9.2.5规则解释
9.3航空公司客户价值分析
9.3.1应用背景与目标
9.3.2数据探索与理解
9.3.3数据预处理
9.3.4聚类模型构建与评估
9.3.5模型解释与应用
|
內容試閱:
|
前言
2020年3月30日,中共中央、国务院发布了《关于构建更加完善的要素市场化配置体制机制的意见》,将“数据”与土地、劳动力、资本、技术并称为五种要素,提出“加快培育数据要素市场”的要求。至此,数据正式成为生产要素,其战略性地位得到进一步提升。党的二十大报告强调“实施科教兴国战略,强化现代化建设人才支撑”,“加快发展数字经济”,与大数据密切相关的数字中国、科教兴国战略、人才强国战略已经成为我国建设现代化强国过程中的重要战略方针,这些战略的实施对于推动我国社会经济发展和提高国家综合实力具有重要意义。
从社会发展的角度来看,人类已进入数据爆炸时代,我们面临前所未有的数据规模和数据复杂性。从社交媒体到互联网交易,从医疗保健到金融服务,各领域都积累了海量数据。这些数据蕴含着宝贵的信息和见解,但我们只有采用有效的方法从数据中挖掘出这些宝藏,才能促进数据的高价值转化。
本书旨在提供一个比较全面且实用的关于大数据挖掘的基本概念、方法、工具、技术及应用的指南。无论您是高等院校的学生,还是对数据挖掘领域感兴趣的学习者,或是一个希望在业务分析中运用数据挖掘技术的专业人士,本书都希望为您提供有价值的知识和案例参考。
本书内容可归纳为3个部分。第1部分介绍了大数据挖掘的基础知识、概念和方法,具体包括大数据的概念、发展阶段和特征,大数据挖掘的概念、标准过程模型、主要任务等内容,在与算法相结合的部分例题中给出了Python的实现代码。第2部分重点介绍了具体工具与技术,具体包括Python的基本语法、NumPy工具包、Pandas工具包、ScikitLearn工具包和Matplotlib绘图,以及Hadoop中的MapReduce框架和Spark大数据处理技术,这部分的目的是帮助读者将第1部分的数据挖掘方法和算法落到实处,同时训练读者解决大数据挖掘的实际问题的能力。第3部分为数据挖掘案例,包括关于分类、聚类、关联规则挖掘等应用主题的案例,每个案例都展示了一个数据挖掘项目的具体过程和细节,个别案例还给出了Python的实现方法与代码,这部分的目的是为读者模仿、修改、拓展、延伸、创新以及运用所学数据挖掘技术解决实际应用问题提供原型。
本书的主要特色是在重点关注数据挖掘理论、方法与算法的同时,也适当兼顾数据挖掘的实现工具、技术以及应用,并将它们相融合。这对于数据挖掘学习过程中由于编写程序和算法实现能力比较薄弱,数据挖掘学习仅停留在原理层面上的读者实现算法具有重要作用,还可以帮助读者提升编程能力。每章末尾都联系本章内容在价值观层面加以引申,希望传递健康的价值导向和开阔的思维视野。
本书编写方案的制定以及统稿工作由米红娟教授完成。全书共有9章,第1章、第5章的51~57节由米红娟编写,第2章、第5章的58~511节、第8章、第9章的91节由杨鹏斐编写,第3章、第4章、第9章的第93节由宋帅编写,第6章、第9章的第92节由闫晓珊编写,第7章由易纪海编写。
本书可作为高年级本科生数据挖掘等课程的教材(建议第2章、第8章和第9章供实验课堂使用,其余各章供理论课堂使用),也可作为研究生相关课程的教材,还可作为对大数据挖掘与分析感兴趣的学习者和在企业从事业务数据分析的人士的参考书。作为本科生教材时,授课教师可根据需要对章节进行选择与裁剪。另外,为方便教师教学,本书提供了配套电子课件。
大数据挖掘导论与案例目录在此,我们要感谢机械工业出版社的支持,更要感谢刘丽敏策划编辑和为本书付出努力的编辑们,他们认真严谨的工作态度和热情支持使得本书得以顺利出版。
尽管本书编著者均为从事数据挖掘、机器学习、大数据技术教学工作的一线教师,也尽管本书的完成和完善工作历经了3年多,我们仍不敢有丝毫懈怠,但数据挖掘领域发展极为迅速,且具有多学科交叉等特点,书中疏漏、错谬之处难免,敬请读者指正,我们将十分感激。
米红娟
|
|