新書推薦:
《
数学通俗演义
》
售價:HK$
60.5
《
中国古代小说学史
》
售價:HK$
184.8
《
中国海域史·南海卷
》
售價:HK$
107.8
《
戏剧舞蹈人物动态图集(绝美的服装设计和极致的身体动态美感展现)
》
售價:HK$
352.0
《
政治权力与公司控制 公司治理的全球政治学新解
》
售價:HK$
126.5
《
隈研吾建筑图鉴 50座名建筑的深度拆解与访谈
》
售價:HK$
118.8
《
古雅典的民主与法治(当城邦服从法律时,所有这些资源都会为共同的利益服务)
》
售價:HK$
118.8
《
社会法哲学(全二册)(社会法与法社会论丛)
》
售價:HK$
272.8
|
編輯推薦: |
详解大数据分析的基本概念、原理及Python数据分析基础知识
通过sklearn、Matplotlib,结合大量实例系统讲解大数据分析方法
随书配备电子课件、微课视频、教学大纲、程序源代码等全套教学资源
|
內容簡介: |
本书对大数据分析的原理与Python程序实现进行了系统的介绍,每种算法都采用sklearn和Matplotlib分别进行程序实现及数据可视化。本书共8章,内容包括大数据分析概述、Python数据分析与可视化基础、关联规则与推荐算法、聚类算法及其应用、分类算法及其应用、回归与逻辑回归、人工神经网络、支持向量机等。
本书在理论上突出可读性,在实践上强调可操作性,实践案例丰富,实用性强。随书提供微课视频(正文对应处扫码可观看)、教学课件、习题答案、教学大纲等教学资源。
本书可作为高等院校相关专业大数据分析或大数据概论等课程的教材。也可供从事大数据分析、机器学习的人员作为参考书。
|
目錄:
|
目录
出版说明
前言
第1章 大数据分析概述1
1.1 大数据概述1
1.1.1 大数据的定义和特征1
1.1.2 大数据处理的过程2
1.1.3 大数据的职业岗位4
1.2 云计算—大数据的处理架构4
1.2.1 云计算的定义和特点4
1.2.2 云计算的体系结构6
1.2.3 云计算的分类7
1.2.4 虚拟化技术9
1.3 Hadoop大数据处理平台11
1.3.1 Hadoop的发展历史及版本11
1.3.2 HDFS的组成13
1.3.3 HDFS读取和写入文件15
1.3.4 MapReduce并行编程框架16
1.3.5 YARN资源管理器19
1.3.6 Hadoop生态系统及其安装22
1.4 NoSQL数据库24
1.5 大数据分析技术26
1.5.1 大数据分析的方法26
1.5.2 大数据分析的种类27
1.5.3 大数据分析的层次28
1.5.4 大数据分析的工具29
1.5.5 大数据分析面临的挑战29
1.5.6 大数据分析的数据类型30
习题与实验31
第2章 Python数据分析与可视化基础34
2.1 Python程序入门34
2.1.1 一些简单的Python程序34
2.1.2 序列数据结构36
2.1.3 序列处理函数37
2.1.4 函数和类38
2.2 Python数据分析工具41
2.2.1 Anaconda的使用41
2.2.2 Spyder集成开发环境42
2.2.3 numpy库42
2.3 数据可视化—基于Matplotlib库45
2.3.1 绘制曲线图46
2.3.2 绘制散点图等其他图形50
2.4 SciPy库54
2.5 sklearn库56
2.5.1 机器学习的概念和方法56
2.5.2 样本及样本的划分58
2.5.3 导入或创建数据集62
2.5.4 数据预处理65
2.5.5 数据的降维68
2.5.6 调用机器学习模型70
习题与实验71
第3章 关联规则与推荐算法73
3.1 关联规则挖掘73
3.1.1 基本概念73
3.1.2 Apriori算法75
3.1.3 Apriori算法的程序实现79
3.1.4 FP-Growth算法80
3.2 推荐系统及算法83
3.2.1 协同过滤推荐算法84
3.2.2 协同过滤推荐算法应用实例86
3.2.3 推荐算法的MapReduce实现89
3.2.4 协同过滤算法的sklearn实现91
习题与实验94
第4章 聚类算法及其应用96
4.1 聚类的原理与实现96
4.1.1 聚类的概念和类型96
4.1.2 如何度量距离96
4.1.3 聚类的基本步骤99
4.2 层次聚类算法103
4.2.1 层次聚类法举例103
4.2.2 层次聚类法sklearn实现104
4.3 K-means聚类算法108
4.3.1 K-means聚类算法原理和实例108
4.3.2 K-means聚类算法的sklearn
实现114
4.4 K-medoids聚类算法115
4.4.1 K-medoids聚类算法原理和实例115
4.4.2 K-medoids聚类算法的sklearn
实现120
4.5 DBSCAN聚类算法121
4.5.1 DBSCAN聚类算法原理和实例121
4.5.2 DBSCAN聚类算法的sklearn
实现125
习题与实验126
第5章 分类算法及其应用128
5.1 分类的基本原理128
5.1.1 分类与聚类的区别128
5.1.2 分类的步骤129
5.1.3 分类模型预测结果的评估131
5.1.4 sklearn库的常用分类算法132
5.2 K-近邻分类算法133
5.2.1 K-近邻分类算法原理和实例133
5.2.2 sklearn中分类模型的编程步骤136
5.2.3 K-近邻分类算法的sklearn实现138
5.2.4 绘制分类边界图139
5.2.5 确定的k值141
5.3 朴素贝叶斯分类算法142
5.3.1 朴素贝叶斯原理与实例143
5.3.2 朴素贝叶斯分类的常见问题146
5.3.3 朴素贝叶斯分类算法的sklearn
实现147
5.4 决策树分类算法149
5.4.1 信息论基础150
5.4.2 ID3算法153
5.4.3 C4.5算法157
5.4.4 CART算法160
5.4.5 决策树分类算法的sklearn程序
实现162
5.5 随机森林分类算法163
5.5.1 集成学习理论163
5.5.2 随机森林分类的理论与实例165
5.5.3 随机森林分类算法的sklearn
实现169
习题与实验172
第6章 回归与逻辑回归174
6.1 线性回归174
6.1.1 相关与回归174
6.1.2 线性回归分析175
6.1.3 线性回归方程参数的求法177
6.1.4 线性回归模型的sklearn实现181
6.2 逻辑回归185
6.2.1 线性分类模型的原理185
6.2.2 逻辑回归模型及实例187
6.2.3 逻辑回归模型的sklearn实现190
习题与实验195
第7章 人工神经网络196
7.1 神经元与感知机196
7.1.1 人工神经元与逻辑回归模型197
7.1.2 感知机模型197
7.1.3 感知机模型的Python实现199
7.1.4 多层感知机模型201
7.2 人工神经网络的核心要素203
7.2.1 神经元的激活函数203
7.2.2 损失函数205
7.2.3 网络结构206
7.2.4 反向传播207
7.2.5 人工神经网络的sklearn实现209
7.3 深度学习与深度神经网络213
7.3.1 深度学习的概念和原理213
7.3.2 TensorFlow概述214
7.3.3 卷积神经网络215
习题与实验217
第8章 支持向量机219
8.1 支持向量机的理论基础219
8.1.1 支持向量的超平面220
8.1.2 支持向量机间隔及损失函数221
8.1.3 非线性支持向量机与核函数226
8.1.4 支持向量机分类的步骤227
8.2 支持向量机的sklearn实现228
8.2.1 绘制决策边界229
8.2.2 绘制支持向量机的分类界面230
8.2.3 支持向量机参数对性能的影响231
习题与实验236
参考文献238
|
內容試閱:
|
前言
随着物联网和云计算技术的兴起,大数据成为广受关注的前沿技术领域。“十三五”规划建议提出:“实施国家大数据战略,推进数据资源开放共享”。著名咨询公司麦肯锡称:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
大数据分析是实现大数据价值的关键环节,需要将大数据处理技术与数据分析、数据挖掘技术相结合。目前市面上有很多大数据分析或大数据挖掘的教材,这些教材大致可分为两类:类以讲解大数据分析的理论为主,而对大数据分析的编程实现讲述得少。由于大数据分析的模型复杂,如果不讲述编程实现,学生往往觉得将理论应用于实际问题时无从下手。另一类以讲解大数据分析的编程为主,由于对理论讲解过少,学生对程序往往很难理解,导致无法独立编写程序解决实际问题。
为了解决以上问题,并使大数据分析更加通俗易懂,本书将大数据分析的原理与编程实现融合在一起讲述。本书的特色是对每种数据分析算法都介绍如何使用sklearn编写程序来实现,sklearn库是一种高度封装的机器学习算法库,所有的分类算法通常使用3~5行代码就能实现,具有简单易学的特点,通过学习sklearn能够很好地加深对数据分析以及机器学习概念和模型的理解,并且掌握sklearn库是学生进一步学习TensorFlow深度学习算法库的基础,因此学习sklearn库的编程能帮助理解机器学习的基本原理。
本书其他特色如下:
1)与传统数据分析的主要方法是统计学理论不同,大数据分析主要依靠机器学习,因此本书对机器学习的原理和步骤进行了通俗的阐述,力图使学生理解机器学习的基本思想。
2)为了提高学生的学习兴趣,本书所有sklearn程序均使用Matplotlib库实现数据的可视化,具有较高实用价值。
3)本书在叙述有关基本理论时,安排了大量的例题和程序,主要目的是通过例题和程序让学生能够快速理解理论,达到融会贯通的目的。
4)大数据分析离不开大数据处理平台,本书在第1章对Hadoop生态系统进行了较为系统的介绍,特别是对MapReduce并行编程框架做了实例讲解。
5)本书是微课版,对于教材中一些比较复杂的软件操作和需要用动画才能描述清楚的算法步骤,本书提供了微课视频,扫描相关内容旁边的二维码即可观看。
本书既可以作为大数据分析的教材,也适合大数据相关专业作为大数据概论课程的教材。本书注重教材立体化建设,每章后都提供了丰富的习题,并为教师提供全面的配套资料(PPT课件、习题答案、考试试卷、教学大纲和实验指导),可在本书配套网站上下载,网址为:https://mooc1. chaoxing.com/course/205619118.html,也可在机工教育服务网(www.cmpedu.com)下载,或者和作者联系(tangsix@163.com)获取。
本书由唐四薪、赵辉煌、唐琼担任主编,唐四薪编写了第3章~第8章的内容。唐琼编写了第1章的部分内容,赵辉煌编写了第2章的内容,参与编写的还有谭晓兰、刘燕群、唐沪湘、刘旭阳、陆彩琴、唐金娟、谢海波、唐佐芝、舒清健等,编写了第1章的部分内容。
本书是湖南省普通高等学校教学改革研究项目(2020)“应用型本科院校程序设计类课程体系的重构与教学改革研究”的研究成果。
本书在编写过程中参考了大量专家学者的图书资料,编者已在参考文献中列出,谨此致谢,若有疏漏,也在此表示歉意。由于编者水平和教学经验有限,书中错误和把握不当之处在所难免,敬请广大读者和同行批评指正。
编 者
2021年3月
|
|