新書推薦:
《
夺回大脑 如何靠自己走出强迫
》
售價:HK$
65.8
《
夏天,19岁的肖像(青鲤文库)岛田庄司两次入围日本通俗文学奖直木奖的作品 ,同名电影由黄子韬主演!
》
售價:HK$
49.5
《
图解机械工程入门
》
售價:HK$
96.8
《
股市长线法宝(第6版)
》
售價:HK$
140.8
《
中文版SOLIDWORKS 2024机械设计从入门到精通(实战案例版)
》
售價:HK$
98.9
《
纯数学教程
》
售價:HK$
85.8
《
威尔士史:历史与身份的演进
》
售價:HK$
107.8
《
黄金、石油和牛油果:16件商品中的拉丁美洲发展历程
》
售價:HK$
86.9
|
編輯推薦: |
本书理论与实践并重,通过数学公式推导过程揭示算法背后的数学原理,从贴近生活的案例验证算法的有效性。
本书讲解经典的机器学习算法,每个算法除了数学公式推导,还利用Python中基本的列表、数组和调用机器学习常用工具包两种方式给出算法实现。
本书以西瓜分类、是否相亲、垃圾邮件分类等贴近生活的实例分析每个算法的思想、推导过程、实现及应用,内容讲解通俗易懂,每个算法有完整实现。
本书案例丰富,每一章的算法均提供了相应的案例以验证算法分类、聚类或回归的效果,最后以垃圾邮件分类、手写数字识别、零售商品销售分析预测、个性化推荐为例讲解如何将生活中的具体问题抽象成机器学习中的分类、回归问题进行解决,并理解、掌握机器学习处理问题的方法、步骤。
这本书可以带给你什么价值:
详解机器学习经典算法的原理、实现及应用。4个综合案例带你将实际问题转换为机器学习能处理的问题并求解。可做入门书,可做参考手册,可做教材。所有示例代码精心调试通过。QQ群作者答疑。
|
內容簡介: |
本书介绍机器学习经典算法的原理、实现及应用,并通过综合案例讲解如何将实际问题转换为机器学习能处理的问题进行求解。本书配套源码、PPT课件、习题答案、开发环境与QQ群答疑。
本书共分14章。内容包括k近邻算法、朴素贝叶斯、聚类、EM算法、支持向量机、决策树、线性回归、逻辑回归、BP神经网络经典算法,以及垃圾邮件分类、手写数字识别、零售商品销售量分析与预测、个性化推荐等综合案例。本书算法首先给出了数学原理及公式推导过程,然后给出算法实现,最后所有算法及案例均以Python实现,方便读者在动手编程中理解机器学习的经典算法。
本书适合Python机器学习初学者、机器学习开发人员和研究人员使用,也可作为高等院校计算机、软件工程、大数据、人工智能等相关专业的本科生、研究生学习人工智能、机器学习的教材。
|
關於作者: |
张建伟,郑州轻工业大学教授,长期从事计算机网络和程序设计技术的教育教学活动,经验丰富。现担任河南省“食品安全数据智能”重点实验室主任、河南省“公共安全数据融合与智能服务”工程技术研究中心主任、河南省软件工程重点学科负责人、河南省“软件工程技术与服务”教学团队负责人、国家级创新创业孵化基地“星空众创空间”负责人、河南省大众创业导师、河南省计算机教育研究会理事、河南省计算机学会理事。
|
目錄:
|
第1章 机器学习基础 1
1.1 机器学习概述 1
1.1.1 什么是机器学习 1
1.1.2 机器学习发展史 3
1.1.3 机器学习、人工智能、深度学习的关系 5
1.2 机器学习相关概念 6
1.3 机器学习的任务 8
1.3.1 监督学习 8
1.3.2 无监督学习 8
1.3.3 半监督学习 9
1.4 机器学习的一般步骤 9
1.5 机器学习Python基础 10
1.5.1 Python开发环境 10
1.5.2 Python基本语法 11
1.5.3 Python列表、元组、字典、集合 13
1.6 本章小结 18
1.7 习题 18
第2章 k近邻算法 19
2.1 k近邻算法原理 19
2.1.1 非参数估计与参数估计 20
2.1.2 非参数估计的一般推导 22
2.2 基于k近邻算法的实现 23
2.2.1 利用直方图估计概率密度、分类 23
2.2.2 利用Parzen矩形窗估计概率密度、分类 28
2.2.3 利用Parzen正态核估计概率密度、分类 29
2.3 k近邻算法应用─鸢尾花的分类 31
2.4 本章小结 35
2.5 习题 35
第3章 贝叶斯分类器 37
3.1 贝叶斯定理相关概念 37
3.1.1 先验概率、条件概率、后验概率与类条件概率 37
3.1.2 贝叶斯决策理论 38
3.1.3 极大似然估计 39
3.2 朴素贝叶斯分类器 42
3.2.1 手工设计贝叶斯分类器 43
3.2.2 贝叶斯分类器的实现 44
3.2.3 平滑方法 46
3.3 朴素贝叶斯分类算法实现─三文鱼和鲈鱼的分类 48
3.3.1 算法实现 48
3.3.2 调用系统函数实现 55
3.4 正态贝叶斯分类器 56
3.5 本章小结 57
3.6 习题 57
第4章 聚类 59
4.1 聚类算法简介 59
4.1.1 聚类算法分类 59
4.1.2 距离度量方法 60
4.2 K-means聚类 62
4.3 基于密度的聚类─DBSCAN聚类 68
4.3.1 DBSCAN算法原理及相关概念 68
4.3.2 DBSCAN聚类算法 69
4.4 基于层次的聚类─AGNES聚类 72
4.4.1 AGNES聚类算法思想 72
4.4.2 AGNES算法实现 74
4.5 聚类应用举例 76
4.6 各种聚类算法的比较 79
4.7 本章小结 80
4.8 习题 80
第5章 EM算法 82
5.1 EM算法原理及推导过程 82
5.1.1 EM算法思想 82
5.1.2 EM算法推导过程 83
5.2 高斯混合聚类 85
5.2.1 概率密度函数 85
5.2.2 高斯混合聚类算法推导过程 86
5.2.3 高斯混合聚类算法思想 87
5.2.4 高斯混合聚类应用举例 88
5.3 服从0-1二项分布的EM算法 92
5.3.1 服从0-1二项分布的EM算法思想 93
5.3.2 服从0-1二项分布的EM算法过程模拟 94
5.3.3 服从0-1二项分布的EM算法实现 96
5.4 本章小结 98
5.5 习题 98
第6章 支持向量机 100
6.1 SVM简介 100
6.1.1 线性可分与感知机 101
6.1.2 间隔最大化及线性SVM 104
6.2 线性SVM算法实现 108
6.3 非线性SVM与核函数 111
6.3.1 线性不可分 111
6.3.2 对偶问题与核函数 111
6.3.3 非线性SVM算法实现 115
6.4 SVM回归 118
6.5 SVM算法实现─鸢尾花的分类 120
6.5.1 sklearn中的SVC参数介绍 120
6.5.2 使用SVC对鸢尾花数据进行分类 121
6.6 本章小结 124
6.7 习题 125
第7章 决策树 126
7.1 决策树构造基本原理 126
7.2 决策树构造过程 127
7.3 决策树学习算法思想及实现 131
7.4 决策树算法实现─泰坦尼克号幸存者预测 133
7.5 本章小结 139
7.6 习题 139
第8章 线性回归 141
8.1 回归分析概述 141
8.2 单变量线性回归 142
8.2.1 梯度下降法求解线性回归原理与实现 142
8.2.2 牛顿法求解线性回归原理与实现 146
8.3 多变量回归分析 150
8.3.1 多变量回归分析原理 150
8.3.2 多变量线性回归算法实现 151
8.4 多项式回归分析 155
8.5 本章小结 157
8.6 习题 157
第9章 逻辑回归 160
9.1 sigmoid函数与逻辑回归模型 160
9.2 梯度下降与推导过程 161
9.3 参数学习向量化 163
9.4 逻辑回归的Python实现─乳腺良性与恶性肿瘤的预测 164
9.5 评估方法 169
9.6 本章小结 173
9.7 习题 174
第10章 人工神经网络 175
10.1 从感知机到多层感知机 175
10.2 神经网络模型 178
10.3 BP神经网络算法思想及实现 180
10.3.1 BP神经算法模型参数学习过程 180
10.3.2 BP神经网络算法实现 183
10.4 BP神经网络算法实现─鸢尾花分类 186
10.5 本章小结 193
10.6 习题 193
第11章 综合案例分析:垃圾邮件分类 194
11.1 文本预处理 194
11.1.1 中文分词 194
11.1.2 文本向量化 202
11.2 中文垃圾邮件分类算法及实现 204
11.3 本章小结 208
11.4 习题 209
第12章 综合案例分析:手写数字识别 210
12.1 图像的存储表示 210
12.2 数据预处理 213
12.2.1 将图像转换为文本 213
12.2.2 将矩阵转换为向量 215
12.3 基于kNN的手写数字识别 215
12.3.1 划分训练集和测试集 215
12.3.2 kNN分类模型 216
12.3.3 kNN分类模型评估 216
12.4 基于神经网络的手写数字识别 218
12.4.1 定义神经网络模型 218
12.4.2 主函数 219
12.5 本章小结 220
12.6 习题 221
第13章 综合案例分析:零售商品销售额分析与预测 222
13.1 问题描述与分析 222
13.2 数据探索与预处理 223
13.2.1 数据探索 223
13.2.2 属性特征的数值化 227
13.2.3 缺失值处理 228
13.3 特征选择 231
13.4 建立回归模型 232
13.4.1 线性回归模型 232
13.4.2 岭回归模型 233
13.4.3 Lasso回归模型 235
13.4.4 多项式回归模型 236
13.4.5 随机森林回归模型 237
13.5 超参数选择 239
13.6 本章小结 240
13.7 习题 241
第14章 综合案例分析:基于协同过滤的推荐系统 242
14.1 推荐系统简介 242
14.1.1 信息检索与推荐系统 242
14.1.2 推荐系统的前世今生 243
14.1.3 推荐系统的原理与分类 244
14.1.4 推荐系统的评估方法 245
14.2 基于最近邻的协同过滤推荐算法原理与实现 247
14.2.1 基于近邻用户的协同过滤推荐 247
14.2.2 基于近邻项目的协同过滤推荐 255
14.3 基于隐语义分析的推荐模型 260
14.4 基于标签的推荐算法 266
14.5 本章小结 266
14.6 习题 267
参考文献 268
|
內容試閱:
|
从机器学习的产生到现在,短短的几十年时间,机器学习技术得到了飞速发展,尤其是近年来,以机器学习为代表的人工智能技术日新月异,取得了举世瞩目的成就。它的应用已经遍及到图像处理、语音识别、机器翻译、个性化推荐、人机交互等诸多领域,极大地改变了我们的生活和工作方式。在计算机教育领域,随着大数据技术和计算机技术的发展,机器学习作为人工智能的一个非常重要的分支,逐渐受到各高校师生的重视,并作为一门专业选修课在国内众多高校开设,受到越来越多学生的青睐。目前,机器学习已成为计算机、软件工程等相关专业非常重要的专业课程,是今后研究生学习的必修课和从事软件开发的主要方向。
机器学习与普通算法的不同之处在于它是以数据为驱动的智能算法。机器学习是一门建立在数学理论基础上的应用学科,算法的实现固然重要,它正是建立在强大的数学基础之上,因此,严密的数学推导对于机器学习者来说也是必不可少的。作为一名算法爱好者,从事算法研究已经许多年了,但笔者深知机器学习、人工智能领域不乏建树颇丰的理论与实践皆通的大师,也有众多技艺精湛的有识之士,正是这些无数学者的贡献,才有今天日新月异的机器学习技术和美好生活。对于机器学习的学习与研究,需要常怀着敬畏之心,不断虚心向学,提高理论与实践能力,才能跟上机器学习发展的脚步。作为一名计算机专业人员,算法的实现又要求具备深厚的Python语言基础、数据结构与算法设计能力。这就要求读者在学习机器学习的过程中,以理论深厚、技艺精湛的大师为榜样,既要仰望星空,又要脚踏实地,内外兼修,方得始终。
本书比较系统地介绍了机器学习常见的经典算法,从算法的原理、算法实现、案例应用三个角度进行由浅入深地讲解。本书理论与技术并重,结合作者个人学习、工作中的实践经验,参考众多著作、案例,试图从原理上让读者清楚每个算法的由来,并能实现该算法,最后能利用算法解决目前实际生活中有关数据处理的问题,比如西瓜分类、垃圾邮件分类、手写数字识别、个性化推荐等。通过这些典型的案例,读者不仅能学会机器学习算法的应用,而且还能掌握将需要处理的问题抽象出来,转换为机器学习中的分类、回归问题并加以解决的思维方法。
全书案例都给出整体思路讲解,并给出完整的Python实现,所有代码均上机调试通过,并给出程序的运行结果,方便读者理解,并提高综合解决实际问题的能力。
本书内容
本书共分为14章,内容分别为机器学习基础、k近邻算法、贝叶斯分类器、聚类、EM算法、支持向量机、决策树、线性回归、逻辑回归、人工神经网络、垃圾邮件分类、手写数字识别、零售商品销售分析与预测、基于协同过滤的推荐系统。
第1章,机器学习概述,如果你是一名机器学习初学者,本章将告诉你机器学习是什么,机器学习的发展历史、基本概念、工作流程及Python语言基础。
第2章主要介绍kNN算法。首先讲解kNN算法原理、非参数估计方法,然后通过实例介绍三文鱼和鲈鱼的分类。
第3章主要介绍朴素贝叶斯算法。首先讲解朴素贝叶斯定理,然后利用朴素贝叶斯以西瓜数据集为例进行分类实践。
第4章主要介绍聚类算法。介绍k均值、基于密度的聚类、基于层次的聚类算法思想及实现。
第5章主要介绍EM算法。首先介绍EM算法思想,然后利用EM算法对西瓜数据集进行聚类,还以抛掷硬币为例估计其概率。
第6章主要介绍支持向量机。首先介绍感知机模型,然后讲解支持向量机原理,以及支持向量的线性分类和非线性分类、支持向量机回归,最后利用支持向量机对鸢尾花进行分类。
第7章主要介绍决策树。首先介绍决策树算法原理,然后以相亲为例构造决策树,并对其进行分类。
第8章主要介绍线性回归。首先介绍回归的概念,然后分别介绍单变量回归、多变量回归和多项式回归算法及实现。
第9章主要介绍逻辑回归。首先介绍sigmoid函数和逻辑回归推导过程、算法实现,然后使用逻辑回归对良性肿瘤和恶性肿瘤进行预测。
第10章主要介绍人工神经网络。首先介绍BP神经网络原理,然后以具体实例介绍BP神经网络训练过程中参数的学习,最后对鸢尾花数据进行分类。
第11章主要介绍垃圾邮件分类。首先介绍中文分词、去除停用词、文本向量化等文本预处理和特征提取,然后使用贝叶斯算法、SVM算法等对垃圾邮件进行分类。
第12章主要介绍手写数字识别。首先介绍图像的存储表示、图像预处理,然后分别使用kNN和BP神经网络对手写数字进行识别。
第13章主要介绍零售商品的分析与预测。以零售商品的分析与预测为例,讲解属性特征数值化、缺失值处理、特征选择等,然后使用线性回归、岭回归、Lasso回归、多项式回归等对商品销售额预测。
第14章主要介绍基于协同过滤的推荐系统。首先介绍协同过滤推荐原理、推荐系统的评估方法,然后介绍基于近邻用户和近邻项目的协同过滤推荐算法及实现,最后介绍隐语义分析的推荐系统算法思想及实现。
配套教学资源下载
本书配套的教学资源,包括示例源代码、PPT课件、课后习题答案、开发环境等。读者需要用微信扫描右侧的二维码,可按页面提示填写你的邮箱,把链接转发到邮箱中下载。如果阅读过程中发现问题,请联系booksaga@163.com,邮件主题写“Python机器学习实践”。
本书作者与鸣谢
参与本书编写的有张建伟、陈锐、马军霞、王鹏、梁树军、张亚洲、谷培培。其中,张建伟编写第1章,陈锐编写第3章和第14章,马军霞编写第5章和第6章,王鹏编写第12章,梁树军编写第2章、第7章和第8章,张亚洲编写第9章和第10章,谷培培编写第11章和第13章。
本书为郑州市大数据人才培养校企合作专业教材。在本书的写作过程中,得到了郑州轻工业大学和清华大学出版社的大力支持,在此表示衷心感谢。
在本书编写的过程中,参阅了大量相关论文、教材、著作,个别案例也参考了网络资源,在此向各位原著者致敬!
由于作者水平有限,加上时间仓促,书中难免存在一些不足之处,恳请读者批评指正。
作 者
2022年5月
|
|