新書推薦:

《
法国国家图书馆藏中国古代博物图集(第一卷)
》
售價:HK$
206.8

《
上岸
》
售價:HK$
47.1

《
粮舵:文明分流与现代化的起源
》
售價:HK$
85.8

《
不平等的样貌
》
售價:HK$
65.8

《
从零开始做娃衣 娃衣制作指南
》
售價:HK$
87.8

《
读懂中国经济的优势和未来
》
售價:HK$
74.8

《
量子前沿:解密未来技术与产业生态
》
售價:HK$
87.8

《
服务的细节138:像销冠一样卖鞋
》
售價:HK$
54.8
|
編輯推薦: |
拨开笼罩在机器学习知识上方复杂的数学“乌云”
门槛超低,让数学功底薄弱的读者也可快速入门机器学习
详解机器学习的应用场景、编程步骤、Python开发包和算法模型性能评估
结合近100幅示意图,详解机器学习的8个常用算法的基本原理与应用
通过20多个典型示例和8个综合应用实例,手把手带领读者进行应用实践
提供79道典型习题,帮助读者巩固和自测所学知识,学习效果更好
免费提供书中涉及的配套源代码和教学PPT等超值资源
门槛超低:拨开笼罩在机器学习上方复杂的数学“乌云”,让不具备深厚数学功底的读者也可以快速入门机器学习。
通俗易懂:尽量避免大篇幅讲解晦涩难懂的专业术语和数学公式,而是用平实的语言将机器学习常用算法的基本原理讲透,并结合大量的图示、示例和实例帮助读者理解,非常符合学习和认知规律。
内容丰富:全面涵盖机器学习应用开发的典型步骤、Python机器学习软件包、机器学习理论基础、k-近邻算法、线性回归算法、逻辑回归算法、决策树算法、支持向量机算法、朴素贝叶斯算法、PCA算法和k-均值算法等相关内容。
图文并茂:结合近100幅示意图详解机器学习的8个常用算法的基本原理
|
內容簡介: |
《scikit-learn机器学习超入门:算法原理与实践》通过通俗易懂的语言、丰富的图示和生动的实例,拨开了笼罩在机器学习上方的复杂数学“乌云”,让读者能以较低的门槛和学习成本快速入门机器学习。
來源:香港大書城megBookStore,http://www.megbook.com.hk 《scikit-learn机器学习超入门:算法原理与实践》共11章,详细介绍在Python环境下学习scikit-learn机器学习框架的相关知识,涵盖的主要内容有机器学习应用开发的典型步骤、Python机器学习软件包、机器学习理论基础、k-近邻算法、线性回归算法、逻辑回归算法、决策树算法、支持向量机算法、朴素贝叶斯算法、PCA算法和k-均值算法等。
《scikit-learn机器学习超入门:算法原理与实践》内容丰富,讲解通俗易懂,适合有一定Python语言基础而想快速入门机器学习、深度学习和人工智能相关技术的人员和爱好者阅读,也适合作为相关院校和培训机构的教材或参考书。
|
關於作者: |
黄永昌, 2004年毕业于厦门大学,毕业后从事手机系统软件的研发工作。熟悉C、Python、Java和JavaScript等多种开发语言,对数据处理与分析有浓厚的兴趣。2014年开始涉猎机器学习和数据挖掘的相关知识。2015年加入ABB公司从事智能家居系统开发,通过分析服务器与客户端日志数据,为智能家居系统开发了智能决策模型。2024年初加入林德叉车,任机器人系统开发总监,深度参与机器学习、物体识别和机器视觉等相关开发工作。
|
目錄:
|
第1章 机器学习概述 1
1.1 什么是机器学习 1
1.2 机器学习有什么用 2
1.3 机器学习的分类 3
1.4 机器学习应用开发的典型步骤 4
1.4.1 数据采集和标记 5
1.4.2 数据清洗 5
1.4.3 特征选择 5
1.4.4 模型选择 6
1.4.5 模型训练和测试 6
1.4.6 模型的性能评估和优化 6
1.4.7 模型的使用 6
1.5 习题 7
第2章 Python机器学习软件包 8
2.1 开发环境搭建 8
2.2 IPython基础与Jupyter图形界面 9
2.2.1 IPython基础 10
2.2.2 Jupyter图形界面 14
2.3 NumPy简介 16
2.3.1 NumPy数组 17
2.3.2 NumPy运算 22
2.4 pandas简介 35
2.4.1 基本数据结构 35
2.4.2 数据排序 37
2.4.3 数据访问 38
2.4.4 时间序列 39
2.4.5 数据可视化 40
2.4.6 文件读写 41
2.5 Matplotlib简介 42
2.5.1 图形样式 43
2.5.2 图形对象 45
2.5.3 画图操作 51
2.6 scikit-learn简介 56
2.6.1 示例:用scikit-learn实现手写数字识别 56
2.6.2 用scikit-learn处理机器学习问题的通用规则 61
2.7 习题 62
2.8 拓展学习资源 63
第3章 机器学习理论基础 64
3.1 过拟合和欠拟合 64
3.2 成本函数 65
3.3 模型的准确性 67
3.3.1 模型性能的不同表述方式 67
3.3.2 交叉验证数据集 67
3.4 学习曲线 68
3.4.1 示例:画出学习曲线 69
3.4.2 过拟合和欠拟合的特征 72
3.5 算法模型性能优化 73
3.6 查准率和召回率 73
3.7 F1分数 74
3.8 习题 75
第4章 k-近邻算法 76
4.1 算法原理 76
4.1.1 算法的优缺点 77
4.1.2 算法的参数 77
4.1.3 算法的变种 77
4.2 示例:使用k-近邻算法进行分类 77
4.3 示例:使用k-近邻算法进行回归拟合 80
4.4 实例:糖尿病预测 81
4.4.1 加载数据 81
4.4.2 模型比较 83
4.4.3 模型训练与分析 84
4.4.4 特征选择与数据可视化 85
4.5 拓展阅读 87
4.5.1 如何提高k-近邻算法的运算效率 87
4.5.2 相关性测试 88
4.6 习题 89
第5章 线性回归算法 91
5.1 算法原理 91
5.1.1 预测函数 91
5.1.2 成本函数 92
5.1.3 梯度下降算法 92
5.2 多变量线性回归算法 94
5.2.1 预测函数 94
5.2.2 成本函数 95
5.2.3 梯度下降算法 96
5.3 模型优化 97
5.3.1 多项式与线性回归 97
5.3.2 数据归一化 98
5.4 示例:使用线性回归算法拟合正弦函数 98
5.5 实例:房价测算 100
5.5.1 输入特征 101
5.5.2 模型训练 102
5.5.3 模型优化 103
5.5.4 学习曲线 104
5.6 拓展阅读 105
5.6.1 梯度下降迭代公式推导 105
5.6.2 随机梯度下降算法 105
5.6.3 标准方程 106
5.7 习题 107
第6章 逻辑回归算法 108
6.1 算法原理 108
6.1.1 预测函数 108
6.1.2 判定边界 109
6.1.3 成本函数 111
6.1.4 梯度下降算法 112
6.2 多元分类 112
6.3 正则化 113
6.3.1 线性回归模型正则化 113
6.3.2 逻辑回归模型正则化 114
6.4 算法参数 115
6.5 实例:乳腺癌检测 117
6.5.1 数据采集与特征提取 117
6.5.2 模型训练 119
6.5.3 模型优化 121
6.5.4 学习曲线 122
6.6 拓展阅读 124
6.7 习题 125
第7章 决策树算法 127
7.1 算法原理 127
7.1.1 信息增益 128
7.1.2 决策树的创建 131
7.1.3 剪枝算法 133
7.2 算法参数 134
7.3 实例:泰坦尼克号上的幸存者预测 135
7.3.1 数据分析 135
7.3.2 模型训练 137
7.3.3 优化模型参数 137
7.3.4 模型参数选择工具包 141
7.4 拓展阅读 143
7.4.1 熵和条件熵 143
7.4.2 决策树的构建算法 144
7.5 集合算法 144
7.5.1 自助聚合算法 145
7.5.2 正向激励算法 145
7.5.3 随机森林 146
7.5.4 ExtraTrees算法 147
7.6 习题 147
第8章 支持向量机算法 148
8.1 算法原理 148
8.1.1 大间距分类算法 148
8.1.2 松弛系数 150
8.2 核函数 152
8.2.1 最简单的核函数 152
8.2.2 相似性函数 154
8.2.3 常用的核函数 155
8.2.4 核函数的对比 156
8.3 scikit-learn中SVM算法的实现 158
8.4 实例:乳腺癌检测 161
8.5 习题 164
第9章 朴素贝叶斯算法 166
9.1 算法原理 166
9.1.1 贝叶斯定理 166
9.1.2 朴素贝叶斯分类法 167
9.2 一个简单的示例 169
9.3 概率分布 169
9.3.1 概率统计的基本概念 170
9.3.2 多项式分布 170
9.3.3 高斯分布 174
9.4 连续值的处理 175
9.5 实例:文档分类 176
9.5.1 获取数据集 176
9.5.2 文档的数学表达 177
9.5.3 模型训练 179
9.5.4 模型评价 181
9.6 习题 184
第10章 PCA算法 185
10.1 算法原理 185
10.1.1 数据归一化和缩放 186
10.1.2 计算协方差矩阵的特征向量 187
10.1.3 数据降维和恢复 187
10.2 PCA算法示例 188
10.2.1 使用NumPy模拟PCA的计算过程 188
10.2.2 使用Sklearn进行PCA的降维运算 190
10.2.3 PCA的物理含义 191
10.3 PCA的数据还原率与应用 192
10.3.1 数据还原率 192
10.3.2 加快监督机器学习算法的运算速度 193
10.4 实例:人脸识别 194
10.4.1 加载数据集 194
10.4.2 一次失败的尝试 196
10.4.3 使用PCA算法来处理数据集 200
10.4.4 最终的结果 203
10.5 拓展阅读 207
10.6 习题 208
第11章 k-均值算法 209
11.1 算法原理 209
11.1.1 k-均值算法的成本函数 210
11.1.2 随机初始化聚类中心点 210
11.1.3 选择聚类的个数 211
11.2 scikit-learn中k-均值算法的实现 211
11.3 实例:使用k-均值算法对文档进行聚类分析 215
11.3.1 准备数据集 215
11.3.2 加载数据集 216
11.3.3 文本聚类分析 217
11.4 聚类算法的性能评估 220
11.4.1 Adjust Rand Index算法简介 220
11.4.2 齐次性和完整性 221
11.4.3 轮廓系数 223
11.5 习题 224
后记 225
|
內容試閱:
|
机器学习是近年来非常热门的技术。然而普通程序员想要转行机器学习却并不容易,因为很多人一开始可能就会被一大堆数学公式和推导过程所折磨。笔者也经历过这一过程,至今还历历在目。但实际上,在机器学习的从业人员中究竟有多少人需要从头去实现一个算法?又有多少人有机会去发明一个新算法?从一开始就被细节和难点缠住,这会严重打击想进入机器学习领域的新人的热情和信心。
笔者编写本书就是要解决这个问题。本书尽量用通俗易懂的语言去描述算法的工作原理,并使用scikit-learn工具包演示算法的具体使用及其能解决的实际问题,从而让那些非科班出身而想半路“杀进”人工智能领域的程序员和对机器学习感兴趣的人能够以较低的门槛和学习成本快速入门机器学习。本书阅读门槛很低,甚至可以作为机器学习的科普读物阅读。可以说,本书几乎适合所有对机器学习算法和人工智能感兴趣的人阅读。
当然,这里并不否认数学对于机器学习算法实现的重要性,毕竟它是人工智能的基础。万事开头难,相信只有打开一扇门,才能发现一个五彩缤纷的世界。希望本书能帮助广大读者打开机器学习的大门,从而迈入机器学习的新世界。
本书特色
? 内容丰富:涵盖机器学习应用开发的典型步骤、Python机器学习软件包、机器学习理论基础、k-近邻算法、线性回归算法、逻辑回归算法、决策树算法、支持向量机算法、朴素贝叶斯算法、PCA算法和k-均值算法等相关内容。
? 门槛超低:拨开笼罩在机器学习知识上方的复杂数学“乌云”,让数学功底薄弱的读者也可以快速入门机器学习。
? 通俗易懂:尽量避免大篇幅讲解晦涩难懂的专业术语和数学公式,而是用平实的语言将机器学习常用算法的基本原理讲透,并结合大量的图示、示例和实例帮助读者理解,非常符合学习和认知规律。
? 图文并茂:结合近100幅示意图详解机器学习8个常用算法的基本原理与应用,用图文并茂的方式帮助读者高效、直观地理解核心知识点,从而有效降低学习难度。
? 实用性强:讲解时给出20多个典型示例,并详解8个应用实例,展示如何使用机器学习算法解决实际应用问题,从而提高读者的实际动手能力。
? 提供习题:每章最后都提供多道习题(全书共79道),方便读者巩固和自测所学的知识,以达到更好的学习效果。
? 资源超值:免费提供书中涉及的配套源代码和教学PPT等资源,方便读者学习以及相关院校与培训机构的老师教学时使用。
本书内容
第1章机器学习概述,主要介绍机器学习的定义、应用场景及其分类,并通过一个简单的示例,帮助读者了解机器学习的典型步骤及该领域的一些专业术语。
第2章Python机器学习软件包,主要介绍scikit-learn开发环境的搭建步骤,以及IPython、NumPy、pandas和Matplotlib等软件包的基本用法,并通过一个实例介绍scikit-learn机器学习的基本原理和通用规则。
第3章机器学习理论基础,主要介绍算法模型性能评估的指标和评估方法等理论基础。本章内容是本书关键的理论基础知识,对理解其他章节的内容非常重要。
第4章k-近邻算法,主要介绍一个有监督的机器学习算法,即k-近邻算法。该算法可以解决分类问题,也可以解决回归问题。
第5章线性回归算法,主要介绍单变量线性回归算法和多变量线性回归算法的原理,以及如何通过梯度下降算法迭代求解线性回归模型,并给出一个预测房价的实例。另外,本章对成本函数和使用线性回归算法对数据进行拟合也做了讲解。
第6章逻辑回归算法,主要介绍逻辑回归算法的原理与成本函数的用法,涵盖算法原理、多元分类、正则化和算法参数等内容,并给出一个实例——如何使用逻辑回归算法解决乳腺癌检测的问题。
第7章决策树算法,主要介绍决策树算法的基本原理和参数,并给出一个实例——预测泰坦尼克号上的幸存者,最后对决策树的构建算法和集合算法做了必要讲解。
第8章支持向量机算法,主要介绍支持向量机算法的基本原理与常用核函数的用法,以及scikit-learn中支持向量机算法的实现,并给出一个乳腺癌检测的实例。
第9章朴素贝叶斯算法,首先介绍贝叶斯定理与朴素贝叶斯分类法,然后结合一个简单的示例说明该算法的基本原理,接着介绍概率分布的概念与几种典型的概率分布,最后通过一个文档分类实例说明朴素贝叶斯算法的应用。
第10章PCA算法,首先介绍PCA算法的基本原理,然后通过简单的模拟运算示例帮助读者理解该算法的原理和实现步骤,接着介绍PCA的数据还原率与应用,最后给出一个人脸识别实例。另外,本章在讲解中推荐了一些优秀的线性代数资源,供读者学习时参考。
第11章k-均值算法,首先介绍k-均值算法的基本原理与关键迭代步骤,然后结合一个简单示例介绍如何使用scikit-learn中的k-均值算法解决聚类问题,最后结合一个文本聚类分析实例介绍k-均值算法的应用,并介绍典型的无监督机器学习算法的性能评估指标。
读者对象
阅读本书,建议读者最好有一定的Python语言基础。如果不熟悉Python语言,那么最好有C 或Java等其他编程语言基础。具体而言,本书的读者对象如下:
? 机器学习入门人员;
? 人工智能技术爱好者;
? 有一定编程经验但不满足于一直“搬砖”的软件工程师;
? 想转型机器学习的程序员;
? 高等院校计算机与人工智能等专业的师生;
? 相关培训机构的学员。
阅读建议
如果你只是好奇机器学习背后的基本原理,那么只要阅读书中的基本原理讲解而跳过代码实现环节即可;如果你想用本书敲开机器学习的这扇大门,并且在未来想从事这一行业,那么建议你按章节次序系统地阅读本书,而且要亲自动手完成书中的所有示例和实例。本书提供书中所有示例和实例的完整源代码,建议你认真阅读并亲自编写和运行这些源代码,而且可以调整相关参数,看看结果有什么变化,最后再独立把这些例子实现一遍。
配套资源获取方式
本书涉及的源代码和教学PPT等配套资源有两种获取方式:一是关注微信公众号(见书),回复数字“45”自动获取下载链接;二是在清华大学出版社网站上搜索到本书,然后在本书页面上找到“资源下载”栏目,单击“网络资源”按钮进行下载。
售后服务
由于笔者水平所限,书中可能存在疏漏与不足之处,恳请广大读者批评与指正。读者在阅读本书的过程中如果有疑问,可以发送电子邮件获得帮助。
黄永昌
2025年3月
|
|