新書推薦:
《
三十六计绘本(共8册)走为上计+欲擒故纵+以逸待劳+无中生有+金蝉脱壳+浑水摸鱼+打草惊蛇+顺手牵羊 简装
》
售價:HK$
177.4
《
茶之书(日本美学大师冈仓天心传世经典 诗意盎然地展现东方的智慧和美学 收录《卖茶翁茶器图》《茶具十二先生图》《煎茶图式》《历代名瓷图谱》等86幅精美茶室器物图)
》
售價:HK$
65.0
《
云冈:人和石窟的1500年
》
售價:HK$
72.8
《
淡水鱼类营养生理与饲料
》
售價:HK$
333.8
《
人体结构绘画重点
》
售價:HK$
143.4
《
中国妖怪故事(全集·增订版)
》
售價:HK$
221.8
《
于胥斯原 乡族、风水与地方记忆
》
售價:HK$
177.0
《
以经治国与汉代社会
》
售價:HK$
98.6
|
編輯推薦: |
《机器学习基础:从入门到求职》的定位是帮助求职者快速入门并掌握机器学习相关的基础核心知识,降低学习成本,节省更多的时间。
但是《机器学习基础:从入门到求职》并未介绍如何求职、如何面试,而是把机器学习算法相关岗位的常见问题罗列在前言,读者可阅读前言后自行判断哪些方面需要提升,然后学习本书中的相关章节,带你走近机器学习求职的起点。
|
內容簡介: |
本书是一本机器学习算法方面的理论 实践读物,主要包含机器学习基础理论、回归模型、分类模型、聚类模型、降维模型和深度学习模型六大部分。机器学习基础理论部分包含第1、2章,主要介绍机器学习的理论基础和工程实践基础。第3章是回归模型部分,主要包括模型的建立、学习策略的确定和优化算法的求解过程,*后结合三种常见的线性回归模型实现了一个房价预测的案例。第4至11章详细介绍了几种常见的分类模型,包括朴素贝叶斯模型、K近邻模型、决策树模型、Logistic回归模型、支持向量机模型、随机森林模型、AdaBoost模型和提升树模型,每一个模型都给出了较为详细的推导过程和实际应用案例。第12章系统介绍了五种常见的聚类模型,包括K-Means聚类、层次聚类、密度聚类、谱聚类和高斯混合聚类,每一个模型的原理、优缺点和工程应用实践都给出了较为详细的说明。第13章系统介绍了四种常用的降维方式,包括奇异值分解、主成分分析、线性判别分析和局部线性嵌入,同样给出了详细的理论推导和分析。*后两章分别是词向量模型和深度神经网络模型,其中,词向量模型详细介绍了Word2Vec和Doc2Vec模型的原理推导和应用;深度神经网络模型系统介绍了深度学习相关的各类基础知识。本书适合对人工智能和机器学习感兴趣的学生、求职者和已工作人士,以及想要使用机器学习这一工具的跨行业者(有*基本的高等数学、线性代数、概率基础即可),具体判别方法建议您阅读本书的前言。
|
關於作者: |
胡欢武,毕业于上海交通大学电子与通信工程专业,研究机器学习和数据挖掘方面近4年。运营有数据科学方面的知乎专栏和微信公众号,现就职于一线互联网公司。
|
目錄:
|
第1章机器学习概述1
1.1机器学习介绍1
1.1.1机器学习的特点1
1.1.2机器学习的对象2
1.1.3机器学习的应用4
1.2机器学习分类5
1.2.1按任务类型分类5
1.2.2按学习方式分类7
1.2.3生成模型与判别模型9
1.3机器学习方法三要素11
1.3.1模型11
1.3.2策略13
1.3.3算法14
1.3.4小结23
第2章机器学习工程实践24
2.1模型评估指标24
2.1.1回归模型的评估指标24
2.1.2分类模型的评估指标25
2.1.3聚类模型的评估指标33
2.1.4常用距离公式37
2.2模型复杂度度量40
2.2.1偏差与方差40
2.2.2过拟合与正则化42
2.3特征工程与模型调优47
2.3.1数据挖掘项目流程47
2.3.2特征工程50
2.3.3模型选择与模型调优57
第3章线性回归63
3.1问题引入63
3.2线性回归模型64
3.2.1模型建立64
3.2.2策略确定65
3.2.3算法求解66
3.2.4线性回归模型流程67
3.3线性回归的scikit-learn实现67
3.3.1普通线性回归68
3.3.2Lasso回归69
3.3.3岭回归70
3.3.4ElasticNet回归71
3.4线性回归实例73
3.5小结75
第4章朴素贝叶斯77
4.1概述77
4.2相关原理77
4.2.1朴素贝叶斯基本原理77
4.2.2原理的进一步阐述79
4.2.3后验概率最大化的含义82
4.2.4拉普拉斯平滑83
4.3朴素贝叶斯的三种形式及scikit-learn实现84
4.3.1高斯型84
4.3.2多项式型85
4.3.3伯努利型86
4.4中文文本分类项目87
4.4.1项目简介87
4.4.2项目过程87
4.4.3完整程序实现94
4.5小结100
第5章K近邻102
5.1概述102
5.2K近邻分类原理102
5.2.1K值的选择103
5.2.2距离度量103
5.2.3分类决策规则104
5.2.4K近邻分类算法过程105
5.3K近邻回归原理106
5.3.1回归决策规则106
5.3.2K近邻回归算法过程106
5.4搜索优化KD树107
5.4.1构造KD树107
5.4.2搜索KD树108
5.5K近邻的scikit-learn实现110
5.5.1K近邻分类110
5.5.2K近邻回归112
5.6K近邻应用实例112
5.7小结115
第6章决策树117
6.1概述117
6.2特征选择119
6.2.1信息增益119
6.2.2信息增益比122
6.2.3基尼指数123
6.3决策树生成124
6.3.1ID3决策树124
6.3.2C4.5决策树125
6.3.3CART决策树126
6.4决策树剪枝131
6.5决策树的scikit-learn实现133
6.6决策树应用于文本分类135
6.7小结138
第7章Logistic回归140
7.1Logistic回归概述140
7.2Logistic回归原理140
7.2.1Logistic回归模型140
7.2.2Logistic回归学习策略141
7.2.3Logistic回归优化算法142
7.3多项Logistic回归144
7.4Logistic回归的scikit-learn实现144
7.5Logistic回归实例146
7.6小结153
第8章支持向量机155
8.1感知机155
8.1.1感知机模型155
8.1.2感知机学习策略157
8.1.3感知机优化算法159
8.1.4感知机模型整体流程159
8.1.5小结160
8.2硬间隔支持向量机160
8.2.1引入160
8.2.2推导161
8.3软间隔支持向量机169
8.4合页损失函数176
8.5非线性支持向量机177
8.6SVM的scikit-learn实现180
8.6.1线性SVM180
8.6.2非线性SVM181
8.7SVM实例182
8.8小结184
第9章随机森林186
9.1Bagging186
9.2随机森林概念188
9.3RF的推广extra trees188
9.4RF的scikit-learn实现189
9.5RF的scikit-learn使用实例192
9.5.1程序193
9.5.2结果及分析195
9.5.3扩展198
9.6小结200
第10章AdaBoost202
10.1AdaBoost的结构202
10.1.1AdaBoost的工作过程203
10.1.2AdaBoost多分类问题204
10.1.3AdaBoost回归问题208
10.2AdaBoost的原理210
10.3AdaBoost的scikit-learn实现212
10.4AdaBoost应用实例214
10.5AdaBoost模型的优缺点217
第11章提升树218
11.1提升树的定义218
11.2梯度提升树223
11.2.1梯度提升树的原理推导224
11.2.2GBDT和GBRT模型的处理过程226
11.2.3梯度提升模型的scikit-learn实现227
11.2.4梯度提升模型的scikit-learn使用实例230
11.2.5GBDT模型的优缺点236
11.3XGBoost236
11.3.1XGBoost的原理236
11.3.2XGBoost调参239
11.3.3XGBoost与GBDT的比较241
第12章聚类243
12.1聚类问题介绍243
12.2K-Means聚类244
12.2.1K-Means聚类过程和原理244
12.2.2K-Means算法优化247
12.2.3小结248
12.2.4K-Means应用实例248
12.3层次聚类252
12.3.1层次聚类的过程和原理252
12.3.2小结254
12.3.3层次聚类应用实例254
12.4密度聚类算法256
12.4.1密度聚类算法过程和原理256
12.4.2密度聚类小结258
12.4.3密度聚类应用实例259
12.5谱聚类262
12.5.1谱聚类的过程和原理262
12.5.2谱聚类小结269
12.5.3谱聚类应用实例270
12.6高斯混合模型272
12.6.1高斯混合聚类过程和原理272
12.6.2EM算法274
12.6.3小结279
12.6.4GMM应用实例279
第13章降维282
13.1奇异值分解282
13.1.1矩阵的特征分解282
13.1.2奇异值分解283
13.2主成分分析286
13.2.1PCA原理推导287
13.2.2核化PCA293
13.2.3PCAKPCA的scikit-learn实现293
13.3线性判别分析300
13.3.1LDA原理推导300
13.3.2LDA与PCA的比较305
13.3.3LDA应用实例306
13.4局部线性嵌入309
13.4.1局部线性嵌入介绍309
13.4.2局部线性嵌入过程和原理309
13.4.3LLE应用实例314
第14章Word2Vec和Doc2Vec词向量模型317
14.1Word2Vec317
14.1.1Word2Vec概述317
14.1.2基于Hierarchical Softmax方法的CBOW模型318
14.1.3基于Hierarchical Softmax方法的Skip-Gram模型322
14.1.4基于Negative Sampling方法的CBOW模型323
14.1.5基于Negative Sampling方法的Skip-Gram模型326
14.1.6Word2Vec应用实例327
14.2Doc2Vec模型329
14.2.1Doc2Vec模型原理329
14.2.2Doc2Vec应用实例331
第15章深度神经网络335
15.1深度学习335
15.1.1概述335
15.1.2深度学习发展历史336
15.2神经网络原理341
15.2.1前向传播341
15.2.2反向传播343
15.2.3实例347
15.2.4几种常用激活函数354
15.2.5梯度消失与梯度爆炸357
15.2.6几种常用的优化算法358
15.3神经网络应用实例363
15.4小结366
|
內容試閱:
|
前言
首先解答读者可能产生的一个疑问:本书的书名是《机器学习基础:从入门到求职》,但本书几乎通篇都在讲机器学习各种模型的原理推导和应用实例,这是为什么呢?其实本书的定位是帮助求职者快速入门并掌握机器学习相关的基础核心知识,降低学习成本,节省更多的时间。
为什么要这样做呢?原因也很简单。机器学习算法相关的岗位待遇比一般的开发岗位要好一些,但要求也变得更多。从目前的行情来看,站在公司招聘的角度,是一个既要、又要、还要的过程,即:既要掌握比较扎实的机器学习理论基础,又要有实践经验、懂业务场景,还要能编码、会计算机算法题。
对求职者来说,要求确实是太高了些。但这个岗位待遇好,有前途,也有钱途,因而很多人都报以极高的热情涌入,导致这个行业的招聘水涨船高,毕竟企业永远都是择优而选,优中取优!亲历过这几年求职或招聘的人可能会比较有感触:
2015年,机器学习在国内市场刚兴起的时候,懂机器学习算法的人不多,那时候企业招聘,只要是懂些皮毛的,可能都有机会去试一试。
2016年,市场开始火热,只懂些皮毛就不行了,必须还要懂得比较系统一点,要求求职者能够手推模型原理,再附加一些业务实践经验和计算机基础知识。
2017年,招聘的人不仅会问手推算法原理,还会细问项目内容及对业务的理解,再附加两道算法题。
2018年,招聘方希望你既要像算法工程师一样能手推模型原理,又要像传统程序员一样会写代码,还要像有工作经验的员工一样,有一些比较拿得出手的项目。
看到这里,如果你被这么多的要求吓到了,那么恭喜你,借这个心理转换过程重新定位自己,你可以学习本书;如果你决定迎难而上,那么也恭喜你,借这个机会赶紧查漏补缺,同样可以阅读本书。但是,如果你是计算机科班出身,已经信心满满,手握重点高校学历,重大科研项目经历,各种大厂实习经验,还有多篇顶会论文,那么这本书真的不适合你。
回到关于本书的定位问题上。上面说了既要、又要、还要的过程,也就是理论基础 业务能力 工程实践能力的过程。理论基础就是我们一直所说的机器学习算法理论,业务能力是指相关的项目或者工作经验,工程实践能力就是动手写代码的能力。对于一个想求职机器学习相关岗位的应届生,或者是想将机器学习应用到自己专业领域的人士,再或者是一个有一定编程经验想要转算法岗位的人来说,机器学习理论可能都是第一拦路虎。本书希望可以帮助读者用最短的时间、最少的精力,攻克这最难的一关。所以,再次提醒大家,本书并没有讲述如何面试求职,而是可以带你快速入门并应用机器学习,带你走近机器学习求职的起点,帮你节省一些学习和摸索的时间,本书并不是一本机器学习岗位求职大全,也绝非是你求职准备的终点。
如果看到这里,还不确定是否适合学习本书,那么看看本书的机器学习求职60问吧,这些都是求职过程中可能遇到的高频问题,也是机器学习需要掌握的核心理论基础,而这些问题,在本书中都有较为详细的推导和解答。如果你看了这些问题以后觉得都已经掌握了,那么本书不适合你。如果对一半以上问题觉得没什么概念或者似懂非懂,那么建议你看一看本书,相信你会有所收获的!
机器学习求职60问
类型一:基础概念类
问题1:过拟合与欠拟合(定义、产生的原因、解决的方法各是什么)。
问题2:L1正则与L2正则(有哪些常见的正则化方法?作用各是什么?区别是什么?为什么加正则化项能防止模型过拟合)。
问题3:模型方差和偏差(能解释一下机器学习中的方差和偏差吗?哪些模型是降低模型方差的?哪些模型是降低模型偏差的?举例说明一下)。
问题4:奥卡姆剃刀(说一说机器学习中的奥卡姆梯刀原理)。
问题5:模型评估指标(回归模型和分类模型各有哪些常见的评估指标?各自的含义是什么?解释一下AUC?你在平时的实践过程中用到过哪些评估指标?为什么要选择这些指标)。
问题6:风险函数(说一下经验风险和结构风险的含义和异同点)。
问题7:优化算法(机器学习中常见的优化算法有哪些?梯度下降法和牛顿法的原理推导)。
问题8:激活函数(神经网络模型中常用的激活函数有哪些?说一下各自的特点)。
问题9:核函数(核函数的定义和作用是什么?常用的核函数有哪些?你用过哪些核函数?说一下高斯核函数中的参数作用)。
问题10:梯度消失与梯度爆炸(解释一下梯度消失与梯度爆炸问题,各自有什么解决方案)。
问题11:有监督学习和无监督学习(说一下有监督学习和无监督学习的特点,举例说明一下)。
问题12:生成模型与判别模型(你知道生成模型和判别模型吗?各自的特点是什么?哪些模型是生成模型,哪些模型是判别模型)。
类型二:模型原理类
问题13:线性回归(线性回归模型的原理、损失函数、正则化项)。
问题14:KNN模型(KNN模型的原理、三要素、优化方案以及模型的优缺点)。
问题15:朴素贝叶斯(朴素贝叶斯模型的原理推导,拉普拉斯平滑,后验概率最大化的含义以及模型的优缺点)。
问题16:决策树(决策树模型的原理、特征评价指标、剪枝过程和原理、几种常见的决策树模型、各自的优缺点)。
问题17:随机森林模型(RF模型的基本原理,RF模型的两个随机。从偏差和方差角度说一下RF模型的优缺点,以及RF模型和梯度提升树模型的区别)。
问题18:AdaBoost(AdaBoost模型的原理推导、从偏差和方差角度说一下AdaBoost、AdaBoost模型的优缺点)。
问题19:梯度提升树模型(GBDT模型的原理推导、使用GBDT模型进行特征组合的过程、GBDT模型的优缺点)。
问题20:XGBoost(XGBoost模型的基本原理、XGBoost模型和GBDT模型的异同点、XBGoost模型的优缺点)。
问题21:Logistic回归模型(LR模型的原理、本质,LR模型的损失函数,能否使用均方损失、为什么)。
问题22:支持向量机模型(SVM模型的原理,什么是支持向量?为什么使用拉格朗日对偶性?说一下KKT条件、软间隔SVM和硬间隔SVM的异同点。SVM怎样实现非线性分类?SVM常用的核函数有哪些?SVM模型的优缺点各是什么)。
问题23:K-Means聚类(K-Means聚类的过程和原理是什么?优化方案有哪些?各自优缺点是什么)。
问题24:层次聚类(层次聚类的过程、原理和优缺点)。
问题25:密度聚类(密度聚类的基本原理和优缺点)。
问题26:谱聚类(谱聚类的基本原理和优缺点)。
问题27:高斯混合聚类(高斯混合聚类的原理和优缺点)。
问题28:EM算法(EM算法的推导过程和应用场景)。
问题29:特征分解与奇异值分解(特征分解与奇异值分解的原理、异同点、应用场景)。
问题30:主成分分析(PCA模型的原理、过程、应用场景)。
问题31:线性判别分析(LDA模型的原理、过程、应用场景)。
问题32:局部线性嵌入(LLE模型的原理、过程、应用场景)。
问题33:词向量(Word2Vec模型和Doc2Vec模型的类别,各自原理推导、应用和参数调节)。
问题34:深度神经网络(深度神经网络模型的原理,反向传播的推导过程,常用的激活函数,梯度消失与梯度爆炸问题怎么解决?说一下深度神经网络中的Dropout、早停、正则化)。
类型三:模型比较类
问题35:LR模型与SVM模型的异同点。
问题36:LR模型与朴素贝叶斯模型的异同点。
问题37:KNN模型与K-Means模型的异同点。
问题38:ID3、C4.5、CART模型的异同点。
问题39:PCA模型与LDA模型的异同点。
问题40:Bagging方式和Boosting模型的异同点。
问题41:GBDT模型与XGBoost模型的异同点。
问题42:Word2Vec模型中CWOB模式与Skip模式的异同点。
问题43:Word2Vec模型和Doc2Vec模型的异同点。
类型四:模型技巧类
问题44:模型调参(随便选一个上述涉及的模型,说一下它的调参方式与过程)。
问题45:特征组合(常见的特征组合方式有哪些?各自特点是什么)。
问题46:特征工程(结合实践解释一下你所理解的特征工程)。
问题47:缺失值问题(说一下你遇到的缺失值处理问题,你知道哪些缺失值处理方式?你使用过哪些,效果怎样)。
问题48:样本不平衡问题(你知道样本不平衡问题吗?你是怎样处理的?效果怎么样?除上采样和下采样外,你还能自己设计什么比较新颖的方式吗)。
问题49:特征筛选(特征筛选有哪几种常见的方式?结合自己的实践经验说一下各自的原理和特点。)
问题50:模型选择(你一般怎样挑选合适的模型?有实际的例子吗?)
问题51:模型组合(你知道哪些模型组合方式?除了运用AdaBoost和RF等模型,你自己有使用过Bagging和Embedding方式组合模型吗?结合实际例子说明一下)。
问题52:AB测试(了解AB测试吗?为什么要使用AB测试)。
问题53:降维(为什么要使用降维?你知道哪些降维方法?你用过哪些降维方式?结合实际使用说明一下)。
问题54:项目(你做过哪些相关的项目?挑一个你觉得印象最深刻的说明一下)。
问题55:踩过的坑(你在使用机器学习模型中踩过哪些坑?最后你是如何解决的)。
类型五:求职技巧类
问题56:机器学习求职要准备哪些项?各项对应如何准备?
问题57:机器学习相关的学习内容有哪些?学习路线应该怎么定?有什么推荐的学习资料?
问题58:机器学习岗求职的投递方式有哪些?什么时间投递最合适?投递目标应该怎样选择?
问题59:机器学习岗求职的简历最好写哪些内容?所做的项目应该如何描述?
问题60:面试过程中自我介绍如何说比较合适?求职心态应该如何摆正?如果遇到压力该如何面对?面试过程中如何掌握主导权?怎样回答面试官最后的你还有什么要问我的问题?怎样面对最后的人力资源面试?
致谢
首先,我要感谢每一位为此书做出贡献的人和每一位读者,你们的认可与鼓励是我坚持写作的源动力,希望本书的内容可以给你们带来一份惊喜!
|
|