新書推薦:
《
中国早期民法新论:案例、法规、概念与法律之外
》
售價:HK$
52.8
《
六星纪元:盟战时代
》
售價:HK$
85.8
《
明代女真史
》
售價:HK$
104.5
《
富足人生指南:用十年时间实现富而喜悦
》
售價:HK$
85.8
《
少女杂货铺 Procreate可爱质感插画教程
》
售價:HK$
76.8
《
边界感:人和人之间最舒服的距离
》
售價:HK$
53.9
《
数理人文(第1辑)
》
售價:HK$
107.8
《
俘虏危机:大英帝国崛起的背面(1600~1850)
》
售價:HK$
130.9
|
編輯推薦: |
1.本书内容属于前沿科学技术、机器学习范畴,是机器学习领域学者应学的新技术;
2.本书是集成学习国内首本引进版图书;
3.本书内容精炼,全书都是干货,没有冗余的铺垫,读者可以轻松阅读;
4.本书附有代码和算法逻辑框图;
5.本书包含集成学习的基础知识,集成学习技术、集成学习库和实战应用。
|
內容簡介: |
《集成学习入门与实战:原理、算法与应用》通过6章内容全面地解读了集成学习的基础知识、集成学习技术、集成学习库和实践应用。其中集成学习技术包括采样、Bagging、投票集成、Boosting、AdaBoost、梯度提升、XGBoost、Stacking、随机森林、决策树等,从混合训练数据到混合模型,再到混合组合,逻辑严谨、逐步讲解;同时也对ML-集成学习、Dask、LightGBM、AdaNet等集成学习库相关技术进行了详细解读;后通过相关实践对集成学习进行综合性应用。本书配有逻辑框图、关键代码及代码分析,使读者在阅读中能够及时掌握算法含义和对应代码。
本书适合集成学习的初学者和机器学习方向的从业者和技术人员阅读学习,也适合开设机器学习等算法课程的高等院校师生使用。
|
目錄:
|
第1章 为什么需要集成学习 001
1.1 混合训练数据 003
1.2 混合模型 004
1.3 混合组合 008
1.4 本章小结 009
第2章 混合训练数据 011
2.1 决策树 013
2.2 数据集采样 018
2.2.1 不替换采样(WOR) 018
2.2.2 替换采样(WR) 019
2.3 Bagging(装袋算法) 021
2.3.1 k重交叉验证 024
2.3.2 分层的k重交叉验证 026
2.4 本章小结 028
第3章 混合模型 029
3.1 投票集成 030
3.2 硬投票 031
3.3 均值法/软投票 033
3.4 超参数调试集成 036
3.5 水平投票集成 038
3.6 快照集成 044
3.7 本章小结 046
第4章 混合组合 047
4.1 Boosting(提升算法) 048
4.1.1 AdaBoost(自适应提升算法) 049
4.1.2 Gradient Boosting(梯度提升算法) 051
4.1.3 XGBoost(梯度提升算法) 053
4.2 Stacking(堆叠算法) 055
4.3 本章小结 058
第5章 集成学习库 059
5.1 ML-集成学习 060
5.1.1 多层集成 063
5.1.2 集成模型的选择 064
5.2 通过Dask扩展XGBoost 069
5.2.1 Dask数组与数据结构 071
5.2.2 Dask-ML 076
5.2.3 扩展XGBoost 079
5.2.4 微软LightGBM 082
5.2.5 AdaNet 088
5.3 本章小结 090
第6章 实践指南 092
6.1 基于随机森林的特征选择 093
6.2 基于集成树的特征转换 096
6.3 构建随机森林分类器预处理程序 103
6.4 孤立森林进行异常点检测 110
6.5 使用Dask库进行集成学习处理 114
6.5.1 预处理 115
6.5.2 超参数搜索 117
6.6 本章小结 121
致谢 122
|
內容試閱:
|
集成学习正迅速成为数据科学界机器学习模型的热门选择。集成方法通过多种有趣方式组合了机器学习模型的输出。即使从事机器学习工作多年的工程师,仍然有可能认识不到集成方法的强大之处,因为在大多数机器学习课程和书籍中,这个主题通常被忽略或仅给出简短的概述。
Kaggle是一个有竞争性的机器学习平台,对机器学习技术进行了公正的评价。在过去的几年里,集成方法始终优于其他学习方法,这本身就诠释了集成学习技术所带来的好处。本书目的在于帮助读者了解集成学习技术,并在实际工作中有效地应用它。
本书第1章首先解释为什么需要集成学习,并对各种集成技术形成基本的理解。第2章、第3章和第4章涵盖了各种集成技术,并按照混合训练数据、混合模型和混合组合的顺序分别进行了阐述。在这些章节中,将认识到一些重要的集成学习技术,如随机森林、Bagging、Stacking和交叉验证方法等。第5章介绍了集成学习库,这些数据库有利于加快训练速度。第6章介绍了将集成技术融入实际机器学习工作流的方法。
本书提出了一个简明、易于理解的方法来学习集成学习技术实际应用案例,无需数据模型初学者进行反复的学习。本书中的代码(Python脚本)可以作为程序的延伸和参考。
|
|