新書推薦:

《
索恩丛书·风雨山河:清季变局中的人物与社会
》
售價:HK$
75.9

《
外太空巨型星座管控的迫切需求
》
售價:HK$
74.8

《
“Z行动”苏联空军志愿队研究(套装全2册)
》
售價:HK$
361.9

《
清华大学藏战国竹简校释(柒):《楚居》诸篇
》
售價:HK$
132.0

《
任伯年册页精选
》
售價:HK$
330.0

《
国之大道G219自驾攻略图——314国道喀什至红其拉甫口岸、独库公路
》
售價:HK$
52.8

《
中国近代史(名家导读版)
》
售價:HK$
90.2

《
《四库全书总目》子部辨证与学术批评研究(全三册)
》
售價:HK$
404.8
|
| 內容簡介: |
|
本书系统介绍数据科学核心理论与技术,融合了数学、统计学和计算机科学等多学科知识,旨在构建完整的数据科学知识体系。全书共 15 章,主要内容包括数据预处理、经典机器学习模型(回归、分类、聚类、集成)、关联规则挖掘、特征工程(降维与特征选择)、最大期望算法、概率图模型、深度学习、文本分析、图与网络分析以及分布式计算等核心模块。特别值得关注的是,本书对当前热点技术如Transformer、BERT、图神经网络等进行了讲解,并设有专门的文本分析和图与网络分析章节。此外,书中包含丰富的附录内容,涵盖了矩阵运算、概率论、优化算法等数学基础,为读者提供了必要的知识储备。本书主要面向高等院校数据科学与大数据技术专业的学生,可作为专业核心课程的教材,同时也适合相关领域的研究人员和工程技术人员参考。对于希望系统掌握数据科学技术、具备解决实际数据问题能力的读者来说,本书提供了从基础到前沿的完整学习路径。通过本书的学习,读者能够建立扎实的数据科学理论基础,并获得宝贵的实践经验。
|
| 關於作者: |
|
欧高炎,北京大学理学博士,博雅大数据学院院长,数据科学教育专家,全球首家大数据教育、竞赛和服务平台“数据嗨客”创始人。中国人民银行征信中心《大数据新算法用于信用模型构建的效果评估》项目组负责人。参与编写?《数据科学导引》等多部教材,在大数据人才培养领域有重要影响力。
|
| 目錄:
|
第 1 章 绪论........................................................ 1 1.1 数据科学的基本内容 ........................................ 2 1.1.1 数据分析的中心问题 ..................................... 4 1.1.2 数据的数学结构 ......................................... 5 1.1.3 数据分析的主要困难 ..................................... 6 1.1.4 算法的重要性 ........................................... 6 1.2 数据科学对学科发展的影响 ................................. 7 1.2.1 对传统学科的冲击 ....................................... 8 1.2.2 新学科的诞生:计算广告学 ............................... 9 1.3 数据科学对科学研究的影响 ................................ 10 1.4 数据科学的课程体系....................................... 10 1.5 本书结构 .................................................. 11 第 2 章 数据预处理................................................ 13 2.1 特征编码 .................................................. 14 2.1.1 数字编码.............................................. 14 2.1.2 One-Hot 编码 ......................................... 15 2.2 缺失值处理 ................................................ 16 2.3 数据标准化 ................................................ 19 2.3.1 Z-score 标准化......................................... 19 2.3.2 Min-Max 标准化 ....................................... 20 2.3.3 小数定标标准化 ........................................ 21 2.3.4 Logistic 标准化 ........................................ 21 2.3.5 不同标准化方法的对比 .................................. 22 2.4 特征离散化 ................................................ 23 2.4.1 等距离散化............................................ 24 2.4.2 等频离散化............................................ 25 2.4.3 聚类离散化............................................ 26 2.4.4 信息增益离散化 ........................................ 26 2.4.5 卡方离散化............................................ 27 2.4.6 类别属性相互依赖最大化 ................................ 28 2.4.7 小结..................................................29 2.5 离群值检测 ................................................ 29 2.5.1 基于统计的方法 ........................................ 30 2.5.2 基于近邻的方法 ........................................ 30 2.5.3 小结..................................................33 2.6 其他预处理方法 ........................................... 33 案例与实战 ..................................................... 33 第 3 章 回归模型 .................................................. 35 3.1 线性回归 .................................................. 36 3.1.1 一元线性回归 .......................................... 36 3.1.2 多元线性回归 .......................................... 37 3.1.3 小结..................................................38 3.2 线性回归正则化 ........................................... 39 3.2.1 岭回归和 LASSO.......................................39 3.2.2 其他正则化的线性回归模型 .............................. 43 3.3 非线性回归 ................................................ 44 3.3.1 样条回归.............................................. 44 3.3.2 径向基函数网络 ........................................ 46 案例与实战 ..................................................... 48 第 4 章 分类模型 .................................................. 50 4.1 逻辑回归 .................................................. 51 4.1.1 从线性回归到逻辑回归 .................................. 52 4.1.2 参数估计.............................................. 53 4.1.3 小结..................................................54 4.2 k-近邻..................................................... 55 4.2.1 k 值的选择 ............................................ 56 4.2.2 提高预测性能 .......................................... 57 4.2.3 小结..................................................58 4.3 决策树 .................................................... 59 4.3.1 决策树的生成 .......................................... 60 4.3.2 常见的决策树算法 ...................................... 65 4.3.3 决策树的剪枝 .......................................... 67 4.3.4 决策树分析............................................ 68 4.4 朴素贝叶斯 ................................................ 69 4.4.1 贝叶斯定理............................................ 69 4.4.2 朴素贝叶斯模型 ........................................ 70 4.4.3 参数估计方法 .......................................... 71 4.4.4 算法分析.............................................. 72 4.5 支持向量机 ................................................ 72 4.5.1 间隔与支持向量 ........................................ 72 4.5.2 对偶问题与 SMO 算法 .................................. 75 4.5.3 软间隔................................................77 4.5.4 核函数与核方法 ........................................ 79 4.5.5 支持向量机的优缺点 .................................... 80 案例与实战 ..................................................... 80 第 5 章 集成模型 .................................................. 82 5.1 集成方法综述..............................................83 5.1.1 Bagging 算法 .......................................... 84 5.1.2 Boosting 算法 ......................................... 86 5.1.3 Stacking 算法 ......................................... 87 5.2 随机森林算法..............................................88 5.2.1 随机森林算法的原理 .................................... 88 5.2.2 性能评估和特征评估 .................................... 89 5.2.3 随机森林算法的特点 .................................... 90 5.3 AdaBoost 算法 ............................................ 91 5.3.1 AdaBoost 算法的流程 .................................. 92 5.3.2 AdaBoost 算法的误差分析...............................96 5.3.3 AdaBoost 算法的目标函数...............................98 5.3.4 AdaBoost 算法小结 .................................... 98 5.4 应用实例:个人信用风险评估.............................. 99 5.4.1 项目背景.............................................. 99 5.4.2 建模流程.............................................. 99 5.4.3 效果评估.............................................100 5.4.4 总结 ................................................ 104 案例与实战 .................................................... 104 第 6 章 聚类模型 ................................................. 106 6.1 K-means 聚类............................................ 107 6.1.1 模型 ................................................ 108 6.1.2 K 值的选择 .......................................... 109 6.1.3 质心的选择...........................................109 6.1.4 K-means 的一些变种 .................................. 110 6.2 层次聚类 ................................................ 110 6.2.1 聚合式聚类...........................................111 6.2.2 分拆式聚类...........................................113 6.3 谱聚类 ................................................... 114 6.4 基于密度的聚类 .......................................... 116 6.5 小结......................................................117 案例与实战 .................................................... 118 第 7 章 关联规则挖掘 ............................................ 119 7.1 关联规则概述.............................................120 7.2 Apriori 算法.............................................. 123 7.2.1 Apriori 算法的性质....................................123 7.2.2 Apriori 算法的步骤....................................123 7.2.3 Apriori 算法的示例....................................124 7.2.4 关联规则生成.........................................125 7.2.5 Apriori 算法小结....
|
|