新書推薦:
《
无法从容的人生:路遥传
》
售價:HK$
74.8
《
亚述:世界历史上第一个帝国的兴衰
》
售價:HK$
107.8
《
大处着眼:持久战与《论持久战》
》
售價:HK$
85.8
《
人工智能与大数据:采煤机智能制造
》
售價:HK$
96.8
《
未来漫游指南:昨日科技与人类未来
》
售價:HK$
97.9
《
新民说·逝去的盛景:宋朝商业文明的兴盛与落幕(上下册)
》
售價:HK$
173.8
《
我从何来:自我的心理学探问
》
售價:HK$
119.9
《
失败:1891—1900 清王朝的变革、战争与排外
》
售價:HK$
85.8
|
內容簡介: |
本书首先介绍了如何在Python3.5中安装必要的数据科学工具箱;然后引导你进入数据改写和预处理阶段,在其中阐述用于数据分析、探索或处理的数据加载、变换和修复等关键的数据科学活动;后,通过介绍主要的机器学习算法、图分析技术和可视化方法来对数据科学进行概述。
|
關於作者: |
作 者 简 介阿尔贝托·博斯凯蒂(Alberto Boschetti)数据科学家、信号处理和统计学方面的专家。他是通信工程专业博士,现在伦敦居住和工作。他主要从事自然语言处理、行为分析、机器学习和分布式处理等方面的挑战性工作。他对工作充满激情,经常参加学术聚会、研讨会及其他学术活动,紧跟数据科学技术发展的前沿。
我要感谢我的家人、朋友和同事!同时,也非常感谢开源社区!
卢卡·马萨罗(Luca Massaron)数据科学家、市场营销研究主导者,是多变量统计分析、机器学习和客户洞察方面的专家。有十年以上解决实际问题的经验,使用推理、统计、数据挖掘和算法为利益相关者创造了巨大的价值。在意大利他是网络受众分析的先锋,并在Kaggler上获得排名前十的佳绩,随后一直热心参与各种与数据及数据分析相关的活动,积极给新手和专业人员讲解数据驱动知识发现的潜力。他崇尚大道至简,坚信理解数据科学的精要能给你带来巨大收获。
致Yukiko和Amelia,谢谢你们的爱和包容。“前路无止境,星云作伴长,双脚虽远行,终归还家乡。”
|
目錄:
|
目录
译者序
前言
作者简介
第1章 新手上路1
1.1 数据科学与Python简介1
1.2 Python的安装2
1.2.1 Python 2还是Python 33
1.2.2 分步安装3
1.2.3 工具包的安装4
1.2.4 工具包升级6
1.2.5 科学计算发行版6
1.2.6 虚拟环境8
1.2.7 核心工具包一瞥11
1.3 Jupyter简介17
1.3.1 快速安装与初次使用19
1.3.2 Jupyter魔术命令20
1.3.3 Jupyter Notebook怎样帮助数据科学家22
1.3.4 Jupyter的替代版本26
1.4 本书使用的数据集和代码27
1.5 小结33
第2章 数据改写34
2.1 数据科学过程34
2.2 使用pandas进行数据加载与预处理36
2.2.1 数据快捷加载36
2.2.2 处理问题数据38
2.2.3 处理大数据集41
2.2.4 访问其他的数据格式43
2.2.5 数据预处理44
2.2.6 数据选择47
2.3 使用分类数据和文本数据49
2.3.1 特殊的数据类型——文本51
2.3.2 使用Beautiful Soup抓取网页56
2.4 使用NumPy进行数据处理57
2.4.1 NmuPy中的N维数组57
2.4.2 NmuPy ndarray对象基础58
2.5 创建NumPy数组59
2.5.1 从列表到一维数组60
2.5.2 控制内存大小60
2.5.3 异构列表61
2.5.4 从列表到多维数组62
2.5.5 改变数组大小63
2.5.6 利用NumPy函数生成数组64
2.5.7 直接从文件中获得数组65
2.5.8 从pandas提取数据65
2.6 NumPy快速操作和计算66
2.6.1 矩阵运算68
2.6.2 NumPy数组切片和索引69
2.6.3 NumPy数组堆叠71
2.7 小结72
第3章 数据科学流程73
3.1 EDA简介73
3.2 创建新特征77
3.3 维数约简78
3.3.1 协方差矩阵79
3.3.2 主成分分析80
3.3.3 一种用于大数据的PCA变型——RandomizedPCA82
3.3.4 潜在因素分析83
3.3.5 线性判别分析84
3.3.6 潜在语义分析85
3.3.7 独立成分分析85
3.3.8 核主成分分析85
3.3.9 t-分布邻域嵌入算法87
3.3.10 受限玻尔兹曼机87
3.4 异常检测和处理89
3.4.1 单变量异常检测89
3.4.2 EllipticEnvelope90
3.4.3 OneClassSVM94
3.5 验证指标96
3.5.1 多标号分类97
3.5.2 二值分类99
3.5.3 回归100
3.6 测试和验证100
3.7 交叉验证103
3.7.1 使用交叉验证迭代器105
3.7.2 采样和自举方法107
3.8 超参数优化108
3.8.1 建立自定义评分函数110
3.8.2 减少网格搜索时间112
3.9 特征选择113
3.9.1 基于方差的特征选择113
3.9.2 单变量选择114
3.9.3 递归消除115
3.9.4 稳定性选择与基于L1的选择116
3.10 将所有操作包装成工作流程118
3.10.1 特征组合和转换链接118
3.10.2 构建自定义转换函数120
3.11 小结121
第4章 机器学习122
4.1 准备工具和数据集122
4.2 线性和logistic回归124
4.3 朴素贝叶斯126
4.4 K近邻127
4.5 非线性算法129
4.5.1 基于SVM的分类算法129
4.5.2 基于SVM的回归算法131
4.5.3 调整SVM(优化)132
4.6 组合策略133
4.6.1 基于随机样本的粘合策略134
4.6.2 基于弱分类器的bagging策略134
4.6.3 随机子空间和随机分片135
4.6.4 随机森林和Extra-Trees135
4.6.5 从组合估计概率137
4.6.6 模型序列——AdaBoost138
4.6.7 梯度树提升139
4.6.8 XGBoost140
4.7 处理大数据142
4.7.1 作为范例创建一些大数据集142
4.7.2 对容量的可扩展性143
4.7.3 保持速度144
4.7.4 处理多样性145
4.7.5 随机梯度下降概述147
4.8 深度学习148
4.9 自然语言处理一瞥153
4.9.1 词语分词153
4.9.2 词干提取154
4.9.3 词性标注154
4.9.4 命名实体识别155
4.9.5 停止词156
4.9.6 一个完整的数据科学例子——文本分类156
4.10 无监督学习概览158
4.11 小结165
第5章 社交网络分析166
5.1 图论简介166
5.2 图的算法171
5.3 图的加载、输出和采样177
5.4 小结179
第6章 可视化、发现和结果180
6.1 matplotlib基础介绍180
6.1.1 曲线绘图181
6.1.2 绘制分块图182
6.1.3 数据中的关系散点图183
6.1.4 直方图184
6.1.5 柱状图185
6.1.6 图像可视化186
6.1.7 pandas的几个图形示例188
6.1.8 散点图190
6.1.9 平行坐标192
6.2 封装matplotlib命令193
6.2.1 Seaborn简介194
6.2.2 增强EDA性能197
6.3 交互式可视化工具Bokeh201
6.4 高级数据学习表示203
6.4.1 学习曲线204
6.4.2 确认曲线205
6.4.3 随机森林的特征重要性206
6.4.4 GBT部分依赖关系图形207
6.4.5 创建MA-AAS预测服务器208
6.5 小结212
附录A 增强Python基础213
|
內容試閱:
|
前言“千里之行,始于足下。”
——老子(公元前604—531)数据科学属于一门相对较新的知识领域,它成功融合了线性代数、统计建模、可视化、计算语言学、图形分析、机器学习、商业智能、数据存储和检索等众多学科。
Python编程语言在过去十年已经征服了科学界,现在是数据科学实践者不可或缺的工具,也是每一个有抱负的数据科学家的必备工具。Python为数据分析、机器学习和算法求解提供了快速、可靠、跨平台、成熟的开发环境。无论之前在数据科学应用中阻止你掌握Python的原因是什么,我们将通过简单的分步化解和示例导向的方法帮你解决,帮助你在演示数据集和实际数据集上使用最直接有效的Python工具。
作为第2版,本书对第1版内容进行了更新和扩展。以最新的Jupyter Notebook(包括可互换内核,一个真正支持多种编程语言的数据科学系统)为基础,本书包含了NumPy、pandas和Scikit-learn等库的所有主要更新。此外,本书还提供了不少新内容,包括深度学习(基于Theano和Tensorflow的Keras)、漂亮的数据可视化(Seaborn和ggplot)和Web部署(使用bottle)等。本书首先使用单源方法,展示如何在最新版Python(3.5)中安装基本的数据科学工具箱,这意味着本书中的代码可以在Python 2.7上重用。接着,将引导你进入完整的数据改写和预处理阶段,主要阐述用于数据分析、探索或处理的数据加载、变换、修复等关键数据科学活动。最后,本书将完成数据科学精要的概述,介绍主要的机器学习算法、图分析技术和可视化方法,其中,可视化工具将更易于向数据科学专家或商业用户展示数据处理结果。
本书内容第1章介绍Jupyter Notebook,演示怎样使用程序手册中的数据。
第2章对数据科学流程进行概述,详细分析进行数据准备和处理所使用的关键工具,这些工具将在采用机器学习算法和建立假设实验计划之前使用。
第3章讨论所有可能有助于结果改进甚至提升的数据操作技术。
第4章深入研究Scikit-learn包中的主要机器学习算法,例如线性模型、支持向量机、树集成和无监督聚类技术等。
第5章介绍图的概念,它可以表示为偏离预测或目标的有趣矩阵。这是目前数据科学界的研究热点,期待利用图的技术来研究复杂的社交网络。
第6章介绍使用matplotlib进行可视化的基本方法,以及如何使用pandas进行探索性数据分析(EDA),如何使用Seaborn和Bokeh实现漂亮的可视化,还包括如何建立提供所需要信息的Web服务器。
附录包括一些Python示例和说明,重点介绍Python语言的主要特点,这些都是从事数据科学工作必须了解的。
阅读准备本书用到的Python及其他数据科学工具(从IPython到Scikit-learn)都能在网上免费下载。要运行本书附带的源代码,需要一台装有Windows、Linux或Mac OS等操作系统的计算机。本书将分步介绍Python解释器的安装过程,以及运行示例所需要的工具和数据。
读者对象如果你有志于成为数据科学家,并拥有一些数据分析和Python方面的基础知识,本书将助你在数据科学领域快速入门。对于有R语言或Matlab编程经验的数据分析人员,本书也可以作为一个全面的参考书,提高他们在数据操作和机器学习方面的技能。
代码下载你可以从http:www.packtpub.com通过个人账号下载你所购买书籍的样例源码。你也可以访问华章图书官网http:www.hzbook.com,通过注册并登录个人账号下载本书的源代码。
彩图下载我们还提供了一个PDF文件,其中包含本书中使用的截图和彩图,可以帮助读者更好地了解输出的变化。文件可以从以下地址下载:http:www.packtpub.comsitesdefaultfilesdownloadsPythonDataScienceEssentialsSecondEdition_colorImages.pdf。
|
|