新書推薦:
《
中国高等艺术院校精品教材大系:材料的时尚表达??服装创意设计
》
售價:HK$
78.2
《
美丽与哀愁:第一次世界大战个人史
》
售價:HK$
147.2
《
国家豁免法的域外借鉴与实践建议
》
售價:HK$
188.2
《
大单元教学设计20讲
》
售價:HK$
78.2
《
儿童自我关怀练习册:做自己最好的朋友
》
售價:HK$
71.3
《
高敏感女性的力量(意大利心理学家FSP博士重磅力作。高敏感是优势,更是力量)
》
售價:HK$
62.7
《
元好问与他的时代(中华学术译丛)
》
售價:HK$
87.4
《
汽车传感器结构·原理·检测·维修
》
售價:HK$
112.7
|
編輯推薦: |
本书从理论和实战两个角度对Python数据分析工具进行了介绍,并采用理论分析和Python实践相结合的形式,按照数据分析的基本步骤对数据分析的理论知识及相应的Python库进行了详细的介绍
|
內容簡介: |
使用Python进行数据分析是十分便利且高效的,因此它被认为是*秀的数据分析工具之一。本书从理论和实战两个角度对Python数据分析工具进行了介绍,并采用理论分析和Python实践相结合的形式,按照数据分析的基本步骤对数据分析的理论知识以及相应的Python库进行了详细的介绍,让读者在了解数据分析的基本理论知识的同时能够快速上手实现数据分析程序。
本书适用于对数据分析有浓厚兴趣但不知从何下手的初学者,在阅读数据分析的基础理论知识的同时可以通过Python实现简单的数据分析程序,从而快速对数据分析的理论和实现两个层次形成一定的认知。
|
目錄:
|
目录
第1章数据分析是什么
1.1海量数据背后蕴藏的知识
1.2数据分析与数据挖掘的关系
1.3机器学习与数据分析的关系
1.4数据分析的基本步骤
1.5Python和数据分析
第2章Python从了解Python开始
2.1Python的发展史
2.2Python及Pandas、scikitlearn、Matplotlib的安装
2.2.1Windows环境下Python的安装
2.2.2Mac环境下Python的安装
2.2.3Pandas、scikitlearn和Matplotlib的安装
2.2.4使用科学计算发行版Python进行快速安装
2.3Python基础知识
2.3.1缩进很重要
2.3.2模块化的系统
2.3.3注释
2.3.4语法
2.4重要的Python库
2.4.1Pandas
2.4.2scikitlearn
2.4.3Matplotlib
2.4.4其他
2.5Jupyter
第3章数据预处理不了解数据一切都是空谈
3.1了解数据
3.2数据质量
3.2.1完整性
3.2.2一致性
3.2.3准确性
3.2.4及时性
3.3数据清洗
3.4特征工程
3.4.1特征选择
3.4.2特征构建
3.4.3特征提取
第4章NumPy数据分析基础工具
4.1多维数组对象ndarray
4.1.1ndarray的创建
4.1.2ndarray的数据类型
4.2ndarray的索引、切片和迭代
4.3ndarray的shape的操作
4.4ndarray的基础操作
第5章Pandas处理结构化数据
5.1基本数据结构
5.1.1Series
5.1.2DataFrame
5.2基于Pandas的Index对象的访问操作
5.2.1Pandas的Index对象
5.2.2索引的不同访问方式
5.3数学统计和计算工具
5.3.1统计函数: 协方差、相关系数、排序
5.3.2窗口函数
5.4数学聚合和分组运算
5.4.1agg()函数的聚合操作
5.4.2transform()函数的转换操作
5.4.3使用apply函数实现一般的操作
第6章数据分析与知识发现一些常用的方法
6.1分类分析
6.1.1逻辑回归
6.1.2线性判别分析
6.1.3支持向量机
6.1.4决策树
6.1.5K近邻
6.1.6朴素贝叶斯
6.2关联分析
6.2.1基本概念
6.2.2典型算法
6.3聚类分析
6.3.1K均值算法
6.3.2DBSCAN
6.4回归分析
6.4.1线性回归分析
6.4.2支持向量回归
6.4.3K近邻回归
第7章scikitlearn实现数据的分析
7.1分类方法
7.1.1Logistic回归
7.1.2SVM
7.1.3Nearest neighbors
7.1.4Decision Tree
7.1.5随机梯度下降
7.1.6高斯过程分类
7.1.7神经网络分类(多层感知器)
7.1.8朴素贝叶斯示例
7.2回归方法
7.2.1最小二乘法
7.2.2岭回归
7.2.3Lasso
7.2.4贝叶斯岭回归
7.2.5决策树回归
7.2.6高斯过程回归
7.2.7最近邻回归
7.3聚类方法
7.3.1Kmeans
7.3.2Affinity propagation
7.3.3Meanshift
7.3.4Spectral clustering
7.3.5Hierarchical clustering
7.3.6DBSCAN
7.3.7Birch
第8章Matplotlib交互式图表绘制
8.1基本布局对象
8.2图表样式的修改以及装饰项接口
8.3基础图表的绘制
8.3.1直方图
8.3.2散点图
8.3.3饼图
8.3.4柱状图
8.3.5折线图
8.3.6表格
8.3.7不同坐标系下的图像
8.4matplot3D
8.5Matplotlib与Jupyter结合
第9章实例: 科比职业生涯进球分析
9.1预处理
9.2分析科比的命中率
9.3分析科比的投篮习惯
第10章实例: 世界杯
10.1数据说明
10.2世界杯观众
10.3世界杯冠军
10.4世界杯参赛队伍与比赛
10.5世界杯进球
参考文献
|
內容試閱:
|
前言
本书是面向初学者的数据分析入门指南。按照数据分析的数据预处理、分析与知识发现和可视化3个主要步骤,本书逐步对数据分析涉及的理论进行讲解,并对实现这些步骤所用到的Python库进行详细介绍。通过理论与实践穿插的讲解方式,本书使读者能够在了解数据分析基础知识的同时快速上手实现一些简单的分析。
全书分为10章,第1、3、6章介绍数据分析理论,按照数据分析的基本流程介绍了理论知识和一些常用方法,穿插在理论章节之间的Python实战章节可以让读者在了解理论之后用相应的Python库来进行实战操作。通过阅读第1~8章的内容,读者已经对数据分析的各主要流程形成了一定的认识,但这些知识可能还未形成一个完整的体系,因此本书在第9和第10章引入了两个完整的数据分析实例,帮助读者建立知识点之间的联系,形成对数据分析整个知识面的清晰认知。建议读者在阅读实战章节时跟随介绍自己动手尝试一下,这样一定会发现数据的魅力所在。
作为一本数据分析入门书籍,本书着重介绍基础知识,对前沿的内容涉及较少,这些内容留待读者在更进一步的学习中深入探索。对于Python语言的知识,本书仅对与数据分析相关的库进行了介绍,如果读者对Python语言本身有兴趣,可以参考Python语言工具书及官方文档等详细了解Python的语法和底层原理等。另外,本书所有数据分析程序的实现均在单机情况下进行,并没有对如何使用Python进行分布式数据分析作介绍,有兴趣的读者可以了解一下Python分布式数据分析的相关库,如pyspark等。
源码下载
本书主要由吕云翔、李伊琳、王肇一、张雅素编写,曾洪立、吕彼佳、姜彦华也参与了部分内容的编写并进行了素材整理及配套资源制作等。
由于作者的水平和能力有限,本书难免有疏漏之处,恳请各位同仁和广大读者给予批评指正,也希望各位能将实践过程中的经验和心得与我们交流。
作者2018年9月
|
|