新書推薦:
《
述异记汇笺及情节单元分类研究(上下册)
》
售價:HK$
104.5
《
环境、社会、治理(ESG)信息披露操作手册
》
售價:HK$
261.8
《
桑德拉销售原则 伍杰 [美]大卫·马特森
》
售價:HK$
96.8
《
理论的意义
》
售價:HK$
74.8
《
悬壶杂记:医林旧事
》
售價:HK$
52.8
《
谁之罪?(汉译世界文学5)
》
售價:HK$
52.8
《
民国词社沤社研究
》
售價:HK$
140.8
《
帕纳索传来的消息(文艺复兴译丛)
》
售價:HK$
108.9
|
編輯推薦: |
配套资源:源代码、教学课件、语料集、教学大纲、课后习题答案、程序安装包
获奖情况: 以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且掌握数据分析的各类工具和库,了解传统机器学习的基本流程。 采用基于Python语言相关的分析库,便于学生更快地掌握数据分析和机器学习的基本思想,快速入门。 基于Sklearn介绍了数据挖掘的相关算法。
|
內容簡介: |
本书包括两部分内容,第壹部分重点介绍了与Python语言相关的数据分析
工具,包括NumPy、Matplotlib、Pandas、Scipy、Seaborn和Sklearn。第二部分介绍数据处理、特征工程、评价指标、线性模型、支持向量机、K近邻算法、朴素贝叶斯、决策树、K-Means算法和文本分析实例。附录提供了课程教学大纲和
部分课后习题答案。
本书内容精练、文字简洁、结构合理、实训题目经典实用、综合性强、定位明确,面向初、中级读者,由“入门”起步,侧重“提高”。特别适合作为高等院校相关专业数据分析与机器学习课程的入门教材或教学参考书,也可以供从事计算机应用开发的各类技术人员参考。
|
目錄:
|
前言
第1章Python与数据分析
11概述
111引例
112数据分析与数据挖掘
12Python简介
121Python特点
122Python应用场合
13数据分析流程
131明确目标
132获取数据
133清洗数据
134特征工程
135构建模型
136模型评估
14数据分析库
141NumPy
142Matplotlib
143Pandas
144Seaborn
145Scipy
146Sklearn
15Python解释器
151Ubuntu下安装Python
152Windows下安装Python
16Python编辑器
161IDLE
162VScode
163PyCharm
164Anaconda
165Jupyter
17习题
第2章NumPy——数据分析基础
工具
21安装NumPy
22ndarray对象
221认识ndarray对象
222ndarray对象属性
23创建ndarray对象
231zeros
232ones
233diag
234arange
235linspace
236logspace
24数组变换
241维度变换
242数组拼接
243数组分割
244数组复制
25索引和切片
26线性代数
261矩阵运算
262矩阵转置
263特征根和特征向量
27统计量
271平均值
272值
273中位数
274极差
275方差
276协方差
277皮尔森相关系数
28习题
第3章Matplotlib——数据可视化
工具
31安装Matplotlib
32绘图步骤
321创建画布
322绘图函数
323绘图属性
33子图基本操作
331pltsubplot
332figureadd_subplot
333pltsubplots
34绘图
341折线图
342气泡图
343饼图
344直方图
345条形图
35概率分布
351泊松分布
352正态分布
353均匀分布
354二项分布
36习题
第4章Pandas——数据处理工具
41认识Pandas
42Series
421创建Series
422 Series属性
423访问Series数据
43操作Series
431更新Series
432插入Series
433删除Series
44DataFrame
441创建DataFrame
442DataFrame属性
443选取行列数据
45操作DataFrame
451更新DataFrame
452插入DataFrame
453删除DataFrame
46Index
461创建Index
462常用属性
463常用方法
464重建Index
47可视化
471线形图
472条形图
473饼状图
474直方图与密度图
48数据转换
481数据值替换
482数据映射
483数据值合并
484数据值补充
485数据离散化
49数据分组与聚合
491数据分组
492数据聚合
410读取外部数据
4101操作Excel
4102操作文本文件
4103操作数据库
411习题
第5章Scipy——数据统计工具
51认识Scipy
52稀疏矩阵
53线性代数
531矩阵运算
532线性方程组求解
54数据优化
541非线性方程组求解
542函数值
543小二乘法
55数据分布
551泊松分布
552正态分布
553均匀分布
554二项分布
555指数分布
56统计量
561众数
562皮尔森相关系数
57图像处理
571旋转图像
572图像滤波
573边缘检测
58习题
第6章Seaborn——数据可视化
工具
61认识Seaborn
611绘图特色
612图表分类
613数据集
62绘图设置
621绘图元素
622主题
623调色板
63绘图
631直方图
632核密度图
633小提琴图
634分类散点图
635条形图
636热力图
637点图
64习题
第7章Sklearn——机器学习工具
71Sklearn简介
72安装Sklearn
73数据集
731小数据集
732大数据集
733生成数据集
74机器学习流程
741数据清洗
742划分数据集
743特征工程
744机器算法
745模型评估
75习题
第8章数据处理
81认识数据处理
82数据清洗
821处理缺失值
822处理异常值
823处理重复值
83特征处理
831规范化
832标准化
833鲁棒化
84数据分析可视库
841missingno库
842词云
85案例——学生信息清洗
86习题
第9章特征工程
91认识特征工程
92独热编码
93特征提取
931DictVectorizer
932CountVectorizer
933TfidfVectorizer
94中文分词
941Jieba分词库
942停用词表
95案例——中文特征提取
96习题
第10章评价指标
|
內容試閱:
|
本书试图从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且掌握数据分析的各类工具和库,了解传统机器学习的基本流程。
本书包括两部分内容,部分重点介绍了与Python语言相关的数据分析工具,包括NumPy、Matplotlib、Pandas、Scipy、Seaborn和 Sklearn。第二部分介绍了与Python语言相关的机器学习内容,包括数据处理、特征工程、评价指标、线性模型、支持向量机、K近邻算法、朴素贝叶斯、决策树、K-Means算法和文本分析实例。附录给出课程教学大纲和部分课后习题答案。
本书具有如下特点:
1)众多数据分析教材“重理论轻代码”,往往只是给出伪代码,而本书采用基于Python语言相关的分析库,如NumPy、Pandas和Matplotlib等,便于学生更快地掌握数据分析和机器学习的基本思想,快速入门。
2)本书基于Sklearn介绍了数据挖掘的相关算法,如K近邻算法、线性模型、支持向量机、朴素贝叶斯、决策树等分类算法和K-Means 等聚类算法。
3)实践是学习算法编程的好方法,本书的所有程序都在 Anaconda上进行调试和运行。
4)本书配有源代码、教学课件、语料集、教学大纲、课后习题答案、程序安装包等资料。
本书在编写过程中,陕西省网络数据分析与智能处理重点实验室李晓戈,西安邮电大学贾阳、孔韦韦、张庆生、高巍然等阅读了部分手稿,机械工业出版社郝建伟编辑提出了很多宝贵的意见。本书在写作过程中参阅了大量中英文的专著、教材、论文、报告及网上的资料,由于篇幅所限,未能一一列出。在此,一并表示敬意和衷心的感谢。
本书内容精练、文字简洁、结构合理、实训题目经典实用、综合性强、定位明确,面向初、中级读者,由“入门”起步,侧重“提高”。特别适合作为高等院校相关专业数据分析与机器学习课程的入门教材或教学参考书,也可以供从事计算机应用开发的各类技术人员参考。
由于编者水平有限,时间紧迫,本书难免有疏漏之处,恳请广大读者批评指正。
|
|