新書推薦:

《
了不起的创作者:保持创造力的10堂启发课
》
售價:HK$
64.9

《
爱得太多的父母:14组家庭,20年追踪的家庭教育调查实录
》
售價:HK$
65.8

《
人偶游戏(东野圭吾竟然写过这种惊悚悬疑之作)
》
售價:HK$
65.8

《
自然、权利与正义(重思古典自然法 探索人类生活的永恒根基)
》
售價:HK$
74.8

《
汗青堂丛书155·糖与现代世界的塑造:种植园、奴隶制与全球化
》
售價:HK$
118.8

《
企业家业保障与传承
》
售價:HK$
187.6

《
世界武器装备知识图解
》
售價:HK$
174.6

《
南方丝绸之路与欧亚古代文明
》
售價:HK$
233.6
|
編輯推薦: |
1.系统全面,涵盖大数据分析的全流程及关键技术。2.注重实践,结合Python工具进行介绍,配备丰富的实践案例。3.配套资源丰富,配有电子课件、习题答案、教学大纲、教学日历、源代码、实验数据。
|
內容簡介: |
《大数据分析方法及应用——基于Python实现》全面且系统地阐述了基于Python语言的大数据分析方法及技术,整体结构紧凑,逻辑清晰。全书共10章,前5章旨在为读者打下坚实的理论与实践基础。该部分始于大数据的基本概念,随后逐步深入Python基础知识、数据预处理技术、大数据可视化手段及基于Python的数据处理与预处理技术,确保读者能够全面掌握数据分析所需的基本工具与方法。后5章则深入探索大数据分析的核心技术领域,涵盖关联分析、回归分析、分类分析、聚类分析及离群点分析等关键内容。全书每一章均配有精心设计的典型案例与Python代码实例,通过实战演练的形式,直观展现大数据分析原理在实际中的具体运用,读者在巩固理论知识的同时,能够亲身体验实际操作过程,进而深化对大数据分析流程的理解与认识。《大数据分析方法及应用——基于Python实现》在内容的专业性与阅读体验之间取得了良好的平衡,既可作为高校大数据技术课程的教材,也适合大数据技术爱好者进行自学。无论读者是初学者,还是已具备一定基础的从业者,本书均能提供宝贵的启示与实用的知识,助力读者在大数据分析的道路上不断前行。
|
關於作者: |
殷丽凤,博士,副教授,硕士生导师,研究方向为大数据分析、机器学习以及深度学习等领域的算法及应用研究。毕业于哈尔滨理工大学计算机应用技术专业并获得博士学位。近十多年来,一直致力于计算机应用技术领域的研究与教学。她的兴趣涵盖了软件工程、机器学习、人工智能等方向。在多所高校担任Python编程语言讲授工作,并带领学生完成了Python编程语言的课程设计工作。在教学中注重理论与实践相结合,以生动的案例和实际应用来帮助学生更好地理解和掌握Python编程。她的专业知识和实践经验能够将实际应用场景与Python编程相结合,为学生提供更加实用和有深度的学习体验。
|
目錄:
|
前言第1章大数据分析概述11大数据介绍111大数据概念112大数据的5个“V”113大数据的处理方法12大数据关键技术121数据采集122数据预处理123数据存储与管理124数据分析与挖掘125数据展现与可视化13大数据分析在不同领域的应用131商业与市场营销132医疗与健康133金融与保险134社交网络与媒体14Python介绍141安装Python解释器142安装PyCharm143安装 Anaconda15本章小结16习题第2章Python大数据分析基础21Python基础语法211关键字和标识符212常量与变量213基本数据类型214运算符和表达式22程序控制结构221顺序结构222分支结构223循环结构224跳转语句23组合数据类型231列表232元组233字典234集合24函数241函数的定义242函数的参数243函数的作用域244递归函数25面向对象程序设计251Python中的面向对象252成员可见性253方法254类的继承26Python数据分析工具27本章小结28习题第3章大数据预处理31大数据预处理流程32数据清洗321缺失值处理322噪声过滤33数据集成331实体识别332冗余属性识别34数据规约341属性规约342数值规约35数据变换351数据规范化352连续属性离散化36本章小结37习题第4章大数据可视化分析41大数据可视化基础411可视化的重要性412可视化设计原则42Matplotlib基础——NumPy421创建数组422数组的常见属性423数组的常见操作424数组的统计分析43Matplotlib431pyplot绘图基础432绘制散点图433绘制折线图434绘制柱状图435绘制直方图436绘制饼图437绘制箱线图44实践——中国GDP分析441数据准备442散点图分析443折线图分析444柱状图分析445饼图分析446箱线图分析45本章小结46习题第5章pandas数据处理与分析51认识pandas511pandas简介512pandas的安装与使用52pandas语法521Series类型522DataFrame类型523DataFrame数据计算53pandas读写数据531pandas读数据532pandas写数据54使用pandas进行数据预处理541合并数据542缺失值处理543排序和汇总55统计分析551分组聚合运算552创建透视表与交叉表56本章小结57习题第6章关联分析61关联分析基础611啤酒与尿布的故事612关联分析的定义613常用关联分析算法62Apriori算法621相关概念622挖掘频繁项集623挖掘关联规则624Apriori算法的缺点63FP-growth算法631创建FP树632利用FP树挖掘频繁项集633FP-growth算法的伪代码64ECLAT算法641使用垂直数据格式挖掘频繁项集642ECLAT算法的伪代码65关联规则评估指标66实践——商品零售购物篮分析661背景与挖掘目标662数据初步探析663构建关联分析模型664评估关联分析模型67本章小结68习题第7章回归分析71回归分析的基础711回归分析的概念712回归分析的步骤72一元线性回归721一元线性回归模型722参数w和b的推导过程723参数w和b求解的代码实现73多元线性回归731多元线性回归模型和参数求解732参数W求解的代码实现74正则化回归741岭回归模型742最小绝对收缩与选择算子743弹性网络75回归模型的评价指标76实践——回归分析761数据的初步探析762利用一元线性回归预测房屋完成单位数量模型763利用多元线性回归预测房屋完成单位数量模型764利用正则化回归预测房屋完成单位数量模型77本章小结78习题第8章分类分析81分类分析的基础811二元分类和多元分类812分类的步骤82决策树821决策树归纳822属性选择度量823实例分析824树剪枝处理83贝叶斯分类831相关概念832朴素贝叶斯分类器833朴素贝叶斯实例分析834拉普拉斯修正835朴素贝叶斯算法伪代码84支持向量机841数据线性可分情况842最大边缘超平面843硬间隔支持向量机844软间隔支持向量机845核支持向量机85分类的评价指标851二元分类的评价指标852多元分类的评价指标86实践——分类分析861利用决策树构建银行客户流失模型862利用朴素贝叶斯构建垃圾邮件分类模型863利用SVM构建印第安人糖尿病分类模型87本章小结88习题第9章聚类分析91聚类分析基础911聚类分析的概念912相似性度量913聚类的评价指标92基于划分的聚类分析921K-Means聚类922K-Means 聚类93基于层次的聚类分析931自底向上聚类算法932自顶向下聚类算法94基于密度的聚类分析941DBSCAN算法942OPTICS算法95实践——聚类分析951基于划分聚类实现能源效率信息聚类952基于层次聚类完成用户行为数据聚类953利用DBSCAN进行人口信息聚类96本章小结97习题第10章离群点分析101离群点分析基础1011离群点分析的定义1012离群点分析的作用102基于统计的离群点分析1021均值与标准差方法1022箱线图方法103基于距离的离群点分析1031欧氏距离1032曼哈顿距离104基于密度的离群点分析1041局部离群因子(LOF)方法1042基于密度的空间聚类(DBSCAN)方法105实践——异常小麦种子分析1051数据读入1052数据初步分析1053数据预处理1054构建离群点模型1055评估离群点模型1056离群点分析的意义106本章小结107习题参考文献
|
內容試閱:
|
前言在当今的数字化时代背景下,大数据的广泛应用正以前所未有的深度与广度重塑着各行各业的决策机制与运营模式。企业、政府及研究机构正积极利用数据分析技术,深入挖掘数据潜藏的价值,以应对日益复杂多变的市场环境与社会挑战。因此,大数据分析方法已成为数据科学家不可或缺的基础技能,同时也是各领域专业人士提升竞争力的关键要素。《大数据分析方法及应用——基于Python实现》作为一本全面而系统的大数据分析知识指南,旨在为读者搭建起一座通往数据驱动时代的桥梁,助力其精准把握时代脉搏,抓住发展机遇。《大数据分析方法及应用——基于Python实现》的核心价值在于其理论与实践并重的教学体系,以Python语言为技术基石,通过深入浅出的方式,系统阐述了大数据分析的基本概念、方法论及关键技术。书中不仅涵盖了大数据分析的基础理论知识,还通过丰富的实战案例与代码示例,引导读者快速掌握大数据分析的实战技能。同时,《大数据分析方法及应用——基于Python实现》注重提升阅读体验,采用条理清晰、语言平实的表达方式,确保不同背景、不同水平的读者均能轻松上手,实现从理论到实践的跨越。《大数据分析方法及应用——基于Python实现》结构严谨,共分为10章。第1章从宏观视角出发,概述了大数据的基本概念、特征及其在各领域的广泛应用;第2、3章则聚焦于Python语言的基础语法与大数据预处理技术,为读者打下坚实的编程与数据处理基础;第4、5章深入探讨了大数据可视化的基本原理与pandas库在数据处理中的应用;第6~10章则是对大数据分析核心技术的全面剖析,包括关联分析、回归分析、分类分析、聚类分析及离群点分析等内容,每章均辅以典型案例,帮助读者将理论知识转化为实战能力。为便于教学与自学,《大数据分析方法及应用——基于Python实现》还配套提供了详尽的数据集、源代码、电子课件及课后习题参考答案,旨在构建全方位的学习支持体系。本书由大连交通大学的殷丽凤、王斐、任洪海、孙晶华,大连科技学院的徐蕗,以及大连交通大学软件学院的研究生王闯、李金霖、李成龙共同编写,具体分工如下:殷丽凤编写第6~7章、81~85节;王斐编写第2、3章;任洪海编写第4章;孙晶华编写第1章、51~52节、91~94节;徐蕗编写53~57节和101~104节;王闯编写86~88节;李金霖编写95~97节;李成龙编写105~107节。在此,对所有参与本书编写与提供支持的同仁表示衷心的感谢,并对在编写过程中参考的国内外著作、学术论文及网络资源提供者致以崇高的敬意。由于参考文献数量庞大,在整理和列出时难免有所遗漏,特此向未能列出姓名的作者致以诚挚的歉意。由于编者水平和编写时间有限,书中难免存在不足之处,我们恳请广大读者不吝赐教,提出宝贵的意见与建议。您的每一条反馈都是我们不断进步的阶梯,也是我们持续优化与完善本书内容的重要动力。我们坚信,在您的支持与帮助下,《大数据分析方法及应用——基于Python实现》将能够成为您探索大数据分析领域的得力助手,助您在数据驱动的时代浪潮中乘风破浪,成就非凡。编者
|
|