新書推薦:

《
异化
》
售價:HK$
94.6

《
你的脆弱很正常
》
售價:HK$
60.0

《
鸟墙——康奈尔鸟类学实验室巨幅壁画诞生记
》
售價:HK$
195.8

《
政治人--政治的社会基础(东方编译所译丛)
》
售價:HK$
129.8

《
大国崛起战略论:地理与世界霸权+海权论+陆权论+空权论+战争论(全译足本无任何删节-同人阁)
》
售價:HK$
282.5

《
故宫藏影—西洋镜里的宫廷人物
》
售價:HK$
396.0

《
伊利亚特 : 希腊语、汉语对照
》
售價:HK$
206.8

《
世界军事战略经典:海权论+陆权论+空权论(全3册)
》
售價:HK$
173.8
|
| 內容簡介: |
|
《大数据分析基础》是编者根据多年的教学实践经验和教学改革成果,按照新工科的人才培养要求及《“十四五”普通高等教育本科***规划教材建设实施方案》的精神编写而成。 《大数据分析基础》的内容包括数据预处理、邻近度、可视化、线性回归、k近邻、朴素贝叶斯、决策树、支持向量机、Bagging方法、Boosting方法、常见的原型聚类、密度聚类、层次聚类算法以及模型预测能力和模型复杂度的指标。《大数据分析基础》每章配有习题,另有习题答案和模型训练的代码,已放置在《大数据分析基础》配套的码吉课在线学习平台。《大数据分析基础》对概念、模型的描述力求循序渐进、简明易懂,精选的例题和习题具有代表性。《大数据分析基础》的内容组织符合大数据处理的流程,体现了以数据为中心的思考方式。
|
| 目錄:
|
|
目录丛书序前言第1章 绪论 1.1 大数据分析的起源 21.2 大数据分析的任务 41.3 内容与符号 5习题1 7参考文献 7第2章 数据 2.1 数据概述 102.1.1 特征的类型 102.1.2 数据集的类型 112.2 数据预处理 142.2.1 数据合并 142.2.2 数据抽样 152.2.3 数据清洗 172.2.4 数据变换 182.2.5 维归约 192.3 汇总统计 202.3.1 中心趋势度量 202.3.2 离散趋势度量 232.3.3 多元汇总统计 232.4 相似性和相异性的度量 242.4.1 简单对象的邻近度 252.4.2 数据对象的邻近度 262.4.3 邻近度的应用 292.5 可视化 302.6 评价指标 33习题2 34参考文献 35第3章 线性回归 3.1 多元线性回归 383.1.1 多元线性回归模型 383.1.2 回归系数的估计 393.1.3 估计量的相关性质 403.1.4 显著性检验 423.2 正则化 433.3 岭回归和LASSO回归 443.3.1 岭回归 443.3.2 LASSO回归 453.3.3 岭回归和LASSO回归的直观解释 463.4 Logistic回归 473.4.1 Logistic分布 473.4.2 二项Logistic回归 473.4.3 多项Logistic回归 483.5 回归诊断 483.5.1 回归函数线性诊断 493.5.2 误差方差齐性检验 493.5.3 误差*立性检验 503.5.4 误差正态性检验 503.6 回归方法的应用 503.6.1 描述统计结果 513.6.2 *小二乘回归 513.6.3 岭回归算例 523.6.4 LASSO回归算例 533.6.5 Logistic回归算例 54习题3 55参考文献 55第4章 KNN与朴素贝叶斯法 4.1 分类问题概述 584.2 k近邻分类 584.2.1 k近邻算法的基本步骤 594.2.2 k近邻算法的数学模型 594.2.3 近邻算法的实现 614.3 朴素贝叶斯分类 644.3.1 记号、说明和假设 654.3.2 朴素贝叶斯分类的思想方法和模型 654.3.3 朴素贝叶斯分类算法 684.3.4 朴素贝叶斯分类算法修正 74习题4 75参考文献 75第5章 决策树模型与支持向量机 5.1 决策树模型 785.1.1 决策树的工作原理 785.1.2 决策树的特征选择 805.1.3 决策树的生成算法 835.1.4 决策树的剪枝 855.2 支持向量机 875.2.1 线性可分支持向量机 885.2.2 软间隔支持向量机 925.2.3 非线性支持向量机 955.2.4 SMO算法 97习题5 101参考文献 101第6章 聚类方法 6.1 聚类分析概述 1046.2 k-means聚类 1056.2.1 k-means的工作原理 1056.2.2 k值的优化方法 1056.3 层次聚类 1096.3.1 层次聚类的基本思想 1096.3.2 类间距离的度量 1096.3.3 层次聚类与k-means聚类的区别与联系 1126.4 密度聚类 1136.4.1 DBSCAN算法 1146.4.2 HDBSCAN算法 1156.5 聚类算法评价 118习题6 118参考文献 120第7章 集成学习 7.1 Bagging集成 1227.1.1 Bagging集成的基本原理 1227.1.2 Bagging集成的算法 1247.2 随机森林 1267.2.1 随机森林中特征属性的随机选择 1267.2.2 随机森林选择决策树为弱学习器的原因 1277.2.3 随机森林算法 1287.3 Boosting集成 1307.3.1 Boosting集成的基本原理 1307.3.2 Boosting集成的框架与算法 1327.4 AdaBoost集成 1357.4.1 AdaBoost中弱学习器的权重对于错误率的自适应性 1357.4.2 AdaBoost中数据对象的权重对于错误率的自适应性 1367.4.3 AdaBoost对弱学习器的集成 1377.4.4. AdaBoost算例 138习题7 141参考文献 142第8章 模型的评估与选择 8.1 模型的误差和复杂度 1448.1.1 模型的误差 1448.1.2 模型的复杂度 1448.1.3 降低复杂度 1458.2 回归模型的评估与选择 1488.2.1 AIC准则 1488.2.2 BIC准则 1548.2.3 HQC准则 1558.3 分类模型的评估与选择 1558.3.1 评估分类器性能的度量 1558.3.2 ROC*线 1588.3.3 AUC面积 159习题8 159参考文献 160
|
| 內容試閱:
|
|
第1章绪论 随着社会信息化和数据存储技术的快速发展,数据挖掘和统计在商业、医疗、科学、工程等方面的应用越来越广泛.大数据分析就是利用数据挖掘和统计等方法,从规模巨大、类型复杂、结构化和非结构化的各类数据中找到重要的规律或知识. 1.1大数据分析的起源 大数据是近年来互联网、通信网络、社交网络、物联网络快速发展的结果.对于大数据,研究机构Gartner(高德纳咨询公司)给出这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力以适应海量、高增长率和多样化特征的信息资产[1].美国国家标准与技术研究院解释大数据是规模庞大、种类繁多、增长速度快和变化多样的数据.IBM(International Business Machines Corporation,国际商业机器公司)给出了类似的解释,但变化的多样性变成了真实性,提高了数据的价值.麦肯锡全球研究院定义大数据是一种规模大到在获取、存储、管理、分析方面大大超出传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和低价值密度四大特征.这也是目前比较被认可的定义. 大数据分析的目的是从数据中获得有价值的信息,但是并非所有的信息发现任务都被视为大数据分析.比如利用数据库查询满足筛选条件的记录、通过互联网搜索指定关键词的页面等,这些是信息检索的任务.虽然这些任务也涉及算法,数据的存储、处理,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地检索信息.大数据分析获取信息主要依赖数据挖掘技术的支持.数据挖掘是一门交叉学科,与数据仓库、知识发现、统计学、模式识别、机器学习等紧密相连.它们的关系如图1.1所示.大数据分析与数据挖掘的关系体现在:一方面,大数据包括数据挖掘的各个阶段,即数据收集、预处理、特征选择、模式挖掘、模式表示等;另一方面,大数据的快速发展也使得数据挖掘的对象变得更加复杂,不仅包括人类社会与现实世界的复杂关系,也包括其所呈现出的高度动态变化.这使得传统的数据挖掘算法不再适用,大数据分析的算法必须满足处理真实、海量、实时数据的需求,才能从大量无序数据中获取真正的价值. 图1.1相关概念的交叉关系 数据仓库是比尔?恩门(Bill Inmon)于1991年提出的,是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策[1].数据仓库的研究目标是利用各种数据分析方法,如联机分析处理和数据挖掘,以帮助企业决策,它偏重数据的汇总、整理、分析等.这类传统的数据分析(如查询、报表、联机应用分析)主要是对数据进行检索和简单的查询,不同于大数据分析挖掘信息、发现模型的过程. Gregory Piatetsky-Shapiro等于1989年8月在国际人工智能联合会议(IJCAI)上,*次提出了知识发现这一概念.经过多年的发展,1995年,**届知识发现和数据挖掘国际学术会议在加拿大蒙特利尔正式召开.同年的美国计算机学会(ACM)年会上,数据挖掘被视为知识发现(knowledge discovery in databases,KDD)的一个基本步骤.知识发现是将低层数据转换为高层知识,确定数据中有效的、潜在有用的、基本可理解的模式的特定过程.它的输入是数据集,输出是学习到的规则.数据挖掘与知识发现的区别在于前者的输出是模型.知识发现的步骤如图1.2所示[1].数据的清洗与集成形成了消除噪声、去除重复的数据集.数据仓库存储了各种类型的数据,往往达到了TB以上的规模.数据挖掘算法在数据选择与转换后的特征子集上挖掘有效的信息.*后,利用评估指标和可视化工具评估模型的预测性能. 图1.2知识发现的步骤 统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质.统计学偏重理论模型的建立和研究.而统计学习(又称为统计机器学习)是基于数据构建统计模型,对数据进行预测和分析.一般地,统计学习模型分为概率模型和非概率模型(确定性模型).概率模型包括决策树、朴素贝叶斯(Bayes)模型、马尔可夫(Markov)模型、条件随机场模型等.非概率模型包括感知机模型、支持向量机模型、k近邻模型等. 模式识别是对表征事物或现象的各种形式的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分.模式识别偏重识别,即对给定事物,判断它是什么,属于哪一类事物.一个计算机模式识别系统基本上由三部分组成,即数据采集、数据处理和分类决策或模型匹配.为了提高识别结果的可靠性往往需要加入知识库对可能产生的错误进行修正,或通过引入限制条件大大缩小待识别模式在模型库中的搜索空间,以减少匹配计算量. 与数据挖掘和大数据分析紧密联系的概念是机器学习.被誉为“全球机器学习之父”的Tom Mitchell(汤姆?米切尔)将机器学习定义为:对于某类任务T和性能度量P,如果计算机程序在T上以P衡量的性能随着经验E而自我完成,那么称这个计算机程序从经验E学习.随着机器学习的发展和应用场景的不断扩展,机器学习包含的内涵不断地向外延发展.目前,普遍认为机器学习算法的目标是找出数据里隐藏的模式,进而做出预测.它是人工智能的一个重要子领域.模式识别、机器学习和数据挖掘三者的关系是什么呢?如图1.1所示,三者有交叉有区别.传统的模式识别方法一般分为两种:统计方法和句法方法.句法分析一般是不可学习的,而统计分析则发展了不少机器学习的方法.这些机器学习方法同样给模式识别提供了数据分析技术.数据挖掘重在发现信息,模式识别重在认识事物,机器学习偏重数据分析算法的设计,以达到机器自动完成数据学习的目标.对于大数据分析而言,数据库或文件提供数据的存储,数据挖掘、机器学习和统计学提供数据分析技术. 大数据分析技术是人们长期对数据库、数据挖掘、机器学习等技术进行研究和开发的结果.它的平台构建也是一项十分复杂的系统工程.图1.3是大数据处理平台的构建层次[1].本书将围绕数据处理层,介绍从数据处理到模型建立与评估的方法. 图1.3大数据处理平台的框架 1.2大数据分析的任务 大数据分析是从繁杂、无序、异构的数据中训练出具有高预测性能的模型.根据应用需求和数据类型,大数据分析的常见任务包括关联分析、分类、聚类、异常检测和回归. 关联分析*初提出的动机是针对购物篮分析问题,了解顾客购物的习惯,帮助零售商了解哪些商品被顾客频繁地购买,从而制定更好的营销策略.1993年,Agrawal等[2]提出了“关联规则”的概念,并提出了Apriori挖掘算法.随着技术的发展,关联分析的内涵扩展到发现隐藏在大型数据集中的有意义的联系,包括简单关联、时序关联和因果关联.分析结果的呈现可以使用关联规则、关联网络等.使用关联规则时会遇到两个问题:一是从大数据集中发现规则的效率很低,二是发现的某些关联可能毫无意义.因此,一般用支持度和可信度删去那些毫无意义、置信度低的关联规则. 分类是训练可以区分数据类别的模型.*先,利用已知类别的数据集,获得类别的描述,如基于决策树的规则描述,它代表了这类数据的整体判别信息.用这些描述构造的模型就是分类模型.然后,利用分类模型对新的未知的数据进行分类.例如,电子邮件程序根据文本信息将电子邮件分为“常规邮件”或“垃圾邮件”;银行申贷程序依据申请者的个人信息,筛选符合贷款条件的借贷人.分类问题中有一类特殊的有序分析问题,该类数据对象具有时间或空间等序列数据,需要模型可以预测其行为随着时间变化的规则或趋势. 聚类是在未知数据的结构下,发现数据的类别与结构.聚类算法基于最大化类内相似性和最大化类间相异性的原则对数据对象进行聚类或分组,*后形成簇.也就是说,簇内的对象彼此之间具有较高的相似性,但是与其他簇中的对象非常不相似.聚类应用于类别未知的场景,根据簇内数据的特点归纳出数据的类别. 数据集中可能存在不符合数据一般特性的数据对象,这些数据对象被认为是异常值.大多数数据分析的方法将异常值视为噪声,但是,在欺诈检测、入侵检测、故障检测等应用中,罕见事件可能比常见事件更有价值.异常检测是对包含异常值的数据进行分析,以获得有价值的数据规律. 与分类和聚类不同,回归问题的目标变量是连续型变量.它研究的是特征和预测值之间的关系,如租金预测、商品定价等问题.回归分析也可以用于衡量不同变量之间的相互影响,如价格变动与促销活动数量之间的关系. 随着更多类型数据的产生和存储技术的发展,大数据分析的内涵在不断外延.相关的研究需要结合实际问题,注重与机器学习、统计学、人工智能等的交叉,挖掘出有意义的知识或模型. 1.3内容与符号 本书主要从统计学和算法角度介绍大数据分析使用的技术.面向的主要读者是统计、人工智能等专业的本科生和研究生,希望能够拓展到其他领域有数据分析需求的学生和从业人员.本书沿建模的三个阶段—数据预处理、模型建立、模型评估组织全书内容,以数据的基本统计分析方法、回归方法、分类模型、聚类模型、常见的集成学习和模型评估为学习路线,由浅入深地介绍数据驱动的机器学习和数据分析技术.每个章节以解决实际问题为目标,从数据特征分析入手,讨论模型的理论性质以及模型的应用问题. 第2章主要介绍数据的基本类型、数据质量、预处理技术和汇总统计等.这些技术有助于快速理解数据集、认识数据、了解数据处理的重要性和掌握数据预处理的方法. 第3~7章介绍在大数据分析中广泛应用的机器学习模型.其中,第3章线性回归方法先介绍基础的线性回归模型,然后扩展到岭回归、LASSO回归和Logistic回归,*后介绍回归诊断和应用.第4章介绍常用的、较为简单的k近邻分类和朴素贝叶斯分类方法.第5章介绍决策树模型和支持向量机,这两类模型是目前在很多领域被广泛应用的分类方法.第6章介绍无监督学习的方法—聚类.主要涉及聚类方法概述、基础的k-means聚类、层次聚类和密度聚类等模型.第7章介绍Bagging和Boosting两种重要的集成学习方式,以及代表性的学习模型:随机森林和AdaBoost算法. 第8章介绍建立模型的两个要素,解释回归模型和分类模型的评价指标和优缺点,希望在模型选择问题上提供一些思路和帮助. 本书没有包含图模型、神经网络、关联规则等常用的统计学习方法,有兴趣的读者请参阅其他文献.表1.1和表1.2列出了本书使用的数学符号.
|
|