新書推薦:
《
被争夺的身体:魏玛德国的生育制度
》
售價:HK$
96.8
《
热烈的孤独大宋词人的明月与江湖 大宋顶流小传两宋词人柳永苏轼等两宋王朝史
》
售價:HK$
76.8
《
抗衰营养全书
》
售價:HK$
85.8
《
罗马史 随书附赠专有名词对照册 诺贝尔文学奖获奖巨著
》
售價:HK$
437.8
《
索恩丛书·伊斯兰帝国:十五座城市定义一种文明
》
售價:HK$
141.9
《
现代日本简史 近现代日本发展之路的通俗历史读本 解析日本百年来的兴盛与阵痛
》
售價:HK$
96.8
《
墨菲定律受益一生的黄金法则和人生定律心理学基础入门
》
售價:HK$
53.9
《
企业国家:一部日本经济史
》
售價:HK$
140.8
編輯推薦:
本书是数据挖掘领域的经典作品,首次出版至今已20余年,成为数据挖掘学习者的教材。作为领域的奠基之作,本书创建了数据挖掘的技术分类学框架、从基础理论到应用案例的完整知识体系,同时,跟随时代和技术的发展,不断完善和更新。既适合作为计算机科学、数据科学、人工智能等相关专业学生的课程教材,也适合作为相关领域研究人员及从业者的专业参考书。 本书特色 ?聚焦核心内容。本书围绕数据挖掘的概念、原理和方法组织内容,让读者学会如何从各种类型的数据中挖掘模式、知识和模型,以应用于各种场景。重点关注针对大型数据集的数据挖掘技术的可行性、实用性、有效性和可扩展性。 ?瞄准学术和产业前沿,重构数据挖掘知识体系。不仅引入深度学习等概念,而且梳理了数据挖掘的最新发展趋势和研究前沿。 ?新版大幅修订,对技术内容进行大量改进和重组。更加关注数据本身,引入新的数据领域概念和关键数据挖掘方法以及其他更新的主题。 ?配套资源丰富,每章配有PPT及练习,方便教学及自学。引领数据挖掘领域的人才培养。
內容簡介:
本书是介绍数据挖掘的经典书籍之一,将挖掘理论系统化整理,搭建起理论框架,涵盖了该领域的核心内容,有足够的广度和深度。本书首先介绍了数据挖掘的概念,阐述了数据预处理、数据表征以及数据仓储的方法。然后,将数据挖掘方法分为几个主要任务,介绍了挖掘频繁模式、关联和大数据集的相关性的概念和方法,数据分类和模型构建,聚类分析,离群点检测。接着系统地介绍了深度学习的概念和方法。最后,本书涵盖了数据挖掘的趋势、应用和研究前沿。本书适合作为计算机科学、统计学、商业和数据科学等专业学生的数据挖掘教材,也适合作为应用开发者、商业专业人士和研究数据挖掘概念和原理的研究者的参考书。
關於作者:
韩家炜(Jiawei Han)是伊利诺伊大学厄巴纳–香槟分校计算机科学系Michael Aiken讲席教授。他因在知识发现和数据挖掘研究方面的贡献获得了无数奖项,包括ACM SIGKDD创新奖(2004年)、IEEE计算机学会技术成就奖(2005年)和IEEE W. Wallace McDowell奖(2009年)。他是ACM会士和IEEE会士,曾担任ACM Transactions on Knowledge Discovery from Data(2006—2011)创始主编,并担任多种期刊的编委会成员,包括IEEE Transactions on Knowledge and Data Engineering和Data Mining and Knowledge Discovery。裴健(Jian Pei)现任杜克大学计算机科学、生物统计与生物信息学、电气学与计算机工程教授。2002年,他在Jiawei Han博士的指导下,于西蒙弗雷泽大学获得了计算机科学博士学位。他在很多顶级学术论坛发表了大量关于数据挖掘、数据库、网络搜索和信息检索的文章,并积极为学术界服务。他是加拿大皇家学会会员、加拿大工程院院士、ACM和IEEE的会士。荣获2017年ACM SIGKDD创新奖以及2015年ACM SIGKDD服务奖。童行行现为伊利诺伊大学厄巴纳–香槟分校计算机科学系副教授。他于2009年在卡内基梅隆大学获得博士学位。他发表了200多篇文章。他的研究获得了多个权威机构的奖项和数千次引用。他是SIGKDD Explorations(ACM)的主编和多家期刊的副主编。
目錄 :
目 录Data Mining Concepts and Techniques, Fourth Edition译者序推荐序第2版序前言致谢作者简介第1章 绪论 11.1 什么是数据挖掘 11.2 数据挖掘:知识发现中不可或缺的一步 21.3 数据挖掘的数据类型多样性 31.4 挖掘各种各样的知识 41.4.1 多维数据汇总 41.4.2 挖掘频繁模式、关联和相关性 51.4.3 用于预测分析的分类和回归 51.4.4 聚类分析 71.4.5 深度学习 71.4.6 离群点分析 71.4.7 数据挖掘的所有结果都有趣吗 81.5 数据挖掘:多学科的交汇 91.5.1 统计学与数据挖掘 91.5.2 机器学习与数据挖掘 101.5.3 数据库技术与数据挖掘 111.5.4 数据挖掘与数据科学 111.5.5 数据挖掘与其他学科 121.6 数据挖掘与应用 121.7 数据挖掘与社会 141.8 总结 141.9 练习 151.10 文献注释 15第2章 数据、度量与数据预处理 172.1 数据类型 182.1.1 标称属性 182.1.2 二元属性 182.1.3 序数属性 192.1.4 数值属性 192.1.5 离散属性与连续属性 202.2 数据的基本统计描述 202.2.1 中心趋势度量 212.2.2 数据离散趋势度量 222.2.3 协方差和相关系数 252.2.4 数据基本统计描述的图形显示 272.3 数据的相似性与相异性度量 302.3.1 数据矩阵与相异性矩阵 312.3.2 标称属性的邻近性度量 322.3.3 二元属性的邻近性度量 322.3.4 数值属性的相异性:闵可夫斯基距离 342.3.5 序数属性的邻近性度量 352.3.6 混合类属性的相异性 362.3.7 余弦相似性 372.3.8 度量相似的分布:Kullback-Leibler散度 382.3.9 捕获相似性度量中的隐藏语义 392.4 数据质量、数据清洗和数据集成 392.4.1 数据质量度量 392.4.2 数据清洗 402.4.3 数据集成 442.5 数据转换 452.5.1 规范化 452.5.2 离散化 472.5.3 数据压缩 482.5.4 抽样 502.6 维归约 502.6.1 主成分分析 502.6.2 属性子集选择 512.6.3 非线性维归约方法 522.7 总结 552.8 练习 562.9 文献注释 59第3章 数据仓库和在线分析处理 613.1 数据仓库 613.1.1 数据仓库:基本概念 613.1.2 数据仓库的架构:企业数据仓库和数据集市 633.1.3 数据湖 663.2 数据仓库建模:模式和度量标准 693.2.1 数据立方体:一个多维数据模型 693.2.2 多维数据模型的模式:星型、雪花和事实星座 723.2.3 概念层次结构 743.2.4 度量:分类和计算 753.3 OLAP操作 763.3.1 典型的OLAP操作 763.3.2 索引OLAP数据:位图索引和连接索引 783.3.3 存储实现:基于列的数据库 813.4 数据立方体计算 823.4.1 数据立方体计算的相关术语 823.4.2 数据立方体物化思路 833.4.3 OLAP服务器架构:ROLAP、MOLAP、HOLAP 853.4.4 数据立方体计算的一般策略 863.5 数据立方体计算方法 873.5.1 用于完全立方体计算的多路数组聚合 873.5.2 BUC:从顶点方体向下计算冰山立方体 913.5.3 为快速高维OLAP预计算壳片段 933.5.4 使用立方体高效处理OLAP查询 953.6 总结 963.7 练习 973.8 文献注释 102第4章 模式挖掘:基本概念和方法 1054.1 基本概念 1054.1.1 购物篮分析:启发示例 1054.1.2 频繁项集、闭项集和关联规则 1064.2 频繁项集挖掘方法 1084.2.1 Apriori算法:通过受限候选生成来查找频繁项集 1084.2.2 从频繁项集生成关联规则 1114.2.3 提高Apriori的效率 1124.2.4 挖掘频繁项集的模式增长方法 1134.2.5 使用垂直数据格式挖掘频繁项集 1164.2.6 挖掘闭模式和最大模式 1174.3 哪些模式有趣 —模式评估方法 1174.3.1 强规则不一定有趣 1184.3.2 从关联分析到相关分析 1184.3.3 模式评估方法的比较 1194.4 总结 1224.5 练习 1234.6 文献注释 125第5章 模式挖掘:高级方法 1275.1 挖掘多类型的模式 1275.1.1 挖掘多层关联 1275.1.2 挖掘多维关联 1305.1.3 挖掘定量关联规则 1315.1.4 挖掘高维数据 1325.1.5 挖掘稀有模式和负模式 1345.2 挖掘压缩模式或近似模式 1355.2.1 利用模式聚类挖掘压缩模式 1365.2.2 提取冗余感知的top-k模式 1375.3 基于约束的模式挖掘 1395.3.1 具有模式修剪约束的模式空间修剪 1405.3.2 具有数据修剪约束的数据空间修剪 1425.3.3 具有简洁性约束的挖掘空间修剪 1435.4 序列模式挖掘 1445.4.1 序列模式挖掘:概念与原语 1445.4.2 可扩展的序列模式挖掘方法 1465.4.3 基于约束的序列模式挖掘 1535.5 挖掘子图模式 1545.5.1 挖掘频繁子图的方法 1545.5.2 挖掘变体和受约束子结构模式 1595.6 模式挖掘:应用程序示例 1625.6.1 海量文本数据中的短语挖掘 1625.6.2 挖掘软件程序中的复制和粘贴错误 1675.7 总结 1695.8 练习 1705.9 文献注释 171第6章 分类:基本概念和方法 1746.1 基本概念 1746.1.1 什么是分类 1746.1.2 分类的一般方法 1756.2 决策树归纳 1776.2.1 决策树算法 1776.2.2 属性选择度量 1816.2.3 剪枝 1876.3 贝叶斯分类方法 1896.3.1 贝叶斯定理 1896.3.2 朴素贝叶斯分类 1906.4 惰性学习器 1936.4.1 k-最近邻分类器 1946.4.2 基于案例的推理 1956.5 线性分类器 1966.5.1 线性回归 1976.5.2 感知机:将线性回归转化为分类 1986.5.3 logistic回归 1996.6 模型评估与选择 2026.6.1 评估分类器性能的度量 2036.6.2 保持方法和随机二次抽样 2066.6.3 交叉验证 2076.6.4 自助法 2076.6.5 使用统计显著性检验选择模型 2086.6.6 基于成本效益和ROC曲线比较分类器 2096.7 提高分类准确率的技术 2116.7.1 集成分类方法简介 2116.7.2 装袋 2126.7.3 提升 2136.7.4 随机森林 2166.7.5 提高类不平衡数据的分类准确率 2176.8 总结 2186.9 练习 2196.10 文献注释 221第7章 分类:高级方法 2247.1 特征选择与特征工程 2247.1.1 过滤法 2257.1.2 包装法 2277.1.3 嵌入法 2277.2 贝叶斯信念网络 2307.2.1 概念和原理 2307.2.2 训练贝叶斯信念网络 2317.3 支持向量机 2337.3.1 线性支持向量机 2337.3.2 非线性支持向量机 2377.4 基于规则和基于模式的分类 2397.4.1 使用IF-THEN规则进行分类 2397.4.2 从决策树中提取规则 2417.4.3 使用序列覆盖算法进行规则归纳 2427.4.4 关联分类 2457.4.5 基于判别频繁模式的分类 2477.5 弱监督分类 2507.5.1 半监督分类 2517.5.2 主动学习 2527.5.3 迁移学习 2537.5.4 远程监督 2557.5.5 零样本学习 2567.6 对丰富数据类型进行分类 2587.6.1 流数据分类 2587.6.2 序列分类 2607.6.3 图数据分类 2617.7 其他相关技术 2647.7.1 多类分类 2647.7.2 距离度量学习 2667.7.3 分类的可解释性 2687.7.4 遗传算法 2697.7.5 强化学习 2707.8 总结 2717.9 练习 2727.10 文献注释 275第8章 聚类分析:基本概念和方法 2788.1 聚类分析 2788.1.1 什么是聚类分析 2788.1.2 聚类分析的要求 2808.1.3 基本聚类方法概述 2818.2 划分方法 2838.2.1 k-均值:一种基于形心的技术 2838.2.2 k-均值方法的变体 2858.3 层次方法 2898.3.1 层次聚类的基本概念 2908.3.2 凝聚式层次聚类 2918.3.3 分裂式层次聚类 2948.3.4 BIRCH:使用聚类特征树的可伸缩层次聚类 2958.3.5 概率层次聚类 2978.4 基于密度和基于网格的方法 2998.4.1 DBSCAN:基于高密度相连区域的密度聚类 3008.4.2 DENCLUE:基于密度分布函数的聚类 3038.4.3 基于网格的方法 3048.5 聚类评估 3068.5.1 评估聚类趋势 3078.5.2 确定簇数量 3088.5.3 衡量聚类质量:外在方法 3098.5.4 内在方法 3128.6 总结 3138.7 练习 3148.8 文献注释 315第9章 聚类分析:高级方法 3189.1 基于概率模型的聚类 3189.1.1 模糊簇 3199.1.2 基于概率模型的簇 3219.1.3 期望最大化算法 3239.2 聚类高维数据 3259.2.1 聚类高维数据的问题和挑战 3259.2.2 轴平行子空间方法 3289.2.3 任意定向子空间方法 3299.3 双聚类 3309.3.1 为什么以及在哪里使用双聚类 3309.3.2 双簇的类型 3329.3.3 双聚类方法 3339.3.4 使用MaPle枚举所有双簇 3349.4 聚类的维归约方法 3349.4.1 用于聚类的线性维归约方法 3359.4.2 非负矩阵分解 3379.4.3 谱聚类 3399.5 聚类图和网络数据 3419.5.1 应用场景和挑战 3419.5.2 相似性度量 3429.5.3 图聚类方法 3469.6 半监督聚类 3499.6.1 标记部分数据的半监督聚类 3509.6.2 基于成对约束的半监督聚类 3509.6.3 半监督聚类的其他背景知识类型 3529.7 总结 3539.8 练习 3549.9 文献注释 355第10章 深度学习 35710.1 基本概念 35710.1.1 什么是深度学习 35710.1.2 反向传播算法 36010.1.3 训练深度学习模型的重要挑战 36710.1.4 深度学习架构概述 36810.2 改进深度学习模型的训练 36910.2.1 响应性激活函数 36910.2.2 自适应学习率 37110.2.3 dropout 37310.2.4 预训练 37510.2.5 交叉熵 37710.2.6 自编码器:无监督深度学习 37810.2.7 其他技术 38110.3 卷积神经网络 38310.3.1 引入卷积操作 38310.3.2 多维卷积 38510.3.3 卷积层 38810.4 循环神经网络 39010.4.1 基本RNN模型和应用 39010.4.2 门控循环神经网络 39610.4.3 解决长期依赖性的其他技术 39810.5 图神经网络 40110.5.1 基本概念 40110.5.2 图卷积网络 40210.5.3 其他类型的图神经网络 40610.6 总结 40710.7 练习 40910.8 文献注释 411第11章 离群点检测 41611.1 基本概念 41611.1.1 什么是离群点 41611.1.2 离群点的类型 41711.1.3 离群点检测的挑战 41911.1.4 离群点检测方法概述 42011.2 统计方法 42211.2.1 参数方法 42211.2.2 非参数方法 42511.3 基于邻近性的方法 42611.3.1 基于距离的离群点检测 42611.3.2 基于密度的离群点检测 42711.4 基于重构的方法 43011.4.1 基于矩阵分解的数值型数据离群点检测 43011.4.2 基于模式压缩方法的分类数据离群点检测 43411.5 基于聚类和分类的方法 43711.5.1 基于聚类的方法 43711.5.2 基于分类的方法 43811.6 挖掘情境和集体离群点 44011.6.1 将情境离群点检测转化为传统离群点检测 44011.6.2 建模关于情境的正常行为 44111.6.3 挖掘集体离群点 44111.7 高维数据中的离群点检测 44211.7.1 扩展传统的离群点检测 44311.7.2 在子空间中查找离群点 44411.7.3 离群点检测集成 44511.7.4 通过深度学习驯服高维度 44611.7.5 建模高维离群点 44711.8 总结 44811.9 练习 44911.10 文献注释 450第12章 数据挖掘趋势和研究前沿 45212.1 挖掘丰富的数据类型 45212.1.1 挖掘文本数据 45212.1.2 时空数据 45612.1.3 图和网络 45712.2 数据挖掘应用 46112.2.1 情感和观点的数据挖掘 46112.2.2 真值发现与错误信息识别 46312.2.3 信息和疾病传播 46512.2.4 生产力与团队科学 46812.3 数据挖掘的方法论和系统 47012.3.1 对用于知识挖掘的非结构化数据进行结构化处理:一种数据驱动的方法 47012.3.2 数据增强 47212.3.3 从相关性到因果关系 47412.3.4 将网络作为情境 47612.3.5 自动化机器学习:方法和系统 47812.4 数据挖掘、人类和社会 47912.4.1 保护隐私的数据挖掘 47912.4.2 人类与算法的交互 48212.4.3 超越最大化准确率的挖掘:公平性、可解释性和鲁棒性 48412.4.4 数据挖掘造福社会 487附录A 数学背景 489参考文献 509
內容試閱 :
前 言Data Mining Concepts and Techniques, Fourth Edition我们所处社会的数字化极大地增强了我们从不同来源生成和收集数据的能力。海量的数据几乎淹没了我们生活的各个方面。存储或瞬态数据的爆炸式增长导致对新技术和自动化工具的迫切需求,这些技术和工具将智能地帮助我们把大量数据转化为有用的信息和知识。这引出了计算机科学中充满希望和蓬勃发展的前沿领域,它被称为数据挖掘及其各种应用。数据挖掘也常常被称为从数据中发现知识,能够自动或方便地提取存储在大型数据库、数据仓库、Web、其他海量信息存储库或数据流中的知识的模式。本书探讨了知识发现和数据挖掘的概念和技术。作为一个跨学科领域,数据挖掘借鉴了统计学、机器学习、模式识别、数据库技术、信息检索、自然语言处理、网络科学、基于知识的系统、人工智能、高性能计算和数据可视化等学科的知识与技术。我们关注并发现隐藏在大数据集中的模式相关的技术问题,包括可行性、有用性、有效性和可扩展性等。因此,本书的目的并不是作为统计学、机器学习、数据库系统或其他此类领域的介绍,尽管我们确实提供了一些背景知识,以帮助读者理解这些知识在数据挖掘中的角色。相反,本书是对数据挖掘的全面介绍,并且适用于计算机科学专业的学生、应用程序开发人员、商业专业人士和涉及上述任何学科的研究人员。数据挖掘出现于20世纪80年代末,在20世纪90年代取得了长足进步,并持续蓬勃发展。本书展示了该领域的整体概况,介绍了有趣的数据挖掘概念和技术,并讨论了应用和研究方向。写作本书的一个重要动机是建立一个有组织的数据挖掘研究框架,这是一项具有挑战性的任务,因为它包含很多快速发展的学科领域。我们希望本书能够鼓励不同背景的人交流有关数据挖掘的经验,从而为进一步推广并塑造这个令人兴奋和充满活力的领域做出贡献。本书的组织自本书前三版出版以来,数据挖掘领域取得了巨大进展。许多新的数据挖掘方法、系统和应用程序被提出,特别是用于处理新类型的数据,包括信息网络、图、复杂结构、数据流,以及文本、Web、多媒体、时间序列和时空数据。不断快速发展和丰富的新技术内容使得本书难以覆盖全领域。我们决定不再继续扩大本书的覆盖范围,而是涵盖核心内容,使其具有足够的广度和深度,将复杂数据类型及其处理应用留给专门讨论这些特定主题的书籍。第4版对前三版进行了大幅修订,并对技术内容进行了大量改进和重组。本书处理一般数据类型的不同挖掘方法的核心技术内容,得到了扩展和显著增强。为了使本书内容保持简洁、与时俱进,我们做了以下主要修订:(1)第3版中的两章,“了解数据”和“数据预处理”合并为一章“数据、度量与数据预处理”,删除了“数据可视化”,因为这些方法已有多本专门介绍数据可视化的书籍涉及,并且软件工具在网络上随处可见;(2)第3版中的两章,“数据仓库与在线分析处理”和“数据立方体技术”合并为一章,省略了一些应用较少的数据立方体计算方法和数据立方体扩展,但引入了更新的概念“数据湖”(3)第3版中关于模式发现、分类、聚类和离群点分析的数据挖掘方法被保留,并大幅增强和更新了其内容;(4)新增一章 “深度学习”,系统阐述神经网络和深度学习方法;(5)最后一章“数据挖掘趋势和研究前沿”完全重写了许多新的高级主题,全面、简洁地介绍了数据挖掘;(6)附录A简要介绍了理解本书内容所需的基本数学知识。新版各章简要介绍如下,这里着重介绍新的内容。第1章介绍了数据挖掘的多学科领域。讨论了信息技术的演变历史,引出了数据挖掘的需求,以及数据挖掘的重要性及其应用。概述了要挖掘的各种数据,并根据待挖掘的知识类型、技术类型以及目标应用类型对数据挖掘任务进行了分类,阐述了数据挖掘包括的很多学科。最后,讨论了数据挖掘如何影响社会。第2章介绍了数据、度量与数据预处理。首先讨论了数据对象和属性类型,然后介绍了基本统计数据描述的典型度量,介绍了度量各种数据相似性和相异性的方法。接下来,本章引入了数据预处理技术,并特别介绍了数据质量的概念以及数据清洗和集成的方法。同时还讨论了各种数据转换和维归约方法。第3章全面介绍了数据仓库和在线分析处理(OLAP)。本章从公认的数据仓库定义开始,介绍了架构和数据湖的概念。然后研究作为多维数据模型的数据仓库的逻辑设计,并详述OLAP操作以及如何索引OLAP数据以进行高效分析。本章深入探讨了构建数据立方体以实现数据仓库的技术。第4章和第5章介绍了在大数据集中挖掘频繁模式、关联和相关性的方法。第4章介绍了基本概念,例如购物篮分析,以有组织的方式呈现频繁项集挖掘的技术。从基本的Apriori算法及其变体到提高效率的更高级方法,包括频繁模式增长方法、垂直数据格式的频繁模式挖掘以及挖掘闭频繁项集和最大频繁项集。本章还讨论了模式评估方法并介绍了用于挖掘相关模式的度量。第5章介绍高级模式挖掘方法。它讨论了多层和多维空间中的模式挖掘方法、挖掘定量关联规则、挖掘高维数据、挖掘稀有和负模式、挖掘压缩或近似模式、基于约束的模式挖掘,然后讨论了挖掘序列模式和子图模式的高级方法。还介绍了模式挖掘的应用,包括文本数据中的短语挖掘以及软件程序中的复制和粘贴错误挖掘。第6章和第7章描述了数据分类的方法。由于分类方法的重要性和多样性,内容分为两章。第6章介绍了分类的基本概念和方法,包括决策树归纳、贝叶斯分类、k-最近邻分类器和线性分类器,还讨论了模型评估和选择方法以及提高分类准确率的方法,包括集成方法以及如何处理数据不平衡问题。第7章讨论了高级的分类方法,包括特征选择、贝叶斯信念网络、支持向量机、基于规则和基于模式的分类。额外的内容包括弱监督分类、对丰富数据类型分类、多类分类、距离度量学习、分类的可解释性、遗传算法和强化学习。聚类分析是第8章和第9章的主题。第8章介绍了数据聚类的基本概念和方法,包括基本聚类分析方法概述、划分方法、层次方法、基于密度和基于网格的方法,还介绍了聚类评估方法。第9章讨论了高级聚类方法,包括基于概率模型的聚类、聚类高维数据、图聚类和网络数据聚类,以及半监督聚类。第10章介绍了深度学习,它是一系列基于人工神经网络的强大技术。在计算机视觉、自然语言处理、机器翻译、社交网络分析等领域有着广泛的应用。我们从反向传播算法这一基本概念和基础技术开始。然后,介绍各种技术来改进训练深度学习模型,包括响应性激活函数、自适应学习率、dropout、预训练、交叉熵和自编码器。还介绍了几种常用的深度学习架构,包括前馈神经网络、卷积神经网络、循环神经网络和图神经网络。第11章专门讨论离群点检测。介绍了离群点和离群点分析的基本概念,从监督程度(即监督、半监督和无监督)的角度以及从方法(即统计方法、基于邻近性的方法、基于重构的方法、基于聚类的方法和基于分类的方法)的角度分析和讨论了各种离群点检测方法。还讨论了挖掘情境和集体离群点的方法,以及高维数据中的离群点检测。最后,在第12章中,我们讨论了数据挖掘的未来趋势和研究前沿。我们从挖掘复杂数据类型的简要介绍开始,包括文本数据、图和网络以及时空数据。之后,介绍一些数据挖掘应用,包括情感和观点分析、真值发现和错误信息识别、信息和疾病传播、生产力与团队科学。然后本章继续介绍其他数据挖掘方法,包括对非结构化数据进行结构化处理、数据增强、因果关系分析、将网络作为情境和自动化机器学习。最后,讨论了数据挖掘的社会影响,包括保护隐私的数据挖掘、人类与算法的交互、公平性、可解释性和鲁棒性以及造福社会的数据挖掘。在书中,楷体字用于强调已定义的术语,粗体字用于强调突出或总结主要思想,粗斜体字表示多维量。本书有几个区别于其他数据挖掘教科书的特点。对数据挖掘原理进行了广泛而深入的介绍。各章节的编写尽可能独立,以便读者可以按照感兴趣的顺序阅读。有些章节提供了更大范围的视角,感兴趣的读者可以考虑选择性阅读。本书介绍了数据挖掘中有关多维OLAP分析的重要主题,这些主题在其他数据挖掘书籍中经常被忽视或很少讨论。本书还配有包含大量在线资源的网站,可帮助教师、学生和其他该领域的专业人士。这些将在下面进一步描述。致教师本书旨在对数据挖掘领域进行广泛而详细的概述。首先,本书可以用于本科高年级或一年级研究生的数据挖掘入门课程。此外,本书还提供了关于数据挖掘的材料供高年级研究生课程使用。根据教学时间的长短、学生的背景和你的兴趣,你可以选择任意章节以各种顺序进行教学。例如,入门课程可能涵盖以下章节。第1章:绪论第2章:数据、度量与数据预处理第3章:数据仓库和在线分析处理第4章:模式挖掘:基本概念和方法第6章:分类:基本概念和方法第8章:聚类分析:基本概念和方法如果时间允许,一些关于深度学习(第10章)或离群点检测(第11章)的内容可供选择。每章都应涵盖基本概念,而涉及高级主题的一些内容可以选择性地教授。作为另一个例子,为了让教学更好地涵盖监督机器学习,可以在数据挖掘课程中深入讨论聚类。这样的课程可以基于以下章节。第1章:绪论第2章:数据、度量与数据预处理第3章:数据仓库和在线分析处理第4章:模式挖掘:基本概念和方法第8章:聚类分析:基本概念和方法第9章:聚类分析:高级方法第11章:离群点检测教授高级数据挖掘课程的教师可能会发现第12章的内容特别丰富,因为它讨论了数据挖掘中快速发展的广泛新主题。或者,你可以选择以两门课程的顺序教授整本书,涵盖书中的所有章节,如果时间允许,还可以教授一些高级主题,例如图和网络数据挖掘。此类高级主题的资料可以从本书网站提供的配套章节中选择,并附有一组精选的研究论文。本书中的各个章节也可用于相关课程中的教程或特殊主题,例如机器学习、模式识别、数据仓库和智能数据分析。每章结尾都有一组练习,适合作为作业。练习包括测试对所学知识的基本掌握程度的简短问题,以及需要分析思考的较长问题,或者代码实践项目。有些练习也可以用作研究讨论主题。每章末尾的文献注释可用于查找包含所提出的概念和方法的起源、对相关主题的深入处理以及可能的扩展的研究文献。致学生我们希望本书能够激发你对数据挖掘这一新兴但快速发展的领域的兴趣。我们试图以清晰的方式呈现材料,并仔细解释所覆盖的主题。每章结尾都有一个描述要点的总结。本书包含了许多图表,使本书更加有趣且更适合读者阅读。虽然本书被设计为教科书,但我们也尽力对其进行组织,以便使它也可以作为参考书或参考手册,以供你日后研究或从业时使用。阅读这本书你需要了解什么?你应该了解一些与统计、数据库系统和机器学习相关的概念和术语。然而,我们确实尝试提供足够的背景基础知识,所以如果你对这些领域不太熟悉或者有所遗忘,你也不会觉得书中的讨论难以理解。你应该有一些编程经验。特别是,你应该能够阅读伪代码并理解简单的数据结构,例如多维数组和结构。致专业人士本书旨在涵盖数据挖掘领域的广泛主题。它是一个关于该主题的优秀手册。因为每一章都被设计为尽可能独立,你可以专注于你最感兴趣的主题。本书可供希望了解数据挖掘关键思想的程序员、数据科学家和信息服务经理使用。本书对于银行、保险、医药和零售等行业的技术数据分析人员也很有用,他们对将数据挖掘解决方案应用于其业务感兴趣。此外,本书可以作为数据挖掘领域的全面综述,也能够对那些想要推进数据挖掘技术并扩展数据挖掘应用领域的研究人员有所帮助。本书所提出的技术和算法具有实用性。书中描述的算法不是选择在小型数据集上表现良好的算法,而是用于发现隐藏在大型真实数据集中的模式和知识。书中介绍的算法将以伪代码说明。伪代码类似于C语言编程,但其设计使不熟悉C或C++的程序员也能轻松理解。如果你想实现任何算法,你会发现将我们的伪代码翻译成编程语言是一项相当简单的任务。提供资源的网站本书有一个配套网站:https://educate.elsevier.com/book/details/9780128117606。该网站包含许多补充材料,供本书读者或任何对数据挖掘感兴趣的人使用。资源包括以下内容:每章的幻灯片演示:提供每一章的幻灯片讲义。教师手册:本书练习的完整答案,请有需要的教师访问网站获取。书中的数据:这可能会帮助你为课堂教学制作幻灯片。PDF格式的本书目录。本书不同印刷版本的勘误:我们鼓励你指出书中的任何错误。一旦错误被确认,我们将更新勘误表并肯定你的贡献。有兴趣的读者也可以查看作者的课程教学网站。所有作者均为大学教授。请查看他们对应的数据挖掘课程网站,其中可能包含本科生入门课程或研究生数据挖掘高级课程材料,包括更新的课程/章节幻灯片、教学大纲、作业、编程作业、研究项目、勘误表和其他相关信息。致 谢Data Mining Concepts and Techniques, Fourth Edition我们衷心感谢前几版的合著者Micheline Kamber。Micheline对这些版本做出了重大贡献。由于她有其他职责,无法参与本版的写作。我们非常感谢她多年来的合作和贡献。我们还要向UIUC的数据与信息系统(DAIS)实验室、数据挖掘小组、IDEA实验室和iSAIL实验室以及SFU的数据挖掘小组的教职员工和学生包括前任和现任成员,以及许多朋友和同事表示感谢,他们的持续支持和鼓励使我们在这一版的工作中受益匪浅。感谢我们在UIUC和SFU教授的许多数据挖掘课程中的学生和助教,以及暑期学校和其他学校的学生,他们仔细地检查了本书的草稿和早期版本,发现了许多错误,并提出了各种改进建议。我们还要感谢Elsevier的Steve Merken和Beth LoGiudice,感谢他们在我们编写本书期间给予的支持。我们感谢项目经理Gayathri S和她的团队成员,让我们按计划进行本书的写作。我们也感谢来自所有审稿人的宝贵反馈。我们要感谢美国国家科学基金会(NSF)、美国国防高级研究计划局(DARPA)、美国陆军研究实验室(ARL)、美国国立卫生研究院(NIH)、美国国防威胁降低局(DTRA)和自然科学与工程加拿大研究委员会(NSERC)以及微软研究院、谷歌研究院、IBM研究院、Amazon、Adobe、LinkedIn、Yahoo!、HP实验室、PayPal、Facebook、Visa Research等行业研究实验室以研究补助金、合同和赠礼的形式支持我们的研究。此类研究支持加深了我们对本书讨论主题的理解。最后,我们要感谢家人在我们编写本书的过程中给予的全力支持。