登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入   新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2024年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書

『簡體書』数据挖掘:原理与实践(基础篇)

書城自編碼: 3580685
分類:簡體書→大陸圖書→計算機/網絡數據庫
作者: [美] 查鲁·C.,阿加沃尔[Charu C.,Aggarw
國際書號(ISBN): 9787111670292
出版社: 机械工业出版社
出版日期: 2020-12-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 183.5

我要買

share:

** 我創建的書架 **
未登入.


新書推薦:
一个经济杀手的自白 第3版
《 一个经济杀手的自白 第3版 》

售價:HK$ 110.9
8秒按压告别疼痛
《 8秒按压告别疼痛 》

售價:HK$ 87.4
津巴多时间心理学:挣脱束缚、改写命运的6种时间观
《 津巴多时间心理学:挣脱束缚、改写命运的6种时间观 》

售價:HK$ 77.3
大英博物馆东南亚简史
《 大英博物馆东南亚简史 》

售價:HK$ 177.0
纯粹·我只要少许
《 纯粹·我只要少许 》

售價:HK$ 80.6
经济史的趣味(全新增订版)(经济史与思想史丛书)
《 经济史的趣味(全新增订版)(经济史与思想史丛书) 》

售價:HK$ 84.0
中国古代鬼神录
《 中国古代鬼神录 》

售價:HK$ 190.2
投机苦旅:一位投机客的凤凰涅槃
《 投机苦旅:一位投机客的凤凰涅槃 》

售價:HK$ 88.5

 

內容簡介:
全书理论联系实际,全面讲述数据挖据理论、技术及应用的教材。研讨了数据挖掘的方方面面,从基础理论到复杂数据类型及其应用。不仅讨论传统的数据挖掘问题,而且介绍了高级数据类型,例如文本、时间序列、离散序列、空间数据、图数据和社会网络。本书由基础篇和进阶篇组成。基础篇对应原书的第1~11章,进阶篇对应原书的第12~20章。
關於作者:
查鲁·C. 阿加沃尔(Charu C. Aggarwal)是IBM T. J. Watson研究中心的杰出研究人员,于1996年获麻省理工学院博士学位。他对数据挖掘领域有着广泛的研究,在国际会议和期刊上发表了250多篇论文,拥有80多项专利。他曾三次被评为IBM的“杰出发明人”,并曾获得IBM公司奖、IBM杰出创新奖和两项IBM杰出技术成就奖。他因为提出基于冷凝的数据挖掘中的隐私保护技术而获得EDBT2014的时间检验奖。他还获得了IEEE ICDM研究贡献奖(2015),这是数据挖掘领域对具有突出贡献的研究的两个*高奖项之一。
他曾多次担任ACMIEEE知名国际学术会议的主席或程序委员会主席,并担任大数据相关多个知名期刊的主编或编委。由于在知识发现和数据挖掘算法上的贡献,他入选SIAM、ACM和IEEE的会士。
目錄
出版者的话译者序前言第1章 数据挖掘导论11.1 引言11.2 数据挖掘过程21.2.1 数据预处理阶段41.2.2 分析阶段51.3 基本数据类型51.3.1 非依赖型数据51.3.2 依赖型数据71.4 主要数据挖掘模块总览111.4.1 关联模式挖掘121.4.2 数据聚类131.4.3 异常检测131.4.4 数据分类141.4.5 复杂数据类型对问题定义的影响151.5 可扩展性问题和数据流场景171.6 应用案例浅述171.6.1 商店商品布局171.6.2 客户推荐181.6.3 医疗诊断181.6.4 Web日志异常检测191.7 小结191.8 文献注释191.9 练习题20第2章 数据准备212.1 引言212.2 特征提取和类型转换222.2.1 特征提取222.2.2 数据类型转换232.3 数据清洗262.3.1 缺失项的处理272.3.2 错误项和不一致项的处理282.3.3 缩放与标准化292.4 数据约简和转换292.4.1 采样302.4.2 特征子集选取322.4.3 基于坐标轴旋转的维度约简322.4.4 基于类型转换的降维392.5 小结472.6 文献注释482.7 练习题48第3章 相似度和距离503.1 引言503.2 多维数据503.2.1 定量型数据513.2.2 类别型数据583.2.3 定量型和类别型的混合数据593.3 文本相似性度量603.4 时态的相似性度量613.4.1 时间序列相似性度量613.4.2 离散序列相似性度量653.5 图的相似性度量673.5.1 单个图中两个节点之间的相似度673.5.2 两个图之间的相似度683.6 有监督的相似度函数693.7 小结703.8 文献注释703.9 练习题71第4章 关联模式挖掘734.1 引言734.2 频繁模式挖掘模型744.3 关联规则的生成框架764.4 频繁项集挖掘算法774.4.1 暴力算法784.4.2 Apriori算法784.4.3 枚举树算法814.4.4 递归的基于后缀的模式生长方法894.5 替代模型:有趣模式964.5.1 统计相关系数974.5.2 χ2度量974.5.3 兴趣比率984.5.4 对称置信度984.5.5 列的余弦系数984.5.6 Jaccard系数和min-hash技巧984.5.7 集体强度1004.5.8 与负模式挖掘的关系1004.6 有用的元算法1004.6.1 采样方法1014.6.2 数据划分集成法1014.6.3 推广到其他数据类型1014.7 小结1024.8 文献注释1024.9 练习题104第5章 关联模式挖掘:高级概念1065.1 引言1065.2 模式汇总1065.2.1 最大模式1075.2.2 闭包模式1085.2.3 近似频繁模式1095.3 模式查询1105.3.1 一次预处理多次查询1115.3.2 把限制条件放入模式挖掘1155.4 关联模式挖掘的应用1155.4.1 与其他数据挖掘问题的关系1155.4.2 购物篮分析1165.4.3 用户信息分析1165.4.4 推荐和协同过滤1165.4.5 Web日志分析1175.4.6 生物信息学1175.4.7 应用于其他复杂数据类型1175.5 小结1185.6 文献注释1185.7 练习题119第6章 聚类分析1206.1 引言1206.2 聚类的特征选取1216.2.1 过滤模型1216.2.2 包装模型1246.3 基于代表点的算法1246.3.1 k-means算法1276.3.2 k-means内核算法1286.3.3 k-medians算法1286.3.4 k-medoids算法1296.4 层次聚类算法1306.4.1 自底向上凝聚的方法1316.4.2 自顶向下分裂的方法1356.5 基于概率模型的算法1356.6 基于网格和基于密度的算法1396.6.1 基于网格的算法1396.6.2 DBSCAN1416.6.3 DENCLUE1436.7 基于图的算法1476.8 非负矩阵分解1496.9 聚类验证1536.9.1 内部验证度量1536.9.2 外部验证度量1556.9.3 评价1586.10 小结1586.11 文献注释1586.12 练习题159第7章 聚类分析:高级概念1617.1 引言1617.2 类别型数据的聚类1627.2.1 基于代表点的算法1627.2.2 层次算法1647.2.3 概率算法1657.2.4 基于图的算法1667.3 可扩展的数据聚类1677.3.1 CLARANS1677.3.2 BIRCH1687.3.3 CURE1697.4 高维数据聚类1707.4.1 CLIQUE1727.4.2 PROCLUS1727.4.3 ORCLUS1747.5 半监督聚类1767.5.1 单点监督1777.5.2 成对监督1777.6 用户监督聚类与可视化监督聚类1787.6.1 现有聚类算法的变体1787.6.2 可视化聚类1797.7 集成聚类1817.7.1 选择不同的集成组件1817.7.2 组合不同的集成组件1827.8 聚类应用1837.8.1 应用到其他数据挖掘问题1837.8.2 客户分类与协同过滤1837.8.3 文本应用1847.8.4 多媒体应用184
內容試閱
“数据是新时代的石油。”—Clive Humby在过去二十多年中,数据挖掘领域取得了很大的进步,从计算机科学的角度来看尤其明显。尽管传统的概率与统计领域对数据分析已经有了广泛和深入的研究,但数据挖掘这个术语是由计算机科学相关的社区所创立的。对计算机科学家来说,计算的可扩展性、可用性和计算的执行都是极为重要的。作为一门学科,数据科学需要一本超越传统的、仅专注于基本数据挖掘的教科书。最近几年,“数据科学家”这样的工作职位已经在市场上出现,这些人的工作职责就是从海量数据中窥探知识。在典型的应用中,数据类型倾向于异构及多样,基于多维数据类型的基本方法可能会失去效用,因此我们更需要将重点放在这些不同的数据类型以及使用这些数据类型的应用上。一本全面覆盖数据挖掘内容的书必须探索数据挖掘的不同方面,从基本技术出发,进而探讨复杂的数据类型,以及这些数据类型与基本技术的关系。虽然基本技术构成数据挖掘的良好基础,但它们并没有展示出数据分析真正复杂的全貌。本书在不影响介绍基本技术的情况下,研究这些高级的话题,因此本书可以同时用于初级和高级数据挖掘课程。到目前为止,还没有一本书用这种全面、综合的方式来覆盖所有这些话题。本书假设读者已经有了一些概率统计和线性代数方面的基础知识,一般掌握了理工科本科时期学习的相关内容就足够了。对业界的从业者来说,只要对这些基础知识有一定的实际经验,就可以使用本书。较强的数学背景对学习那些高级话题的章节显然会有所帮助,但并不是必需的。有些章节专门介绍特殊的数据挖掘场景,比如文本数据、时序数据、离散序列、图数据等,这种专门的处理是为了更好地展示数据挖掘在多种应用领域有用武之地。本书的章节可以分为三类。基础章节:数据挖掘主要有四个“超级问题”,即聚类、分类、关联模式挖掘和异常分析,它们的重要性体现为许许多多的实际应用把它们当成基本构件。由此,数据挖掘研究者和实践者非常重视为这些问题设计有效且高效的方法。这些基础章节详细地讨论了数据挖掘领域针对这几个超级问题所提出的各类解决方法。领域章节:这些章节讨论不同领域的特殊方法,包括文本数据、时序数据、序列数据、图数据、空间数据等。这些章节多数可以认为是应用性章节,因为它们探索特定领域的特殊性问题。应用章节:计算机硬件技术和软件平台的发展导致了一些数据密集型应用的产生,如数据流系统、Web挖掘、社交网络和隐私保护。应用章节对这些话题进行了详细的介绍。前面所说的那些领域章节其实也集中讨论了由这些不同的数据类型而产生的各类应用。给使用本书的教师的一点建议本书的撰写特点使得它特别适用于数据挖掘基础和高级两门课程的教学。通过对不同重点的关注,本书也可用于不同类型的数据挖掘课程。具体来说,使用各种章节组合可提供的课程包括下面几种。基础课程:数据挖掘基础课程应侧重于数据挖掘的基础知识。这门课可以使用本书的第1、2、3、4、6、8、10章。事实上,一门课可能无法覆盖这些章节中的所有内容,任课教师可根据需要从这些章节中选择他们感兴趣的话题。这门课也可以考虑使用本书的第5、7、9、11章的部分内容,这些章节确实是为高级课程准备的,但不妨在基础课程中引入一部分。高级课程(基础):这门课将涵盖数据挖掘基础中的高级话题,并假定学生已经熟悉了本书第1~3章的内容,及第4、6、8、10章中的部分内容。这门课将主要关注第5、7、9、11章,如集成分析这样的内容对一门高级课程是有益的。此外,在基础课程中没来得及教授的第4、6、8、10章中的内容也可以在这门课中使用,并考虑增加第20章的隐私话题。高级课程(数据类型):这门课可以教授文本挖掘、时序、序列、图数据和空间数据等内容,使用本书的第13、14、15、16、17章。也可以考虑增加第19章(如图聚类部分)和第12章(数据流)的内容。高级课程(应用):应用课程可以与数据类型课程有所重叠,但有不同的侧重点。例如,在一个以应用为中心的课程中,重点应该放在建模而非算法方面。因此,第 13、14、15、16、17章中的内容可以保留,但可以跳过一些算法细节。因为对具体算法关注得少些,这几章可以比较快地介绍,建议把省下来的时间分配给重要的三章,即数据流(第12章)、Web挖掘(第18章)以及社交网络分析(第19章)。本书的撰写风格简单,便于数学背景不多的本科生和业界从业人员使用。因此,对于学生、业界从业者以及科研人员,本书既可以作为初级的介绍性课本,也可以作为高级课程的课本。在本书中,向量与多维数据点(包括类别型属性)都用上划线标注,如或y。向量或多维数据点可以由小写字母或大写字母来表示,只要有上划线标注即可。向量点积由中心点表示,如。矩阵用大写字母表示,不用上划线标注,如R。在整本书中,n×d的数据矩阵用D表示,包含n个d维的点,因此D中的各个数据点是一个d维列向量。若数据点是只包含一项的向量(即一维向量),那么n个数据点即可表示为一个n维列向量。比如,n个数据点的类别变量就是一个n维的

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.