登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入   新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2024年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書

『簡體書』大数据分析与计算

書城自編碼: 3141861
分類:簡體書→大陸圖書→計算機/網絡數據庫
作者: 汤羽、林迪、范爱华、吴薇薇
國際書號(ISBN): 9787302485865
出版社: 清华大学出版社
出版日期: 2018-03-01
版次: 1
頁數/字數: 485/759000
書度/開本: 16开 釘裝: 平装

售價:HK$ 126.4

我要買

share:

** 我創建的書架 **
未登入.


新書推薦:
8秒按压告别疼痛
《 8秒按压告别疼痛 》

售價:HK$ 87.4
津巴多时间心理学:挣脱束缚、改写命运的6种时间观
《 津巴多时间心理学:挣脱束缚、改写命运的6种时间观 》

售價:HK$ 77.3
大英博物馆东南亚简史
《 大英博物馆东南亚简史 》

售價:HK$ 177.0
纯粹·我只要少许
《 纯粹·我只要少许 》

售價:HK$ 80.6
经济史的趣味(全新增订版)(经济史与思想史丛书)
《 经济史的趣味(全新增订版)(经济史与思想史丛书) 》

售價:HK$ 84.0
中国古代鬼神录
《 中国古代鬼神录 》

售價:HK$ 190.2
投机苦旅:一位投机客的凤凰涅槃
《 投机苦旅:一位投机客的凤凰涅槃 》

售價:HK$ 88.5
重返马赛渔场:社会规范与私人治理的局限
《 重返马赛渔场:社会规范与私人治理的局限 》

售價:HK$ 69.4

 

建議一齊購買:

+

HK$ 92.3
《Python程序员面试算法宝典》
+

HK$ 112.2
《大数据技术体系详解:原理、架构与实践》
+

HK$ 114.6
《大数据分析原理与实践》
+

HK$ 72.2
《大数据技术原理与应用(第2版)》
+

HK$ 103.5
《数据科学与大数据分析 数据的发现 分析 可视化与表示》
編輯推薦:
1)对大数据计算的标准、模型、计算架构、开发技术体系做了一个较完整的论述和总结,适宜于作为计算机和软件工程专业高年级课程或研究生课程的教材; 2)本书也对大数据计算架构和开发平台及技术进行了论述,给出了相关领域的工程案例,也可作为IT技术人士的专业参考书。
內容簡介:
大数据应用已成为行业热点和产业发展新增长点,数据科学与计算技术也是*的前沿领域,其中,大数据计算分析提供了核心的技术支撑。本书从大数据计算系统的三个层次对数据模型、处理算法、计算模型与架构、开发技术标准等内容进行了综合性的介绍,重点阐述了各类数据分析算法和MapReduce,图并行计算,交互式处理,流计算,内存计算等计算架构。本书适合作为数据科学与大数据计算技术、计算机科学与技术、互联网应用系统、物联网工程等专业相关课程的教材。
目錄
目录

第1章绪论

1.1数据与数据科学

1.2大数据概念

1.3大数据技术特征

参考文献

习题

第2章大数据计算体系

2.1大数据计算架构

2.2数据存储系统

2.2.1数据清洗与建模

2.2.2分布式文件系统

2.2.3NoSQL数据库

2.2.4统一数据访问接口

2.3数据处理平台

2.3.1数据分析算法

2.3.2计算处理模型

2.3.3计算平台与引擎

2.4数据应用系统

2.4.1大数据应用领域

2.4.2大数据解决方案

参考文献

习题

第3章大数据标准与模式

3.1大数据标准体系

3.2大数据计算模式

参考文献

习题

第4章数据采集方法

4.1系统日志采集

4.1.1日志采集的目的

4.1.2日志采集过程

4.2网络数据采集

4.2.1网络爬虫工作原理

4.2.2网页搜索策略

4.2.3网页分析算法

4.2.4网络爬虫框架

4.3数据采集接口

参考文献

习题








第5章数据清洗与规约方法

5.1数据预处理研究现状

5.1.1数据清洗的研究现状

5.1.2数据规约的研究现状

5.2数据质量问题分类

5.2.1单数据源的问题

5.2.2多数据源的问题

5.3数据清洗技术

5.3.1重复记录清洗

5.3.2消除噪声数据

5.3.3缺失值清洗

5.4数据归约

5.4.1维归约

5.4.2属性选择

5.4.3离散化方法

5.5数据清洗工具

参考文献

习题

第6章数据分析算法

6.1C4.5算法

6.1.1算法描述

6.1.2属性选择度量

6.1.3其他特征

6.2k均值算法

6.3支持向量机

6.4Apriori算法

6.5EM算法

6.5.1案例: 估计k个高斯分布的均值

6.5.2EM算法步骤

6.6PageRank算法

6.6.1PageRank的核心思想

6.6.2PageRank的计算过程

6.7AdaBoost算法

6.7.1Boosting算法的发展历史

6.7.2AdaBoost算法及其分析

6.8k邻近算法

6.9朴素贝叶斯

6.9.1朴素贝叶斯分类器

6.9.2贝叶斯网络

6.10分类回归树算法

6.10.1建立回归树

6.10.2剪枝过程

参考文献

习题

第7章文本读写技术

7.1读取文本文件

7.1.1读取txt文件

7.1.2读取csv文件

7.2写入文本文件

7.3处理二进制数据

7.4数据库的使用

7.4.1数据库的连接

7.4.2执行SQL语句

7.4.3选择和打印

7.4.4动态插入

7.4.5update操作

参考文献

习题

第8章数据处理技术

8.1合并数据集

8.1.1索引上的合并

8.1.2轴向连接

8.1.3合并重叠数据

8.2数据转换

8.2.1移除重复数据

8.2.2利用函数进行数据转换

8.2.3替换值

8.2.4重命名轴索引

8.2.5离散化数据

8.2.6检测异常值

8.2.7排列和随机采样

8.2.8哑变量

8.3字符串操作

8.3.1内置字符串方法

8.3.2正则表达式

8.3.3Pandas中矢量化的字符串函数

参考文献

习题

第9章数据分析技术

9.1NumPy工具包

9.1.1创建数组

9.1.2打印数组

9.1.3基本运算

9.1.4索引、切片和迭代

9.1.5形状操作

9.1.6复制和视图

9.1.7NumPy实用技巧

9.2Pandas工具包

9.2.1Series

9.2.2DataFrame

9.3ScikitLearn工具包

9.3.1逻辑回归

9.3.2朴素贝叶斯

9.3.3k最近邻

9.3.4决策树

9.3.5支持向量机

9.3.6优化算法参数

参考文献

习题

第10章数据可视化技术

10.1Matplotlib绘图

10.1.1Matplotlib API入门

10.1.2Figure和Subplot的画图方法

10.1.3调整Subplot周围的间距

10.1.4颜色、标记和线型的设置

10.1.5刻度、标签和图例

10.2Mayavi2绘图

10.2.1使用mlab快速绘图

10.2.2Mayavi嵌入到界面中

10.3其他图形化工具

参考文献

习题

第11章Hadoop生态系统

11.1Hadoop系统架构

11.2HDFS分布式文件系统

11.2.1HDFS体系结构

11.2.2HDFS存储结构

11.2.3数据容错与恢复

11.2.4HadoopHDFS安装

11.3分布式存储架构

11.3.1HBase系统架构

11.3.2数据模型与存储模式

11.3.3HBase数据读写

11.3.4数据仓库工具Hive

11.3.5HBase安装与配置

11.4HBase索引与检索

11.4.1二次索引表机制

11.4.2二次索引技术方案

11.5资源管理与作业调度

11.5.1分布式协同管理组件ZooKeeper

11.5.2作业调度与工作流引擎Oozie

11.5.3集群资源管理框架YARN

参考文献

习题

第12章MapReduce计算模型

12.1分布式并行计算系统

12.2MapReduce计算架构

12.3键值对与输入格式

12.4映射与化简

12.5应用编程接口

参考文献

习题

第13章图并行计算框架

13.1图基本概念

13.2BSP模型

13.3Pregel图计算引擎

13.4Hama开源框架

13.5应用编程接口

参考文献

习题

第14章交互式计算模式

14.1数据模型

14.2存储结构

14.3并行查询

14.4开源实现

参考文献

习题

第15章流计算系统

15.1流计算模型

15.2Storm计算架构

15.3工作机制实现

15.4Storm编程接口

参考文献

习题

第16章内存计算模式

16.1分布式缓存体系

16.2内存数据库

16.3内存云MemCloud

16.4Spark内存计算

参考文献

习题

第17章基于医疗数据的临床决策分析应用

17.1国内外研究现状及发展动态分析

17.2技术路线和方案

参考文献

习题

第18章基于医保数据的预测分析应用

18.1数据准备阶段

18.2模型变量选择和转换

18.2.1模型变量的选择

18.2.2模型变量的转换

18.2.3筛选模型变量

18.3建模过程

18.4模型效果

参考文献

习题

第19章互联网电商数据的分析应用

19.1电商流程管理分析

19.1.1行业背景与业务问题

19.1.2分析方法与过程

19.2用户消费行为分析

19.2.1业务问题

19.2.2分析方法与过程

19.3送货速度相关性分析

19.3.1业务问题

19.3.2分析方法与过程

19.4总结

参考文献

习题

第20章金融和经济数据的分析应用

20.1企业对创新经济活动推动的影响分析

20.1.1案例背景

20.1.2分析方法与过程

20.2信贷风险模型评估

20.3中小能源型企业的信用评价分析

20.3.1案例背景

20.3.2分析方法与过程

20.3.3分析结果

参考文献

习题
內容試閱
前言

大数据(Big Data)已被视为硬件、软件、网络之外的第四种计算资源,随着各类大数据应用的兴起,大数据的采集、存储、建模及计算处理已成为分布式计算领域的热门研究课题,也引起产业界极大的兴趣和关注。大数据的计算处理不仅涉及各类数据分析挖掘算法,其计算系统的性能更多依赖于计算模型与计算架构。目前,比较一致的看法是大数据计算系统大致可分为三个层次:
数据存储层、数据处理层和数据应用层。数据存储层提供海量数据存储架构与数据访问界面;
数据处理层提供对数据分析算法和计算模型的支持;
数据应用层则包含各种基于大数据计算分析的应用软件系统。这三个层面都涉及不同的数据模型、计算架构及开发技术标准,目前主流的有两个主线:
以Google为代表的商业产品和以Hadoop为代表的开源技术。在学习和研究大数据计算技术时,需要对上述计算架构、技术和标准有一个总体的了解,这样才能做到不限于一点而把握全局。
针对国家互联网 的战略发展需求,近期国内不少高校新开设了数据科学与大数据计算技术专业,大数据分析与计算成为其主干专业课程,其他如计算机科学与技术、互联网应用系统、物联网工程等专业都需要开设大数据计算课程,因此迫切需要一本对大数据处理与计算有一个较全面的论述、适合高年级本科生或研究生学习的教材,正是基于这种需求,本书作者编著了此书,希望对大数据计算系统的各类分析算法、计算模型、计算架构与开发技术做出一个综合性的介绍与阐述,为大家进一步学习大数据技术及应用开发打下基础。
全书共计20章,第1~3章介绍大数据计算的概念、计算体系总体架构、技术标准等,让读者建立大数据计算的基本概念;
第4~6章介绍数据采集方法、数据建模及各类分析算法;
第7~10章介绍文本数据读取、数据处理与分析、数据可视化技术;
第11章和第12章详细介绍Hadoop计算平台,包括HDFS分布式文件系统与MapReduce计算模型;
第13~16章具体介绍各类大数据计算模型与架构,包括图并行计算、交互式计算、流计算、内存计算等,其中重点阐述了Pregel、Hama、Storm、Spark等计算架构;
第17~20章则介绍了大数据计算技术在医疗保险系统、互联网电子商务、金融信贷系统等领域的应用。本书包含内容较多、篇幅较长,教师在讲授时可根据自己的需要对章节进行选取裁剪。
汤羽教授负责本书的总体结构及第1~3章、第11章和第12章的撰写,林迪副教授负责第4~10章,范爱华副教授负责第13~16章,吴薇薇硕士负责第17~20章。本书部分图片取自互联网,部分文字也参考了网页内容,作者尽可能将引用链接在参考文献罗列中给出,少部分无法给出引用的,作者在此一并致谢。
大数据计算是一个新兴技术领域且仍在高速发展中,新的概念、方法和技术不断涌现。作者因学识有限,本书必然会存在不足,希望得到学界同仁的批评指正,以利我们改进完善。业精于勤荒于嬉、行成于思毁于随,作者愿与科学界同行一起努力在这个领域耕耘。

汤羽2017年7月于蓉城

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.