新書推薦:

《
国家创新指数报告2024
》
售價:HK$
94.6

《
叶长海文集(全十册)
》
售價:HK$
968.0

《
对外汉语教学探究:面向东南亚的汉语教学思考和实践 跨越语言之桥,融通文化之脉
》
售價:HK$
63.8

《
《古籍识小录》上下册
》
售價:HK$
512.6

《
西周基层地域组织研究
》
售價:HK$
63.8

《
中国土司制度史料集成(全十九册)
》
售價:HK$
5478.0

《
守护健康:纽约市公共卫生制度的构建(1866—1920)
》
售價:HK$
96.8

《
岩体边坡锚固结构体系安全性评价指标体系研究
》
售價:HK$
72.6
|
內容簡介: |
大数据技术涵盖面广、体系庞大,涉及不同层面及其相关技术。本书主要介绍大数据应用中的两大关键技术,即数据存储和数据处理与分析。首先介绍大数据的基本概念,然后基于Hadoop架构简要讲解HDFS大数据存储原理,剖析MapReduce和Spark分布式计算模型,重点通过Python语言详细介绍大数据处理、数据可视化和数据分析的方法及相关技术,同时详细介绍PySpark大数据分析的方法,最后通过综合案例演示大数据处理和分析过程。
來源:香港大書城megBookStore,http://www.megbook.com.hk 本书力求较全面地介绍大数据的理论以及Python数据处理和分析的实践,使读者轻松学会利用Python进行大数据分析及应用的技术。本书适合信息类专业开设大数据技术课程时作为教材使用,也适合大数据相关技术人员作为入门参考书使用。
|
目錄:
|
第1章 大数据概述
1.1 什么是大数据
1.2 大数据的发展历程
1.3 大数据关键技术
1.4 大数据计算模式
本章小结
课后习题
第2章 大数据分布式存储
2.1 大数据处理架构 Hadoop
2.2 分布式文件系统 HDFS
本章小结
课后习题
第3章 大数据分布式处理
3.1 MapReduce
3.2 Spark
本章小结
课后习题
第4章 Python语言基础
4.1 Python基本语法
4.2 NumPy简介
4.3 Pandas简介
本章小结
课后习题
第5章 Python基本数据处理
5.1 数据清洗
5.2 数据透视
5.3 数据分组
5.4 离散化处理
5.5 合并数据集
本章小结
课后习题
第6章 Python 数据可视化
6.1 matplotlib绘图基础
6.2 matplotlib可视化实例
6.3 Seaborn绘图
6.4 中文分词及词云图
6.5 图像处理简介
本章小结
课后习题
第7章 数据分析之机器学习
7.1 机器学习基本概念
7.2 机器学习库sklearn简介
7.3 回归算法原理与应用
7.4 支持向量机算法原理与应用
7.5 KNN分类算法原理与应用
7.6 KMeans 聚类算法原理与应用
本章小结
课后习题
第8章 数据分析之文本分析
8.1 距离度量和相似性度量
8.2 文本向量表示及应用
本章小结
课后习题
第9章 PySpark 数据处理及分析
9.1 PySpark数据基本操作
9.2 PySpark 机器学习
9.3 Spark Streaming流处理技术
9.4 Kafka消息发布-订阅系统
本章小结
课后习题
第10章 大数据应用综合案例
10.1 网络爬行器
10.2 案例需求分析
10.3 案例设计
10.4 案例实现
本章小结
课后习题
参考文献
|
|