登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入   新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書

『簡體書』Spark高级数据分析(影印版)

書城自編碼: 2662945
分類:簡體書→大陸圖書→計算機/網絡數據庫
作者: [美]里扎 等著,
國際書號(ISBN): 9787564159108
出版社: 东南大学出版社
出版日期: 2015-09-01

頁數/字數: 260页
書度/開本: 16开 釘裝: 平装

售價:HK$ 103.6

我要買

share:

** 我創建的書架 **
未登入.


新書推薦:
无法忍受谎言的人:一个调查记者的三十年
《 无法忍受谎言的人:一个调查记者的三十年 》

售價:HK$ 63.8
战争社会学专论
《 战争社会学专论 》

售價:HK$ 118.8
剑桥意大利戏剧史(剑桥世界戏剧史译丛)
《 剑桥意大利戏剧史(剑桥世界戏剧史译丛) 》

售價:HK$ 162.8
教育何用:重估教育的价值
《 教育何用:重估教育的价值 》

售價:HK$ 65.8
理想城市:环境与诗性
《 理想城市:环境与诗性 》

售價:HK$ 85.8
大模型推荐系统:算法原理、代码实战与案例分析
《 大模型推荐系统:算法原理、代码实战与案例分析 》

售價:HK$ 97.9
逆风翻盘  危机时代的亿万赢家 在充满危机与风险的世界里,学会与之共舞并找到致富与生存之道
《 逆风翻盘 危机时代的亿万赢家 在充满危机与风险的世界里,学会与之共舞并找到致富与生存之道 》

售價:HK$ 137.5
工业互联网导论
《 工业互联网导论 》

售價:HK$ 97.9

 

建議一齊購買:

+

HK$ 109.2
《Spark机器学习》
+

HK$ 120.3
《Spark大数据处理技术》
+

HK$ 182.9
《机器学习实战【利用Python透析主流机器学习算法,配合日常》
內容簡介:
在里扎等编著的《Spark高级数据分析(影印版 )(英文版)》这本实用书籍中,4位Cloude阳公司 的数据科学家讲解了一系列自包含模式,用于在 Spark中进行大规模数据分析。本书作者们把Spark、 统计原理和现实世界中的数据集合放到一起,通过实 例教你如何解决数据分析问题。
你将从Spark及其生态系统的介绍开始,然后深 入运用标准技巧的模式——归类、聚合过滤及异常检 测等,这些技巧被用于生物基因、安全和金融等行业 。如果你对机器学习和统计学有初步了解,使用Java 、Pytton或者Scala编程,就会发现这些模式对于你 的数据分析应用程序会非常有用。
模式包括: 音乐推荐和Audioscrobbler数据集合 用决策树分析森林覆盖 用K均值聚合检测网络流量中的异常 用潜在语义分析理解维基百科 用GraphX分析共生网络 用地理空间和瞬态数据分析纽约市出租车路线的 数据 用蒙地卡罗模拟来估计金融风险 分析基因数据和BDG项目 通过PySpark和Thunder分析神经造影数据
目錄
Foreword
Preface
1. Analyzing Big Data
The Challenges of Data Science
Introducing Apache Spark
About This Book
2. Introduction to Data Analysis with Scala and Spark
Scala for Data Scientists
The Spark Programming Model
Record Linkage
Getting Started: The Spark Shell and SparkContext
Bringing Data from the Cluster to the Client
Shipping Code from the Client to the Cluster
Structuring Data with Tuples and Case Classes
Aggregations
Creating Histograms
Summary Statistics for Continuous Variables
Creating Reusable Code for Computing Summary Statistics
Simple Variable Selection and Scoring
Where to Go from Here
3. Recommending Music and the Audioscrobbler Data Set
Data Set
The Alternating Least Squares Recommender Algorithm
Preparing the Data
Building a First Model
Spot Checking Recommendations
Evaluating Recommendation Quality
Computing AUC
Hyperparameter Selection
Making Recommendations
Where to Go from Here
4. Predicting Forest Cover with Decision Trees
Fast Forward to Regression
Vectors and Features
Training Examples
Decision Trees and Forests
Covtype Data Set
Preparing the Data
A First Decision Tree
Decision Tree Hyperparameters
Tuning Decision Trees
Categorical Features Revisited
Random Decision Forests
Making Predictions
Where to Go from Here
5. Anomaly Detection in Network Traffic with K-means Clustering
Anomaly Detection
K-means Clustering
Network Intrusion
KDD Cup 1999 Data Set
A First Take on Clustering
Choosing k
Visualization in R
Feature Normalization
Categorical Variables
Using Labels with Entropy
Clustering in Action
Where to Go from Here
6. Understanding Wikipedia with Latent Semantic Analysis
The Term-Document Matrix
Getting the Data
Parsing and Preparing the Data
Lemmatization
Computing the TF-IDFs
Singular Value Decomposition
Finding Important Concepts
Querying and Scoring with the Low-Dimensional Representation
Term-Term Relevance
Document-Document Relevance
Term-Document Relevance
Multiple-Term Queries
Where to Go from Here
7. Analyzing Co-occurrence Networks with GraphX
The MEDLINE Citation Index: A Network Analysis
Getting the Data
Parsing XML Documents with Scala''s XML Library
Analyzing the MeSH Major Topics and Their Co-occurrences
Constructing a Co-occurrence Network with GraphX
Understanding the Structure of Networks
Connected Components
Degree Distribution
Filtering Out Noisy Edges
Processing EdgeTriplets
Analyzing the Filtered Graph
Small-World Networks
Cliques and Clustering Coefficients
Computing Average Path Length with Pregel
Where to Go from Here
8. 6eospatial and Temporal Data Analysis on the New York City Taxi Trip Data
Getting the Data
Working with Temporal and Geospatial Data in Spark
Temporal Data with JodaTime and NScalaTime
Geospatial Data with the Esri Geometry API and Spray
Exploring the Esri Geometry API
Intro to GeoJSON
Preparing the New York City Taxi Trip Data
Handling Invalid Records at Scale
Geospatial Analysis
Sessionization in Spark
Building Sessions: Secondary Sorts in Spark
Where to Go from Here
9. Estimating Financial Risk through Monte Carlo Simulation
Terminology
Methods for Calculating VaR
Variance-Covariance
Historical Simulation
Monte Carlo Simulation
Our Model
Getting the Data
Preprocessing
Determining the Factor Weights
Sampling
The Multivariate Normal Distribution
Running the Trials
Visualizing the Distribution of Returns
Evaluating Our Results
Where to Go from Here
10. Analyzing Genomics Data and the BDG Project
Decoupling Storage from Modeling
Ingesting Genomics Data with the ADAM CLI
Parquet Format and Columnar Storage
Predicting Transcription Factor Binding Sites from ENCODE Data
Querying Genotypes from the 1000 Genomes Project
Where to Go from Here
11. Analyzing Neuroimaging Data with PySpark and Thunder
Overview of PySpark
PySpark Internals
Overview and Installation of the Thunder Library
Loading Data with Thunder
Thunder Core Data Types
Categorizing Neuron Types with Thunder
Where to Go from Here
A.Deeper into Spark
B.Upcoming MLlib Pipelines API
Index

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.