《Hadoop+Spark大數據巨量分析與機器學習整合開發實戰》 - 林大貴 - 博碩 - 香港大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

『繁體書』Hadoop+Spark大數據巨量分析與機器學習整合開發實戰

書城自編碼： 2671690
分類：繁體書 →台灣書
作者：林大貴
國際書號(ISBN)： 9789864340545
出版社：博碩
出版日期： 2015-11-03
版次：初版
頁數/字數： 528頁
書度/開本： 17x23cm

售價：HK$ 206.7

** 我創建的書架 **
未登入.

新書推薦：

《现代日本简史近现代日本发展之路的通俗历史读本解析日本百年来的兴盛与阵痛》
售價：HK$ 96.8

《墨菲定律受益一生的黄金法则和人生定律心理学基础入门》
售價：HK$ 53.9

《企业国家：一部日本经济史》
售價：HK$ 140.8

《汉简《苍颉篇》研究》
售價：HK$ 140.8

《抑郁症（精装全彩版）牛津科普系列：拨开抑郁症的迷雾，探索情绪背后的深层真相》
售價：HK$ 96.8

《天才的盛会：文艺复兴艺术三百年》
售價：HK$ 107.8

《裘锡圭学术文集（全六卷）》
售價：HK$ 1078.0

《从马可波罗到马戛尔尼：十三世纪以降的欧亚世界》
售價：HK$ 74.8

內容簡介：

◆技術為金融財務、行銷分析、商業趨勢預測帶來全新的變革
◆詳實的安裝設定與程式編寫說明降低學習入門門檻
◆可單機執行或以實機／虛擬機器建立多台演算陣列
◆具備大量實務案例分析與程式碼範例實作
大數據分析與機器學習人工智慧帶來資訊科技革命的第五波新浪潮
創新產業
大量商機
人才需求
一般人可能會認為大數據需要很多台機器的環境才能學習，但是本書透過虛擬機器的方法，就能在自家電腦演練建立Hadoop叢集，並且建立Spark開發環境。
以實機操作介紹HadoopMapReduce與HDFS基本概念，以及SparkRDD與MapReduce基本觀念。
以大數據分析實務案例：MoiveLens（電影喜好推薦引擎）、StumbleUpon（網頁二元分類）、CovType（林相土地演算）、BikeSharing（Ubike類租賃預測分析）。
配合範例程式碼來介紹各種機器學習演算法，示範如何擷取資料、訓練資料、建立模型、預測結果，由淺而深介紹Spark機器學習。
大數據對每個領域都造成影響。在商業、經濟及其他領域中，將大量資料進行分析後，就可得出許多資料關聯性。可用於預測商業趨勢、行銷研究、金融財務、疾病研究、打擊犯罪等。大數據對每一個公司的決策方式將發生變革－決策方式將基於資料和分析的結果，而不是依靠經驗和直覺。
資訊科技浪潮第一波是大型電腦，第二波是個人電腦，第三波是網路，第四波是社群媒體，第五波科技則是「大數據」。每一波的的資訊科技浪潮，總是帶來工作與生活方式的改變，創造大量商機、新的產業、大量的工作機會。像是在網路時代，創造了Google、Amazon等大公司，以及無數.com公司。
每一波浪潮開始時，需求的相關人才最多，但是此時也是相關人才供應最少。因此對個人而言，如果能在浪潮興起時就投入，往往成果最豐碩，並且有機會占有重要職位。像是網路剛興起時，每個公司都需要建立網站，但是相對這方面的人才不夠。那時候能撰寫網頁相關程式語言的工程師就能夠獲得高薪。但是後來投入的人越來越多，這方面的工程師就沒有那麼吃香了。
之前的科技浪潮，也許你沒有機會躬逢其盛，或是沒有機會在浪潮初期進入。但是大數據的浪潮方興未艾，正是進入的好時機。根據IBM調查預估，大數據目前的商機是71億美元，並將以每年增長20％速度持續成長，預計2015年達到180億美元。機會是給有準備的人，學會了大數據分析的相關技能，讓你有機會獲得更好的薪資與發展前景。根據美國調查機構RobertHalfTechnology2016年趨勢報告，在美國大數據工程師，薪水年成長8.9%，年薪大約13萬至18萬美金（約新台幣429萬元~594萬元）。因為人才短缺，企業不惜重金挖角。（你可以在google搜尋RobertHalfTechnology2016就可以下載此調查報告）
本書的主題是Haddop+Spark大數據分析與機器學習。Hadoop大家已經知道是運用最多的大數據平台，然而Spark異軍突起，與Hadoop相容而且執行速度更快，各大公司也開始加入Spark開發。例如IBM加入ApacheSpark社群打算培育百萬名資料科學家。Google與微軟也分別應用了Spark的功能來建置服務、發展大數據分析雲端與機器學習平臺。這些大公司的加入，也意味著未來更多公司會採用Hadoop+Spark進行大數據資料分析。
然而目前市面上雖然很多大數據的書，但是多半偏向理論或應用層面的介紹，網路上的資訊雖然很多，但是也很雜亂。本書介紹希望能夠用淺顯易懂原理說明，再加上實機操作、範例程式，能夠降低大數據技術的學習門檻，帶領讀者進入大數據與機器學習的領域。當然整個大數據的生態系非常龐大，需要學習的東西太多。希望讀者能透過本書有了基本概念後，比較容易踏入這門領域，能繼續深入研究其他大數據的相關技術。

關於作者：

林大貴
作者從事IT產業多年，涉獵系統設計、網站開發、數位行銷與商業智慧等多領域，具備豐富實務開發經驗。

Chapter01大數據與機器學習
1-1大數據定義
1-2Hadoop簡介
1-3HadoopHDFS分散式檔案系統
1-4HadoopMapReduce介紹
1-5Spark介紹
1-6機器學習介紹
Chapter02VirtualBox虛擬機器軟體安裝
2-1VirtualBox下載安裝
2-2設定VirtualBox儲存資料夾
2-3在VirtualBox建立虛擬機器
Chapter03UbuntuLinux作業系統安裝
3-1下載Ubuntu安裝光碟檔案
3-2在VirtualBox設定Ubuntu虛擬光碟檔案
3-3開始安裝Ubuntu
3-4啟動Ubuntu
3-5安裝GuestAdditions
3-6設定預設輸入法
3-7設定終端機程式
3-8設定終端機白底黑字
3-9設定共用剪貼簿
Chapter04HadoopSingleNodeCluster安裝
4-1安裝JDK
4-2設定SSH無密碼登入
4-3下載安裝Hadoop
4-4設定Hadoop環境變數
4-5修改Hadoop組態設定檔
4-6建立與格式化HDFS目錄
4-7啟動Hadoop
4-8開啟HadoopResourceManagerWeb介面
4-9NameNodeHDFSWeb介面
Chapter05HadoopMultiNodeCluster安裝
5-1複製SingleNodeCluster到data1
5-2設定data1伺服器
5-3複製data1伺服器至data2、data3、master
5-4設定data2、data3伺服器
5-5設定master伺服器
5-6master連線至data1、data2、data3建立HDFS目錄
5-7建立與格式化NameNodeHDFS目錄
5-8啟動HadoopMultiNodeCluster
5-9開啟HadoopResourceManagerWeb介面
5-10開啟NameNodeHDFSWeb介面
Chapter06HadoopHDFS命令介紹
6-1啟動HadoopMulti-NodeCluster
6-2建立與查看HDFS目錄
6-3從本機複製檔案到HDFS
6-4將HDFS上的檔案複製到本機
6-5複製與刪除HDFS檔案
6-6HadoopHDFSWebUI介面瀏覽HDFS
Chapter07HadoopMapReduce介紹
7-1wordCount.java介紹
7-2編輯wordCount.java
7-3編譯wordCount.java
7-4下載測試文字檔
7-5上傳文字檔至HDFS
7-6執行wordCount.java
7-7查看執行結果
7-8HadoopMapReduce的缺點
Chapter08Spark安裝介紹
8-1SPARK的cluster模式架構圖
8-2Scala介紹與安裝
8-3安裝SPARK
8-4啟動spark-shell互動介面
8-5設定spark-shell顯示訊息
8-6啟動Hadoop
8-7本機執行Spark-shell程式
8-8在HadoopYARN執行spark-shell
8-9建置Sparkstandalonecluster執行環境
8-10在Sparkstandalone執行spark-shell
Chapter09SparkRDD介紹
9-1RDD的特性
9-2基本RDD「轉換」運算
9-3多個RDD「轉換」運算
9-4基本「動作」運算
9-5RDDKey-Value基本「轉換」運算
9-6多個RDDKey-Value「轉換」運算
9-7Key-Value「動作」運算
9-8Broadcast廣播變數
9-9accumulator累加器
9-10RDDPersistence持久化
9-11使用Spark建立WordCount
9-12SparkWordCount詳細解說
Chapter10Spark整合開發環境介紹
10-1下載與安裝ScalaIDE
10-2下載專案所需要的Library
10-3啟動eclipse
10-4建立新Spark專案
10-5設定專案程式庫
10-6新增scala程式
10-7下載WordCount測試資料
10-8建立WordCount.scala
10-9編譯WordCount.scala程式
10-10執行WordCount.scala程式
10-11匯出jar檔
10-12spark-submit詳細介紹
10-13在本機local模式執行WordCount程式
10-14在hadoopyarn-client執行WordCount程式
10-15WordCount程式在SparkStandaloneCluster執行
10-16本書範例程式安裝說明
Chapter11建立推薦引擎
11-1推薦演算法介紹
11-2「推薦引擎」大數據分析使用情境
11-3ALS推薦演算法介紹
11-4ml-100k推薦資料下載與介紹
11-5使用spark-shell匯入ml-100k資料
11-6查看匯入的資料
11-7使用ALS.train進行訓練
11-8使用模型進行推薦
11-9顯示推薦的電影的名稱
11-10建立Recommend專案
11-11Recommend.scala程式碼
11-12建立PrepareData資料準備
11-13recommend推薦程式碼
11-14執行Recommend.scala
11-15建立AlsEvalution.scala調校訓練參數
11-16建立PrepareData資料準備
11-17進行訓練評估
11-18執行AlsEvaluation
11-19修改Recommend.scala為最佳參數組合
Chapter12StumbleUpon資料集介紹
12-1StumbleUpon資料集
12-2下載StumbleUpon資料
12-3以LibreOfficeCalc試算表查看train.tsv
12-4二元分類演算法
Chapter13決策樹二元分類
13-1決策樹介紹
13-2建立Classification專案
13-3建立RunDecisionTreeBinary.scala程式
13-4資料準備階段
13-5訓練評估階段
13-6預測階段
13-7執行RunDecisionTreeBinary.scala
13-8修改RunDecisionTreeBinary調校訓練參數
13-9RunDecisionTreeBinary執行參數調校程式
13-10RunDecisionTreeBinary不執行參數調校程式
Chapter14邏輯迴歸二元分類
14-1邏輯迴歸分析介紹
14-2RunLogisticRegressionWithSGDBinary.scala程式說明
14-3執行RunDecisionTreeRegression.scala進行參數調校
14-4執行RunDecisionTreeRegression.scala不進行參數調校
Chapter15支援向量機器SVM二元分類
15-1支援向量機器SVM演算法基本概念
15-2RunSVMWithSGDBinary.scala程式說明
15-3執行SVMWithSGD.scala進行參數調校
15-4執行SVMWithSGD.scala不進行參數調校
Chapter16單純貝氏二元分類
16-1單純貝氏分析原理介紹
16-2RunNaiveBayesBinary.scala程式說明
16-3執行NaiveBayes.scala進行參數調校
16-4執行NaiveBayes.scala不進行參數調校
Chapter17決策樹多元分類
17-1「森林覆蓋樹種」大數據問題分析情境
17-2UCICovertype資料集介紹
17-3下載與查看資料
17-4建立RunDecisionTreeMulti.scala
17-5修改RunDecisionTreeMulti.scala程式
17-6執行RunDecisionTreeMulti.scala進行參數調校
17-7執行RunDecisionTreeMulti.scala不進行參數調校
Chapter18決策樹迴歸分析
18-1BikeSharing大數據問題分析
18-2BikeSharing資料集
18-3下載與查看資料
18-4建立RunDecisionTreeRegression.scala
18-5修改RunDecisionTreeRegression.scala
18-6執行RunDecisionTreeRegression.scala執行參數調校
18-7執行RunDecisionTreeRegression.scala不執行參數調校
Chapter19使用ApacheZeppelin資料視覺化
19-1ApacheZeppelin介紹
19-2安裝Zeppelin前的準備
19-3ApacheZeppelin安裝
19-4啟動ApacheZeppelin
19-5建立新的Notebook
19-6使用Zeppelin執行Shell命令
19-7建立暫存資料表「UserTable」
19-8使用Zeppelin執行年齡統計SparkSQL
19-9使用Zeppelin執行性別統計SparkSQL
19-10依照職業統計
19-11SparkSQL加入文字方塊輸入參數
19-12加入選項參數
19-13Zeppelin在firefox瀏覽器使用的問題
19-14同時顯示多個統計欄位
19-15工具列設定
19-16設定段落標題
19-17設定Paragraph段落寬度
19-18設定顯示模式

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　海外用户

	megBook.com.hk
Copyright © 2013 - 2025 （香港）大書城有限公司　 All Rights Reserved.