注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡行業(yè)軟件及應用MapReduce設計模式

MapReduce設計模式

MapReduce設計模式

定 價:¥49.00

作 者: (美)Donald Miner,Adam Shook 著; 徐釗,趙重慶 譯
出版社: 人民郵電出版社
叢編項:
標 簽: 計算機與互聯(lián)網(wǎng) 專用軟件

ISBN: 9787115360946 出版時間: 2014-08-01 包裝: 平裝
開本: 16開 頁數(shù): 213 字數(shù):  

內(nèi)容簡介

  MapReduce作為一種分布式海量數(shù)據(jù)處理的編程框架,已經(jīng)得到業(yè)界的廣泛關注。隨著Hadoop的普及,MapReduce目前已經(jīng)成為海量數(shù)據(jù)處理的最基礎但也是最重要的方法之一?!禡apReduce設計模式》是一本關于設計模式的書,為讀者提供解決問題的模板或通用指南。書中主要介紹編程模式,即如何利用MapReduce框架解決一類問題,重在提供解決問題的方法和思路。作者花大量篇幅介紹各種模式的原理及實現(xiàn)機制,并給出相應的應用實例,讓讀者對每種模式能有更直觀的理解。由于本書不會過多涉及底層框架及MapReduce API,所以希望讀者閱讀《MapReduce設計模式》之前,能夠對Hadoop系統(tǒng)有所了解,知道如何編寫MapReduce程序,并了解MapReduce程序框架的工作原理?!禡apReduce設計模式》面向中高級MapReduce開發(fā)者,涵蓋了絕大部分MapReduce編程可能面對的場景,相信初學者和專家同樣可以在本書中得到一些啟示。

作者簡介

  Donald Miner目前是EMC Greenplum的解決方案架構師,為實現(xiàn)與使用基于Greenplum的大數(shù)據(jù)系統(tǒng)的用戶提供咨詢和幫助。在加入Greenplum之前,Miner博士作為承包商為美國政府部署和構建了多個規(guī)模巨大且涉及關鍵任務的Hadoop集群。他還參與了教學,在馬里蘭大學巴爾的摩分校(UMBC)講授Hadoop方面的業(yè)界前沿相關的課程以及各種人工智能課程。Miner博士在UMBC獲得了計算機科學的博士學位,讀博士期間他的研究主題為機器學習,博士論文的主題是多智能體系統(tǒng)。Adam Shook是ClearEdge IT Solutions公司的軟件工程師,從事一些大數(shù)據(jù)技術工作,如Hadoop、Accumulo、Pig以及ZooKeeper。Shook在馬里蘭大學巴爾的摩分校(UMBC)獲得了計算機科學的學士學位,并得到了一份為游戲工作室構建一個全新的高性能圖像引擎的工作。為了尋求新的挑戰(zhàn),他在UMBC就讀研究生,主要專注的研究方向是分布式計算的相關技術。他很快找到了一份開發(fā)工作,作為美國政府承包商,從事大規(guī)模的Hadoop部署。Shook參與了Hadoop和Pig的開發(fā)及培訓課程的指導。在繁忙工作的間隙他喜歡參與相關項目,玩視頻游戲。

圖書目錄

目 錄
第1章 設計模式與MapReduce 1
1.1 設計模式 2
1.2 MapReduce簡史 3
1.3 MapReduce和Hadoop簡介 4
1.4 Hadoop示例:單詞計數(shù) 6
1.5 Pig和Hive 10
第2章 概要模式 12
2.1 數(shù)值概要 12
2.1.1 模式描述 12
2.1.2 數(shù)值概要示例 16
2.2 倒排索引概要 30
2.2.1 模式描述 30
2.2.2 倒排索引示例 32
2.3 計數(shù)器計數(shù) 34
2.3.1 模式描述 34
2.3.2 計數(shù)器計數(shù)示例 36
第3章 過濾模式 39
3.1 過濾 40
3.1.1 模式描述 40
3.1.2 過濾示例 43
3.2 布隆過濾 45
3.2.1 模式描述 45
3.2.2 布隆過濾器示例 48
3.3 Top 10 53
3.3.1 模式描述 53
3.3.2 Top 10示例 58
3.4 去重 60
3.4.1 模式描述 60
3.4.2 去重示例 63
第4章 數(shù)據(jù)組織模式 65
4.1 分層結構 65
4.1.1 模式描述 65
4.1.2 分層結構示例 69
4.2 分區(qū) 76
4.2.1 模式描述 76
4.2.2 分區(qū)示例 79
4.3 分箱 81
4.3.1 模式描述 81
4.3.2 分箱示例 83
4.4 全排序 85
4.4.1 模式描述 85
4.4.2 全排序示例 88
4.5 混排 92
4.5.1 模式描述 92
4.5.2 混排示例 93
第5章 連接模式 96
5.1 連接簡介 97
5.2 reduce端連接 102
5.2.1 模式描述 102
5.2.2 reduce端連接示例 104
5.2.3 使用布隆過濾器的reduce端連接 110
5.3 復制連接 112
5.3.1 模式描述 112
5.3.2 復制連接示例 114
5.4 組合連接 116
5.4.1 模式描述 116
5.4.2 組合連接示例 119
5.5 笛卡兒積 121
5.5.1 模式描述 121
5.5.2 笛卡兒積示例 124
第6章 元模式 131
6.1 作業(yè)鏈 131
6.1.1 關于驅動程序 132
6.1.2 作業(yè)鏈示例 133
6.1.3 關于shell腳本 142
6.1.4 關于JobControl 145
6.2 鏈折疊 149
6.2.1 ChainMapper方法和ChainReducer方法 153
6.2.2 鏈折疊示例 153
6.3 作業(yè)歸并 158
作業(yè)歸并示例 160
第7章 輸入和輸出模式 166
7.1 在Hadoop中自定義輸入和輸出 166
7.1.1 InputFormat 167
7.1.2 RecordReader 168
7.1.3 OutputFormat 169
7.1.4 RecordWriter 170
7.2 生成數(shù)據(jù) 170
7.2.1 模式描述 170
7.2.2 生成數(shù)據(jù)示例 172
7.3 外部源輸出 177
7.3.1 模式描述 177
7.3.2 外部源輸出示例 179
7.4 外部源輸入 183
7.4.1 模型描述 183
7.4.2 外部源輸入示例 185
7.5 分區(qū)裁剪 190
7.5.1 模式描述 190
7.5.2 分區(qū)裁剪示例 192
第8章 最后的思考與設計模式的未來 203
8.1 數(shù)據(jù)的本質(zhì)趨勢 203
8.1.1 圖像、音頻和視頻 203
8.1.2 流式數(shù)據(jù) 204
8.2 YARN的影響 204
8.3 作為庫或者組件的模式 205
8.4 讀者可以幫到什么 205
附錄 布隆過濾器 207

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) hotzeplotz.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號