注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)軟件工程及軟件方法學(xué)Hadoop MapReduce性能優(yōu)化

Hadoop MapReduce性能優(yōu)化

Hadoop MapReduce性能優(yōu)化

定 價:¥35.00

作 者: (法)卡勒德·坦尼爾(Khaled Tannir)
出版社: 暫缺
叢編項:
標(biāo) 簽: 計算機/網(wǎng)絡(luò) 軟件工程/開發(fā)項目管理

ISBN: 9787115381279 出版時間: 2015-02-01 包裝:
開本: 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  大數(shù)據(jù)時代,MapReduce的重要性不言而喻。Hadoop作為MapReduce框架的一個實現(xiàn),受到業(yè)界廣泛的認(rèn)同,并被廣泛部署和應(yīng)用。盡管Hadoop為數(shù)據(jù)開發(fā)工程師入門和編程提供了極大便利,但構(gòu)造一個真正滿足性能要求的MapReduce程序并不簡單。數(shù)據(jù)量巨大是大數(shù)據(jù)工作的現(xiàn)實問題,而對低響應(yīng)時間的要求則時常困擾著數(shù)據(jù)開發(fā)工程師。《Hadoop MapReduce性能優(yōu)化》采用原理與實踐相結(jié)合的方式,通過原理講解影響MapReduce性能的因素,透過實例一步步地教讀者如何發(fā)現(xiàn)性能瓶頸并消除瓶頸,如何識別系統(tǒng)薄弱環(huán)節(jié)并改善薄弱環(huán)節(jié),講解過程中融合了作者在優(yōu)化實踐過程中積累的豐富經(jīng)驗,具有很強的針對性。讀完本書,能讓讀者對Hadoop具有更強的駕馭能力,從而構(gòu)造出性能最優(yōu)的MapReduce程序。Hadoop性能問題既是程序?qū)用娴膯栴},也是系統(tǒng)層面的問題。本書既覆蓋了系統(tǒng)層面的優(yōu)化又覆蓋了程序?qū)用娴膬?yōu)化,非常適合Hadoop管理員和有經(jīng)驗的數(shù)據(jù)開發(fā)工程師閱讀。對于初學(xué)者,本書第1章也作了必要的技術(shù)鋪墊,避免對后面章節(jié)的理解產(chǎn)生梯度。

作者簡介

  作者介紹Khaled Tannirhas從1980年開始從事計算機相關(guān)工作。他是微軟認(rèn)證的開發(fā)人員(MCSD),他在領(lǐng)導(dǎo)軟件解決方案的開發(fā)和實施以及技術(shù)演說方面,擁有20多年技術(shù)經(jīng)驗。如今,他是一名獨立IT咨詢師,并在法國、加拿大的許多大公司擔(dān)任基礎(chǔ)設(shè)施工程師、高級研發(fā)工程師、企業(yè)/解決方案架構(gòu)師等職務(wù)。他在Microsoft .NET、Microsoft服務(wù)器系統(tǒng)、Oracle Java技術(shù)等領(lǐng)域擁有豐富的經(jīng)驗,并且熟練駕馭在線和離線應(yīng)用系統(tǒng)設(shè)計、系統(tǒng)轉(zhuǎn)換以及多語言的互聯(lián)網(wǎng)/桌面應(yīng)用程序開發(fā)。Khaled Tnnirhas總是熱衷于探索和學(xué)習(xí)新的技術(shù),并基于這些技術(shù)在法國、北美、中東等地區(qū)尋求商機。他現(xiàn)在擁有一個IT電子實驗室,實驗室中配備了很多服務(wù)器、監(jiān)控器、開源電子板(如Arduino、Netduino、RaspBerry Pi和.Net Gadgeteer),還有一些裝有Windows Phone、Android和iOS操作系統(tǒng)的智能設(shè)備。2012年,他協(xié)助組織并出席了法國波爾多大學(xué)的復(fù)雜數(shù)據(jù)挖掘國際論壇——EGC 2012。他還是《RavenDB 2.x Beginner’s Guide》一書的作者。譯者簡介范歡動信息技術(shù)領(lǐng)域的一名老兵。1994年獲得電力系統(tǒng)及其自動化專業(yè)學(xué)士學(xué)位。1997年獲得信號與信息處理專業(yè)碩士學(xué)位。興趣廣泛,涉及技術(shù)領(lǐng)域和非技術(shù)領(lǐng)域,但大多淺嘗輒止。參與過航天、通信、電子出版和金融領(lǐng)域的信息處理、軟件架構(gòu)與開發(fā),以第一作者或合作者身份擁有三項實用新型專利,并獲得第十八屆北京市優(yōu)秀青年工程師稱號。曾在佳訊飛鴻電氣股份有限公司、英國雅訊(xarios)北京代表處、博云科技等公司擔(dān)任產(chǎn)品技術(shù)總監(jiān)。目前,終于把全部的興趣聚焦到了數(shù)據(jù)分析,尤其是大數(shù)據(jù)分析上,主要目標(biāo)是利用數(shù)據(jù)分析手段發(fā)現(xiàn)模式,從而降低決策風(fēng)險、改善產(chǎn)業(yè)價值鏈。冀望在大數(shù)據(jù)時代與讀者一起學(xué)習(xí)并分享大數(shù)據(jù)相關(guān)技術(shù),共同發(fā)掘大數(shù)據(jù)帶來的價值。

圖書目錄

目錄
第1章 了解Hadoop MapReduce 1
1.1 MapReduce模型 1
1.2 Hadoop MapReduce概述 3
1.3 Hadoop MapReduce的工作原理 4
1.4 影響MapReduce性能的因素 5
1.5 小結(jié) 8
第2章 Hadoop參數(shù)概述 9
2.1 研究Hadoop參數(shù) 9
2.1.1 配置文件mapred-site.xml 10
2.1.2 配置文件hdfs-site.xml 15
2.1.3 配置文件core-site.xml 18
2.2 Hadoop MapReduce性能指標(biāo) 19
2.3 性能監(jiān)測工具 20
2.3.1 用Chukwa監(jiān)測Hadoop 21
2.3.2 使用Ganglia監(jiān)測Hadoop 21
2.3.3 使用Nagios監(jiān)測Hadoop 21
2.4 用Apache Ambari監(jiān)測Hadoop 22
2.5 小結(jié) 23
第3章 檢測系統(tǒng)瓶頸 25
3.1 性能調(diào)優(yōu) 25
3.2 創(chuàng)建性能基線 27
3.3 識別資源瓶頸 30
3.3.1 識別內(nèi)存瓶頸 30
3.3.2 識別CPU瓶頸 31
3.3.3 識別存儲瓶頸 32
3.3.4 識別網(wǎng)絡(luò)帶寬瓶頸 33
3.4 小結(jié) 34
第4章 識別資源薄弱環(huán)節(jié) 35
4.1 識別集群薄弱環(huán)節(jié) 35
4.1.1 檢查Hadoop集群節(jié)點的健康狀況 36
4.1.2 檢查輸入數(shù)據(jù)大小 37
4.1.3 檢查海量I/O和網(wǎng)絡(luò)阻塞 38
4.1.4 檢查并發(fā)任務(wù)不足 39
4.1.5 檢查CPU過飽和 40
4.2 量化Hadoop集群 41
4.3 正確配置集群 44
4.4 小結(jié) 47
第5章 強化map和reduce任務(wù) 49
5.1 強化map任務(wù) 49
5.1.1 輸入數(shù)據(jù)和塊大小的影響 51
5.1.2 處置小文件和不可拆分文件 51
5.1.3 在Map階段壓縮溢寫記錄 53
5.1.4 計算map任務(wù)的吞吐量 55
5.2 強化reduce任務(wù) 57
5.2.1 計算reduce任務(wù)的吞吐量 58
5.2.2 改善Reduce執(zhí)行階段 59
5.3 調(diào)優(yōu)map和reduce參數(shù) 60
5.4 小結(jié) 64
第6章 優(yōu)化MapReduce任務(wù) 65
6.1 使用Combiner 65
6.2 使用壓縮技術(shù) 68
6.3 使用正確Writable類型 72
6.4 明智地復(fù)用類型 74
6.5 優(yōu)化mapper和reducer的代碼 76
6.6 小結(jié) 78
第7章 最佳實踐與建議 81
7.1 硬件調(diào)優(yōu)與操作系統(tǒng)推薦 81
7.1.1 Hadoop集群檢查表 81
7.1.2 Bios調(diào)優(yōu)檢查表 82
7.1.3 OS配置建議 82
7.2 Hadoop最佳實踐與建議 83
7.2.1 部署Hadoop 83
7.2.2 Hadoop調(diào)優(yōu)建議 84
7.2.3 使用MapReduce模板類代碼 86
7.3 小結(jié) 90

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) hotzeplotz.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號