Hadoop與大數(shù)據(jù)挖掘第2版

定　價(jià)：￥99.00

作　者：	王哲張良均李國輝盧軍梁曉陽著
出版社：	機(jī)械工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787111709473	出版時(shí)間：	2022-07-01	包裝：	平裝-膠訂
開本：	16開	頁數(shù)：		字?jǐn)?shù)：

內(nèi)容簡介

　　本書基于開源Hadoop生態(tài)圈的主流技術(shù)，深入淺出地介紹了大數(shù)據(jù)相關(guān)技術(shù)的原理、知識(shí)點(diǎn)及具體應(yīng)用，適合教師教學(xué)使用和零基礎(chǔ)自學(xué)者使用。通過本書的學(xué)習(xí)，讀者可以理解大數(shù)據(jù)相關(guān)技術(shù)的原理，迅速掌握大數(shù)據(jù)技術(shù)的操作，為后續(xù)數(shù)據(jù)挖掘與分布式計(jì)算平臺(tái)的結(jié)合使用打下良好的技術(shù)基礎(chǔ)。

作者簡介

暫缺《Hadoop與大數(shù)據(jù)挖掘第2版》作者簡介

圖書目錄

前言
第一部分　基礎(chǔ)篇
第1章　淺談大數(shù)據(jù) 2
1.1　大數(shù)據(jù)產(chǎn)生的背景 2
1.1.1　信息化浪潮 2
1.1.2　信息技術(shù)變革 3
1.1.3　數(shù)據(jù)生產(chǎn)方式變革 4
1.1.4　大數(shù)據(jù)的發(fā)展歷程 5
1.1.5　大數(shù)據(jù)時(shí)代的挑戰(zhàn) 6
1.1.6　大數(shù)據(jù)時(shí)代面臨的機(jī)遇 7
1.2　大數(shù)據(jù)概述 7
1.2.1　大數(shù)據(jù)的概念 8
1.2.2　大數(shù)據(jù)的特征 8
1.2.3　大數(shù)據(jù)的影響 8
1.2.4　大數(shù)據(jù)與互聯(lián)網(wǎng)、云計(jì)算的關(guān)系 11
1.3　大數(shù)據(jù)挖掘概述 11
1.3.1　數(shù)據(jù)挖掘的概念 11
1.3.2　大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘 12
1.3.3　數(shù)據(jù)挖掘的過程 12
1.3.4　數(shù)據(jù)挖掘常用工具 13
1.4　大數(shù)據(jù)平臺(tái) 14
1.5　小結(jié) 15
第2章　大數(shù)據(jù)基礎(chǔ)架構(gòu)Hadoop——實(shí)現(xiàn)大數(shù)據(jù)分布式存儲(chǔ)與計(jì)算 16
2.1　Hadoop技術(shù)概述 16
2.1.1　Hadoop的發(fā)展歷史 16
2.1.2　Hadoop的特點(diǎn) 17
2.1.3　Hadoop存儲(chǔ)框架—HDFS 18
2.1.4　Hadoop計(jì)算引擎—MapReduce 20
2.1.5　Hadoop資源管理器—YARN 21
2.2　Hadoop應(yīng)用場景介紹 23
2.3　Hadoop生態(tài)系統(tǒng) 23
2.4　Hadoop安裝配置 24
2.4.1　創(chuàng)建Linux虛擬機(jī) 25
2.4.2　設(shè)置固定IP 33
2.4.3　遠(yuǎn)程連接虛擬機(jī) 35
2.4.4　配置本地yum源及安裝常用軟件 38
2.4.5　在Linux下安裝Java 42
2.4.6　修改配置文件 43
2.4.7　克隆虛擬機(jī) 48
2.4.8　配置SSH免密登錄 50
2.4.9　配置時(shí)間同步服務(wù) 51
2.4.10　啟動(dòng)關(guān)閉集群 53
2.5　Hadoop HDFS文件操作命令 54
2.5.1　創(chuàng)建目錄 54
2.5.2　上傳和下載文件 55
2.5.3　查看文件內(nèi)容 56
2.5.4　刪除文件或目錄 56
2.6　Hadoop MapReduce編程開發(fā) 57
2.6.1　使用IDEA搭建MapReduce開發(fā)環(huán)境 57
2.6.2　通過詞頻統(tǒng)計(jì)了解MapReduce執(zhí)行流程 67
2.6.3　通過源碼認(rèn)識(shí)MapReduce編程 68
2.7　場景應(yīng)用：電影網(wǎng)站用戶影評(píng)分析 74
2.7.1　了解數(shù)據(jù)字段并分析需求 74
2.7.2　多維度分析用戶影評(píng) 76
2.8　小結(jié) 91
第3章　數(shù)據(jù)倉庫Hive——實(shí)現(xiàn)大數(shù)據(jù)查詢與處理 92
3.1　Hive技術(shù)概述 92
3.1.1　Hive簡介 92
3.1.2　Hive的特點(diǎn) 93
3.1.3　Hive的架構(gòu) 93
3.2　Hive應(yīng)用場景介紹 94
3.3　Hive安裝配置 95
3.3.1　配置MySQL數(shù)據(jù)庫 95
3.3.2　配置Hive數(shù)據(jù)倉庫 96
3.4　HiveQL查詢語句 99
3.4.1　Hive的基礎(chǔ)數(shù)據(jù)類型 99
3.4.2　創(chuàng)建與管理數(shù)據(jù)庫 100
3.4.3　創(chuàng)建與管理數(shù)據(jù)表 101
3.4.4　Hive表的數(shù)據(jù)裝載 108
3.4.5　掌握select查詢 111
3.4.6　了解運(yùn)算符的使用 112
3.4.7　掌握Hive內(nèi)置函數(shù) 115
3.5　Hive自定義函數(shù)的使用 120
3.5.1　了解Hive自定義函數(shù) 120
3.5.2　自定義UDF 121
3.5.3　自定義UDAF 124
3.5.4　自定義UDTF 127
3.6　場景應(yīng)用：基站掉話率排名統(tǒng)計(jì) 129
3.6.1　創(chuàng)建基站數(shù)據(jù)表并導(dǎo)入數(shù)據(jù) 130
3.6.2　統(tǒng)計(jì)基站掉話率 130
3.7　小結(jié) 132
第4章　分布式協(xié)調(diào)框架ZooKeeper——實(shí)現(xiàn)應(yīng)用程序分布式協(xié)調(diào)服務(wù) 133
4.1　ZooKeeper技術(shù)概述 133
4.1.1　ZooKeeper簡介 133
4.1.2　ZooKeeper的特點(diǎn) 135
4.2　ZooKeeper應(yīng)用場景介紹 135
4.3　ZooKeeper分布式安裝配置 136
4.4　ZooKeeper客戶端常用命令 138
4.4.1　創(chuàng)建znode 138
4.4.2　獲取znode數(shù)據(jù) 138
4.4.3　監(jiān)視znode 139
4.4.4　刪除znode 140
4.4.5　設(shè)置znode權(quán)限 140
4.5　ZooKeeper Java API操作 142
4.5.1　創(chuàng)建IDEA工程并連接ZooKeeper 142
4.5.2　獲取、修改和刪除znode數(shù)據(jù) 143
4.6　場景應(yīng)用：服務(wù)器上下線動(dòng)態(tài)監(jiān)控 146
4.7　小結(jié) 149
第5章　分布式數(shù)據(jù)庫HBase——實(shí)現(xiàn)大數(shù)據(jù)存儲(chǔ)與快速查詢 151
5.1　HBase技術(shù)概述 151
5.1.1　HBase的發(fā)展歷程 151
5.1.2　HBase的特點(diǎn) 152
5.1.3　HBase的核心功能模塊 153
5.1.4　HBase的數(shù)據(jù)模型 155
5.1.5　設(shè)計(jì)表結(jié)構(gòu)的原則 155
5.2　HBase應(yīng)用場景介紹 156
5.3　HBase安裝配置 157
5.4　HBase Shell操作 159
5.4.1　創(chuàng)建與刪除表 159
5.4.2　插入數(shù)據(jù) 161
5.4.3　查詢數(shù)據(jù) 162
5.4.4　刪除數(shù)據(jù) 163
5.4.5　掃描全表 163
5.4.6　按時(shí)間版本查詢記錄 164
5.5　HBase高級(jí)應(yīng)用 165
5.5.1　IDEA開發(fā)環(huán)境搭建 165
5.5.2　HBase Java API使用 169
5.5.3　HBase與MapReduce交互 174
5.6　場景應(yīng)用：用戶通話記錄數(shù)據(jù)存儲(chǔ)設(shè)計(jì)及查詢 180
5.6.1　設(shè)計(jì)通話記錄數(shù)據(jù)結(jié)構(gòu) 180
5.6.2　查詢用戶通話記錄 181
5.7　小結(jié) 187
第6章　分布式計(jì)算框架Spark——實(shí)現(xiàn)大數(shù)據(jù)分析與挖掘 189
6.1　Spark技術(shù)概述 189
6.1.1　Spark的發(fā)展歷史 189
6.1.2　Spark的特點(diǎn) 190
6.1.3　Spark生態(tài)圈 191
6.2　Spark應(yīng)用場景介紹 192
6.3　Spark集群安裝配置 192
6.4　Spark Core—底層基礎(chǔ)框架 196
6.4.1　Spark集群架構(gòu) 196
6.4.2　Spark作業(yè)運(yùn)行模式 197
6.4.3　彈性分布式數(shù)據(jù)集RDD 199
6.4.4　RDD算子基礎(chǔ)操作 200
6.4.5　場景應(yīng)用：房屋銷售數(shù)據(jù)分析 201
6.5　Spark SQL—查詢引擎框架 205
6.5.1　Spark SQL概述 205
6.5.2　DataFrame基礎(chǔ)操作 205
6.5.3　場景應(yīng)用：廣告