注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫數(shù)據(jù)庫理論圖解大數(shù)據(jù)分析

圖解大數(shù)據(jù)分析

圖解大數(shù)據(jù)分析

定 價(jià):¥68.00

作 者: 渡部徹太郎 著
出版社: 化學(xué)工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787122431943 出版時(shí)間: 2023-07-01 包裝: 平裝
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  本書通過大量的繪圖和詳細(xì)的說明,從技術(shù)層面以簡單易懂的形式講述大數(shù)據(jù)分析。這是一本從系統(tǒng)結(jié)構(gòu)搭建到實(shí)際開發(fā)逐步推進(jìn)的教科書。書中的知識(shí)點(diǎn)包括大數(shù)據(jù)分析時(shí)所需的分布式處理、機(jī)器學(xué)習(xí),以及分布式存儲(chǔ)、分布式計(jì)算、開發(fā)時(shí)可能遇到的瓶頸,還包括大數(shù)據(jù)的收集、積累、活用以及元數(shù)據(jù)的使用與管理等。本書適合大數(shù)據(jù)領(lǐng)域的廣大愛好者、商務(wù)人士和工程技術(shù)人員用于了解、學(xué)習(xí)、掌握、運(yùn)用大數(shù)據(jù)技術(shù)進(jìn)行大數(shù)據(jù)分析,也適合作為該領(lǐng)域的職業(yè)院校和高校本科相關(guān)專業(yè)的教材及研究生輔助教材。

作者簡介

  無

圖書目錄

第1章 大數(shù)據(jù)分析概述
1.1 大數(shù)據(jù)和分布式處理 
網(wǎng)絡(luò)的普及導(dǎo)致了大量數(shù)據(jù)的增加 002
1.2 非結(jié)構(gòu)化數(shù)據(jù)的增加和機(jī)器學(xué)習(xí)
分析文本、聲音、圖像等數(shù)據(jù) 006
1.3 大數(shù)據(jù)分析系統(tǒng)
在分布式處理與機(jī)器學(xué)習(xí)驅(qū)動(dòng)下將數(shù)據(jù)利潤化 010
1.4 企業(yè)中大數(shù)據(jù)活用的各個(gè)階段
大數(shù)據(jù)分析要從一小步開始 014
1.5 活用大數(shù)據(jù)分析時(shí)所需的三個(gè)角色
數(shù)據(jù)業(yè)務(wù)員、科學(xué)分析員、工程技術(shù)員 020
1.6 工程技術(shù)員的價(jià)值在哪里
為什么完成了驗(yàn)證實(shí)驗(yàn)后仍然無法實(shí)現(xiàn)真正的系統(tǒng)化 026
第2章 大數(shù)據(jù)分析系統(tǒng)的結(jié)構(gòu)
2.1 整體結(jié)構(gòu)概述
數(shù)據(jù)的收集、積累、活用 032
2.2 數(shù)據(jù)的生成和收集
利用業(yè)務(wù)系統(tǒng)生成數(shù)據(jù),利用分析系統(tǒng)收集數(shù)據(jù) 036
2.3 數(shù)據(jù)的積累
數(shù)據(jù)池與數(shù)據(jù)倉庫 040
2.4 數(shù)據(jù)的活用
應(yīng)用于企業(yè)決策和增加利潤 044
第3章 分布式處理的基礎(chǔ)知識(shí)
3.1 對(duì)瓶頸問題的分析
系統(tǒng)性能上的一些問題 048
3.2 上述三種瓶頸以外的與性能相關(guān)的問題
內(nèi)存枯竭,以及沒有瓶頸但性能仍然很差的原因 052
3.3 分布式存儲(chǔ)
消除磁盤瓶頸的技術(shù) 056
3.4 分布式計(jì)算
消除處理器瓶頸的技術(shù) 060
3.5 分布式系統(tǒng)的網(wǎng)絡(luò)
消除網(wǎng)絡(luò)的瓶頸 064
3.6 資源管理器
支撐分布式處理的資源管理 068
3.7 分布式處理的開發(fā)方式
Hadoop、自行開發(fā)、云服務(wù) 070
第4章 機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)
4.1 機(jī)器學(xué)習(xí)
對(duì)變換成向量的數(shù)據(jù)進(jìn)行處理的函數(shù) 076
4.2 數(shù)據(jù)的準(zhǔn)備和預(yù)處理
機(jī)器學(xué)習(xí)的開發(fā)過程(前篇) 082
4.3 模型預(yù)估與系統(tǒng)化
機(jī)器學(xué)習(xí)的開發(fā)過程(中篇) 086
4.4 正式發(fā)布與性能提升
機(jī)器學(xué)習(xí)的開發(fā)過程(后篇) 090
4.5 深度學(xué)習(xí)
引發(fā)機(jī)器學(xué)習(xí)熱潮的火種 094
4.6 機(jī)器學(xué)習(xí)工具
工程師的幾個(gè)重要工具 098
4.7 科學(xué)分析員與工程技術(shù)員的不同角色
系統(tǒng)化與數(shù)據(jù)準(zhǔn)備等大量的工作 104
第5章 大數(shù)據(jù)的收集
5.1 批數(shù)據(jù)收集和流數(shù)據(jù)收集
數(shù)據(jù)收集的種類 108
5.2 文件數(shù)據(jù)的收集與文件格式
文件形式數(shù)據(jù)的收集 112
5.3 基于SQL的數(shù)據(jù)收集
從數(shù)據(jù)庫中收集數(shù)據(jù)(前篇) 116
5.4 基于數(shù)據(jù)輸出和同步更新日志的數(shù)據(jù)收集
從數(shù)據(jù)庫中收集數(shù)據(jù)(后篇) 120
5.5 API數(shù)據(jù)收集與刮擦收集
其他的批數(shù)據(jù)收集方式 124
5.6 批數(shù)據(jù)收集的開發(fā)方法
可以利用ETL軟件制品也可以自行開發(fā) 128
5.7 分布式隊(duì)列與流處理
流數(shù)據(jù)收集概述 132
5.8 流數(shù)據(jù)收集中的分布式隊(duì)列
了解分布式隊(duì)列的特性 136
5.9 生產(chǎn)者、分布式隊(duì)列和消費(fèi)者
流數(shù)據(jù)收集的開發(fā)方法 140
5.10 應(yīng)對(duì)數(shù)據(jù)結(jié)構(gòu)的變化
數(shù)據(jù)結(jié)構(gòu)會(huì)隨著業(yè)務(wù)的發(fā)展而變化 143
第6章 大數(shù)據(jù)的積累
6.1 數(shù)據(jù)池與數(shù)據(jù)倉庫
要分別準(zhǔn)備好原始數(shù)據(jù)和用于分析的數(shù)據(jù) 148
6.2 分析型數(shù)據(jù)庫
操作型數(shù)據(jù)庫與分析型數(shù)據(jù)庫的不同之處 152
6.3 面向列的數(shù)據(jù)格式化
在列方向上壓縮數(shù)據(jù)后實(shí)現(xiàn)分析處理的高速化 156
6.4 SQL on Hadoop
分析型DB的選擇方法(前篇) 160
6.5 DWH制品
分析型DB的選擇方法(后篇) 166
第7章 大數(shù)據(jù)的活用
7.1 數(shù)據(jù)市場
根據(jù)不同目的來加工數(shù)據(jù) 172
7.2 即席分析
可以自主地分析數(shù)據(jù)并進(jìn)行決策 178
7.3 構(gòu)筑即席分析環(huán)境
支持?jǐn)?shù)據(jù)利用者和進(jìn)行資源管理的必要性 182
7.4 數(shù)據(jù)可視化
任何人都可以基于數(shù)據(jù)做出決策 186
7.5 數(shù)據(jù)應(yīng)用程序
互聯(lián)網(wǎng)企業(yè)的活用案例 190
第8章 元數(shù)據(jù)的管理
8.1 整體概念和靜態(tài)元數(shù)據(jù)
元數(shù)據(jù)管理(前篇) 194
8.2 動(dòng)態(tài)元數(shù)據(jù)和元數(shù)據(jù)管理的實(shí)現(xiàn)方法
元數(shù)據(jù)管理(后篇) 198
8.3 數(shù)據(jù)結(jié)構(gòu)管理
如何定義數(shù)據(jù) 202
8.4 數(shù)據(jù)沿襲管理
數(shù)據(jù)從何而來,又去往何處 208
8.5 數(shù)據(jù)新鮮度的管理
表明這是什么時(shí)候的數(shù)據(jù) 212
后記 216

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) hotzeplotz.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)