注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫數(shù)據(jù)庫挖掘/數(shù)據(jù)倉庫數(shù)據(jù)挖掘:概念與技術(shù)(原書第3版)

數(shù)據(jù)挖掘:概念與技術(shù)(原書第3版)

數(shù)據(jù)挖掘:概念與技術(shù)(原書第3版)

定 價(jià):¥79.00

作 者: (美)Jiawei Han 等 著 范明,孟小峰 譯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘

ISBN: 9787111391401 出版時(shí)間: 2012-08-01 包裝: 平裝
開本: 16開 頁數(shù): 496 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《數(shù)據(jù)挖掘:概念與技術(shù)(原書第3版)》完整全面地講述數(shù)據(jù)挖掘的概念、方法、技術(shù)和最新研究進(jìn)展。本書對(duì)前兩版做了全面修訂,加強(qiáng)和重新組織了全書的技術(shù)內(nèi)容,重點(diǎn)論述了數(shù)據(jù)預(yù)處理、頻繁模式挖掘、分類和聚類等的內(nèi)容,還全面講述了OLAP和離群點(diǎn)檢測(cè),并研討了挖掘網(wǎng)絡(luò)、復(fù)雜數(shù)據(jù)類型以及重要應(yīng)用領(lǐng)域?!稊?shù)據(jù)挖掘:概念與技術(shù)(原書第3版)》是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)領(lǐng)域內(nèi)的所有教師、研究人員、開發(fā)人員和用戶都必讀的參考書,是一本適用于數(shù)據(jù)分析、數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)課程的優(yōu)秀教材,可以用做高年級(jí)本科生或者一年級(jí)研究生的數(shù)據(jù)挖掘?qū)д摻滩摹?/div>

作者簡(jiǎn)介

  Jiawei Han(韓家煒),是伊利諾伊大學(xué)厄巴納-尚佩恩分校計(jì)算機(jī)科學(xué)系的Bliss教授。他因知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘研究方面的貢獻(xiàn)而獲得許多獎(jiǎng)勵(lì),包括ACM SIGKDD創(chuàng)新獎(jiǎng)(2004)、IEEE計(jì)算機(jī)學(xué)會(huì)技術(shù)成就獎(jiǎng)(2005)和IEEE W.Wallace McDowell獎(jiǎng)(2009)。他是ACM和IEEE會(huì)士。他還擔(dān)任《ACM Transactions on Knowledge Discovery from Data》的執(zhí)行主編(2006—2011)和許多雜志的編委,包括《IEEE Transactions on Knowledge and Data Engineering》和《Data Mining Knowledge Discovery》。Micheline Kamber,由加拿大魁北克蒙特利爾Concordia大學(xué)獲計(jì)算機(jī)科學(xué)(人工智能專業(yè))碩士學(xué)位。她曾是NSERC學(xué)者,作為研究者在McGill大學(xué)、西蒙-弗雷澤大學(xué)和瑞士工作。她的數(shù)據(jù)挖掘背景和以易于理解的形式寫作的熱情使得本書更受專業(yè)人員、教師和學(xué)生的歡迎。Jian Pei(裴?。?,現(xiàn)在是西蒙-弗雷澤大學(xué)計(jì)算機(jī)科學(xué)學(xué)院教授。他在Jiawei Han的指導(dǎo)下,于2002年獲西蒙-弗雷澤大學(xué)計(jì)算科學(xué)博士學(xué)位。他在數(shù)據(jù)挖掘、數(shù)據(jù)庫、Web搜索和信息檢索的主要學(xué)術(shù)論壇發(fā)表了大量文章,并積極服務(wù)于學(xué)術(shù)團(tuán)體。他的文章被引用數(shù)千次,并獲多次榮譽(yù)獎(jiǎng)。他是多種數(shù)據(jù)挖掘和數(shù)據(jù)分析雜志的助理編輯。

圖書目錄

出版者的話
中文版序
譯者序
譯者簡(jiǎn)介
第3版序
第2版序
前言
致謝
作者簡(jiǎn)介
第1章 引論
1.1 為什么進(jìn)行數(shù)據(jù)挖掘
1.1.1 邁向信息時(shí)代
1.1.2 數(shù)據(jù)挖掘是信息技術(shù)的進(jìn)化
1.2 什么是數(shù)據(jù)挖掘
1.3 可以挖掘什么類型的數(shù)據(jù)
1.3.1 數(shù)據(jù)庫數(shù)據(jù)
1.3.2 數(shù)據(jù)倉庫
1.3.3 事務(wù)數(shù)據(jù)
1.3.4 其他類型的數(shù)據(jù)
1.4 可以挖掘什么類型的模式
1.4.1 類/概念描述:特征化與區(qū)分
1.4.2 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性
1.4.3 用于預(yù)測(cè)分析的分類與回歸
1.4.4 聚類分析
1.4.5 離群點(diǎn)分析
1.4.6 所有模式都是有趣的嗎
1.5 使用什么技術(shù)
1.5.1 統(tǒng)計(jì)學(xué)
1.5.2 機(jī)器學(xué)習(xí)
1.5.3 數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫
1.5.4 信息檢索
1.6 面向什么類型的應(yīng)用
1.6.1 商務(wù)智能
1.6.2 Web搜索引擎
1.7 數(shù)據(jù)挖掘的主要問題
1.7.1 挖掘方法
1.7.2 用戶界面
1.7.3 有效性和可伸縮性
1.7.4 數(shù)據(jù)庫類型的多樣性
1.7.5 數(shù)據(jù)挖掘與社會(huì)
1.8 小結(jié)
1.9 習(xí)題
1.10 文獻(xiàn)注釋
第2章 認(rèn)識(shí)數(shù)據(jù)
2.1 數(shù)據(jù)對(duì)象與屬性類型
2.1.1 什么是屬性
2.1.2 標(biāo)稱屬性
2.1.3 二元屬性
2.1.4 序數(shù)屬性
2.1.5 數(shù)值屬性
2.1.6 離散屬性與連續(xù)屬性
2.2 數(shù)據(jù)的基本統(tǒng)計(jì)描述
2.2.1 中心趨勢(shì)度量:均值、中位數(shù)和眾數(shù)
2.2.2 度量數(shù)據(jù)散布:極差、四分位數(shù)、方差、標(biāo)準(zhǔn)差和四分位數(shù)極差
2.2.3 數(shù)據(jù)的基本統(tǒng)計(jì)描述的圖形顯示
2.3 數(shù)據(jù)可視化
2.3.1 基于像素的可視化技術(shù)
2.3.2 幾何投影可視化技術(shù)
2.3.3 基于圖符的可視化技術(shù)
2.3.4 層次可視化技術(shù)
2.3.5 可視化復(fù)雜對(duì)象和關(guān)系
2.4 度量數(shù)據(jù)的相似性和相異性
2.4.1 數(shù)據(jù)矩陣與相異性矩陣
2.4.2 標(biāo)稱屬性的鄰近性度量
2.4.3 二元屬性的鄰近性度量
2.4.4 數(shù)值屬性的相異性:閔可夫斯基距離
2.4.5 序數(shù)屬性的鄰近性度量
2.4.6 混合類型屬性的相異性
2.4.7 余弦相似性
2.5 小結(jié)
2.6 習(xí)題
2.7 文獻(xiàn)注釋
第3章 數(shù)據(jù)預(yù)處理
3.1 數(shù)據(jù)預(yù)處理:概述
3.1.1 數(shù)據(jù)質(zhì)量:為什么要對(duì)數(shù)據(jù)預(yù)處理
3.1.2 數(shù)據(jù)預(yù)處理的主要任務(wù)
3.2 數(shù)據(jù)清理
3.2.1 缺失值
3.2.2 噪聲數(shù)據(jù)
3.2.3 數(shù)據(jù)清理作為一個(gè)過程
3.3 數(shù)據(jù)集成
3.3.1 實(shí)體識(shí)別問題
3.3.2 冗余和相關(guān)分析
3.3.3 元組重復(fù)
3.3.4 數(shù)據(jù)值沖突的檢測(cè)與處理
3.4 數(shù)據(jù)歸約
3.4.1 數(shù)據(jù)歸約策略概述
3.4.2 小波變換
3.4.3 主成分分析
3.4.4 屬性子集選擇
3.4.5 回歸和對(duì)數(shù)線性模型:參數(shù)化數(shù)據(jù)歸約
3.4.6 直方圖
3.4.7 聚類
3.4.8 抽樣
3.4.9 數(shù)據(jù)立方體聚集
3.5 數(shù)據(jù)變換與數(shù)據(jù)離散化
3.5.1 數(shù)據(jù)變換策略概述
3.5.2 通過規(guī)范化變換數(shù)據(jù)
3.5.3 通過分箱離散化
3.5.4 通過直方圖分析離散化
3.5.5 通過聚類、決策樹和相關(guān)分析離散化
3.5.6 標(biāo)稱數(shù)據(jù)的概念分層產(chǎn)生
3.6 小結(jié)
3.7 習(xí)題
3.8 文獻(xiàn)注釋
第4章 數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理
4.1 數(shù)據(jù)倉庫:基本概念
4.1.1 什么是數(shù)據(jù)倉庫
4.1.2 操作數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的區(qū)別
4.1.3 為什么需要分離的數(shù)據(jù)倉庫
4.1.4 數(shù)據(jù)倉庫:一種多層體系結(jié)構(gòu)
4.1.5 數(shù)據(jù)倉庫模型:企業(yè)倉庫、數(shù)據(jù)集市和虛擬倉庫
4.1.6 數(shù)據(jù)提取、變換和裝入
4.1.7 元數(shù)據(jù)庫
4.2 數(shù)據(jù)倉庫建模:數(shù)據(jù)立方體與OLAP
4.2.1 數(shù)據(jù)立方體:一種多維數(shù)據(jù)模型
4.2.2 星形、雪花形和事實(shí)星座:多維數(shù)據(jù)模型的模式
4.2.3 維:概念分層的作用
4.2.4 度量的分類和計(jì)算
4.2.5 典型的OLAP操作
4.2.6 查詢多維數(shù)據(jù)庫的星網(wǎng)查詢模型
4.3 數(shù)據(jù)倉庫的設(shè)計(jì)與使用
4.3.1 數(shù)據(jù)倉庫的設(shè)計(jì)的商務(wù)分析框架
4.3.2 數(shù)據(jù)倉庫的設(shè)計(jì)過程
4.3.3 數(shù)據(jù)倉庫用于信息處理
4.3.4 從聯(lián)機(jī)分析處理到多維數(shù)據(jù)挖掘
4.4 數(shù)據(jù)倉庫的實(shí)現(xiàn)
4.4.1 數(shù)據(jù)立方體的有效計(jì)算:概述
4.4.2 索引OLAP數(shù)據(jù):位圖索引和連接索引
4.4.3 OLAP查詢的有效處理
4.4.4 OLAP服務(wù)器結(jié)構(gòu):ROLAP、MOLAP、HOLAP的比較
4.5 數(shù)據(jù)泛化:面向?qū)傩缘臍w納
4.5.1 數(shù)據(jù)特征的面向?qū)傩缘臍w納
4.5.2 面向?qū)傩詺w納的有效實(shí)現(xiàn)
4.5.3 類比較的面向?qū)傩詺w納
4.6 小結(jié)
4.7 習(xí)題
4.8 文獻(xiàn)注釋
第5章 數(shù)據(jù)立方體技術(shù)
5.1 數(shù)據(jù)立方體計(jì)算:基本概念
5.1.1 立方體物化:完全立方體、冰山立方體、閉立方體和立方體外殼
5.1.2 數(shù)據(jù)立方體計(jì)算的一般策略
5.2 數(shù)據(jù)立方體計(jì)算方法
5.2.1 完全立方體計(jì)算的多路數(shù)組聚集
5.2.2 BUC:從頂點(diǎn)方體向下計(jì)算冰山立方體
5.2.3 Star-Cubing:使用動(dòng)態(tài)星樹結(jié)構(gòu)計(jì)算冰山立方體
5.2.4 為快速高維OLAP預(yù)計(jì)算殼片段
5.3 使用探索立方體技術(shù)處理高級(jí)查詢
5.3.1 抽樣立方體:樣本數(shù)據(jù)上基于OLAP的挖掘
5.3.2 排序立方體:top-k查詢的有效計(jì)算
5.4 數(shù)據(jù)立方體空間的多維數(shù)據(jù)分析
5.4.1 預(yù)測(cè)立方體:立方體空間的預(yù)測(cè)挖掘
5.4.2 多特征立方體:多粒度上的復(fù)雜聚集
5.4.3 基于異常的、發(fā)現(xiàn)驅(qū)動(dòng)的立方體空間探查
5.5 小結(jié)
5.6 習(xí)題
5.7 文獻(xiàn)注釋
第6章 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性:基本概念和方法
6.1 基本概念
6.1.1 購物籃分析:一個(gè)誘發(fā)例子
6.1.2 頻繁項(xiàng)集、閉項(xiàng)集和關(guān)聯(lián)規(guī)則
6.2 頻繁項(xiàng)集挖掘方法
6.2.1 Apriori算法:通過限制候選產(chǎn)生發(fā)現(xiàn)頻繁項(xiàng)集
6.2.2 由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則
6.2.3 提高Apriori算法的效率
6.2.4 挖掘頻繁項(xiàng)集的模式增長(zhǎng)方法
6.2.5 使用垂直數(shù)據(jù)格式挖掘頻繁項(xiàng)集
6.2.6 挖掘閉模式和極大模式
6.3 哪些模式是有趣的:模式評(píng)估方法
6.3.1 強(qiáng)規(guī)則不一定是有趣的
6.3.2 從關(guān)聯(lián)分析到相關(guān)分析
6.3.3 模式評(píng)估度量比較
6.4 小結(jié)
6.5 習(xí)題
6.6 文獻(xiàn)注釋
第7章 高級(jí)模式挖掘
7.1 模式挖掘:一個(gè)路線圖
7.2 多層、多維空間中的模式挖掘
7.2.1 挖掘多層關(guān)聯(lián)規(guī)則
7.2.2 挖掘多維關(guān)聯(lián)規(guī)則
7.2.3 挖掘量化關(guān)聯(lián)規(guī)則
7.2.4 挖掘稀有模式和負(fù)模式
7.3 基于約束的頻繁模式挖掘
7.3.1 關(guān)聯(lián)規(guī)則的元規(guī)則制導(dǎo)挖掘
7.3.2 基于約束的模式產(chǎn)生:模式空間剪枝和數(shù)據(jù)空間剪枝
7.4 挖掘高維數(shù)據(jù)和巨型模式
7.5 挖掘壓縮或近似模式
7.5.1 通過模式聚類挖掘壓縮模式
7.5.2 提取感知冗余的top-k模式
7.6 模式探索與應(yīng)用
7.6.1 頻繁模式的語義注解
7.6.2 模式挖掘的應(yīng)用
7.7 小結(jié)
7.8 習(xí)題
7.9 文獻(xiàn)注釋
第8章 分類:基本概念
8.1 基本概念
8.1.1 什么是分類
8.1.2 分類的一般方法
8.2 決策樹歸納
8.2.1 決策樹歸納
8.2.2 屬性選擇度量
8.2.3 樹剪枝
8.2.4 可伸縮性與決策樹歸納
8.2.5 決策樹歸納的可視化挖掘
8.3 貝葉斯分類方法
8.3.1 貝葉斯定理
8.3.2 樸素貝葉斯分類
8.4 基于規(guī)則的分類
8.4.1 使用IF-THEN規(guī)則分類
8.4.2 由決策樹提取規(guī)則
8.4.3 使用順序覆蓋算法的規(guī)則歸納
8.5 模型評(píng)估與選擇
8.5.1 評(píng)估分類器性能的度量
8.5.2 保持方法和隨機(jī)二次抽樣
8.5.3 交叉驗(yàn)證
8.5.4 自助法
8.5.5 使用統(tǒng)計(jì)顯著性檢驗(yàn)選擇模型
8.5.6 基于成本效益和ROC曲線比較分類器
8.6 提高分類準(zhǔn)確率的技術(shù)
8.6.1 組合分類方法簡(jiǎn)介
8.6.2 裝袋
8.6.3 提升和AdaBoost
8.6.4 隨機(jī)森林
8.6.5 提高類不平衡數(shù)據(jù)的分類準(zhǔn)確率
8.7 小結(jié)
8.8 習(xí)題
8.9 文獻(xiàn)注釋
第9章 分類:高級(jí)方法
9.1 貝葉斯信念網(wǎng)絡(luò)
9.1.1 概念和機(jī)制
9.1.2 訓(xùn)練貝葉斯信念網(wǎng)絡(luò)
9.2 用后向傳播分類
9.2.1 多層前饋神經(jīng)網(wǎng)絡(luò)
9.2.2 定義網(wǎng)絡(luò)拓?fù)?br /> 9.2.3 后向傳播
9.2.4 黑盒內(nèi)部:后向傳播和可解釋性
9.3 支持向量機(jī)
9.3.1 數(shù)據(jù)線性可分的情況
9.3.2 數(shù)據(jù)非線性可分的情況
9.4 使用頻繁模式分類
9.4.1 關(guān)聯(lián)分類
9.4.2 基于有區(qū)別力的頻繁模式分類
9.5 惰性學(xué)習(xí)法(或從近鄰學(xué)習(xí))
9.5.1 k-最近鄰分類
9.5.2 基于案例的推理
9.6 其他分類方法
9.6.1 遺傳算法
9.6.2 粗糙集方法
9.6.3 模糊集方法
9.7 關(guān)于分類的其他問題
9.7.1 多類分類
9.7.2 半監(jiān)督分類
9.7.3 主動(dòng)學(xué)習(xí)
9.7.4 遷移學(xué)習(xí)
9.8 小結(jié)
9.9 習(xí)題
9.10 文獻(xiàn)注釋
第10章 聚類分析:基本概念和方法
10.1 聚類分析
10.1.1 什么是聚類分析
10.1.2 對(duì)聚類分析的要求
10.1.3 基本聚類方法概述
10.2 劃分方法
10.2.1 k-均值:一種基于形心的技術(shù)
10.2.2 k-中心點(diǎn):一種基于代表對(duì)象的技術(shù)
10.3 層次方法
10.3.1 凝聚的與分裂的層次聚類
10.3.2 算法方法的距離度量
10.3.3 BIRCH:使用聚類特征樹的多階段聚類
10.3.4 Chameleon:使用動(dòng)態(tài)建模的多階段層次聚類
10.3.5 概率層次聚類
10.4 基于密度的方法
10.4.1 DBSCAN:一種基于高密度連通區(qū)域的基于密度的聚類
10.4.2 OPTICS:通過點(diǎn)排序識(shí)別聚類結(jié)構(gòu)
10.4.3 DENCLUE:基于密度分布函數(shù)的聚類
10.5 基于網(wǎng)格的方法
10.5.1 STING:統(tǒng)計(jì)信息網(wǎng)格
10.5.2 CLIQUE:一種類似于Apriori的子空間聚類方法
10.6 聚類評(píng)估
10.6.1 估計(jì)聚類趨勢(shì)
10.6.2 確定簇?cái)?shù)
10.6.3 測(cè)定聚類質(zhì)量
10.7 小結(jié)
10.8 習(xí)題
10.9 文獻(xiàn)注釋
第11章 高級(jí)聚類分析
11.1 基于概率模型的聚類
11.1.1 模糊簇
11.1.2 基于概率模型的聚類
11.1.3 期望最大化算法
11.2 聚類高維數(shù)據(jù)
11.2.1 聚類高維數(shù)據(jù):?jiǎn)栴}、挑戰(zhàn)和主要方法
11.2.2 子空間聚類方法
11.2.3 雙聚類
11.2.4 維歸約方法和譜聚類
11.3 聚類圖和網(wǎng)絡(luò)數(shù)據(jù)
11.3.1 應(yīng)用與挑戰(zhàn)
11.3.2 相似性度量
11.3.3 圖聚類方法
11.4 具有約束的聚類
11.4.1 約束的分類
11.4.2 具有約束的聚類方法
11.5 小結(jié)
11.6 習(xí)題
11.7 文獻(xiàn)注釋
第12章 離群點(diǎn)檢測(cè)
12.1 離群點(diǎn)和離群點(diǎn)分析
12.1.1 什么是離群點(diǎn)
12.1.2 離群點(diǎn)的類型
12.1.3 離群點(diǎn)檢測(cè)的挑戰(zhàn)
12.2 離群點(diǎn)檢測(cè)方法
12.2.1 監(jiān)督、半監(jiān)督和無監(jiān)督方法
12.2.2 統(tǒng)計(jì)方法、基于鄰近性的方法和基于聚類的方法
12.3 統(tǒng)計(jì)學(xué)方法
12.3.1 參數(shù)方法
12.3.2 非參數(shù)方法
12.4 基于鄰近性的方法
12.4.1 基于距離的離群點(diǎn)檢測(cè)和嵌套循環(huán)方法
12.4.2 基于網(wǎng)格的方法
12.4.3 基于密度的離群點(diǎn)檢測(cè)
12.5 基于聚類的方法
12.6 基于分類的方法
12.7 挖掘情境離群點(diǎn)和集體離群點(diǎn)
12.7.1 把情境離群點(diǎn)檢測(cè)轉(zhuǎn)換成傳統(tǒng)的離群點(diǎn)檢測(cè)
12.7.2 關(guān)于情境對(duì)正常行為建模
12.7.3 挖掘集體離群點(diǎn)
12.8 高維數(shù)據(jù)中的離群點(diǎn)檢測(cè)
12.8.1 擴(kuò)充的傳統(tǒng)離群點(diǎn)檢測(cè)
12.8.2 發(fā)現(xiàn)子空間中的離群點(diǎn)
12.8.3 高維離群點(diǎn)建模
12.9 小結(jié)
12.10 習(xí)題
12.11 文獻(xiàn)注釋
第13章 數(shù)據(jù)挖掘的發(fā)展趨勢(shì)和研究前沿
13.1 挖掘復(fù)雜的數(shù)據(jù)類型
13.1.1 挖掘序列數(shù)據(jù):時(shí)間序列、符號(hào)序列和生物學(xué)序列
13.1.2 挖掘圖和網(wǎng)絡(luò)
13.1.3 挖掘其他類型的數(shù)據(jù)
13.2 數(shù)據(jù)挖掘的其他方法
13.2.1 統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘
13.2.2 關(guān)于數(shù)據(jù)挖掘基礎(chǔ)的觀點(diǎn)
13.2.3 可視和聽覺數(shù)據(jù)挖掘
13.3 數(shù)據(jù)挖掘應(yīng)用
13.3.1 金融數(shù)據(jù)分析的數(shù)據(jù)挖掘
13.3.2 零售和電信業(yè)的數(shù)據(jù)挖掘
13.3.3 科學(xué)與工程數(shù)據(jù)挖掘
13.3.4 入侵檢測(cè)和預(yù)防數(shù)據(jù)挖掘
13.3.5 數(shù)據(jù)挖掘與推薦系統(tǒng)
13.4 數(shù)據(jù)挖掘與社會(huì)
13.4.1 普適的和無形的數(shù)據(jù)挖掘
13.4.2 數(shù)據(jù)挖掘的隱私、安全和社會(huì)影響
13.5 數(shù)據(jù)挖掘的發(fā)展趨勢(shì)
13.6 小結(jié)
13.7 習(xí)題
13.8 文獻(xiàn)注釋
參考文獻(xiàn)
索引
Copyright ? 讀書網(wǎng) hotzeplotz.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)