注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡數(shù)據(jù)庫數(shù)據(jù)庫挖掘/數(shù)據(jù)倉庫數(shù)據(jù)挖掘:概念與技術

數(shù)據(jù)挖掘:概念與技術

數(shù)據(jù)挖掘:概念與技術

定 價:¥39.00

作 者: (加)[韓家煒]JiaweiHan,(加)Micheline Kamber著;范明,孟小峰等譯
出版社: 機械工業(yè)出版社
叢編項: 計算機科學叢書
標 簽: 暫缺

ISBN: 9787111090489 出版時間: 2001-08-01 包裝: 平裝(無盤)
開本: 24cm 頁數(shù): 374 字數(shù):  

內(nèi)容簡介

  數(shù)據(jù)挖掘是數(shù)據(jù)庫研究、開發(fā)和應用最活躍的分支之一。本書從數(shù)據(jù)庫角度全面、系統(tǒng)地介紹數(shù)據(jù)挖掘的基本概念、基本方法和基本技術以及數(shù)據(jù)挖掘的最新進展,是一本可讀性極佳的教材。本書全面而深入地敘述了數(shù)據(jù)庫技術的發(fā)展和數(shù)據(jù)挖掘應用的重要性,數(shù)據(jù)倉庫和OLAP(聯(lián)機分析處理)技術,數(shù)據(jù)預處理技術(包括數(shù)據(jù)清理、數(shù)據(jù)集成和轉(zhuǎn)換、數(shù)據(jù)歸約的方法),數(shù)據(jù)挖掘技術(包括分類、預測、關聯(lián)和聚類等基礎概念和技術),先進的數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)挖掘方法,數(shù)據(jù)挖掘的慶用和一些具有挑戰(zhàn)性的研究問題。作者注重實效,將以上內(nèi)容輔以實例,對每類問題均提供代表性算法,并給出每一技術具體的應用法則。該書由10章及兩個附錄組成。通過本書的學習,讀者可以對數(shù)據(jù)挖掘的整體結(jié)構(gòu)、概念和技術有深入的認識和了解,并且可以熟悉數(shù)據(jù)挖掘的基本原理和發(fā)展方向。目錄:譯者序序前言第1章引言第2章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP第3章數(shù)據(jù)預處理第4章數(shù)據(jù)挖掘原語、語言和系統(tǒng)結(jié)構(gòu)第5章概念描述:特征化與比較第6章挖掘大型數(shù)據(jù)庫中的關聯(lián)規(guī)則第7章分類和預測第8章聚類分析第9章復雜和類型數(shù)據(jù)的挖掘第10章數(shù)據(jù)挖掘的應用和發(fā)展趨勢附錄A附錄B參考文獻索引

作者簡介

  范明,鄭州大學計算機科學系統(tǒng)教授,副系主任,兼任河南省計算機學會軟件專業(yè)委員會主任。長期從事計算機軟件數(shù)學和研究。主要講授的課程包括計算機操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)原理、知識庫系統(tǒng)原理、數(shù)據(jù)挖掘和程序設計等。關心的主要研究領域包括遞歸查詢優(yōu)化、數(shù)據(jù)挖掘和數(shù)據(jù)倉庫。1989——1990年曾訪問加拿大西蒙·弗雷澤大學計算機科學系,從事演繹數(shù)據(jù)庫研究。1999年訪問美國Wrightstate大學計算機科學與工程系、從事數(shù)據(jù)挖掘研究。曾與南京大學徐潔磐教授合作主持國家自然科學基金項目1項,主持河南省自然科學基金和科技攻關項目多項。近十年發(fā)表論文20余篇,參加了《數(shù)據(jù)庫綜合大辭典》(1995)和《數(shù)據(jù)庫技術新進展》(1997)的編寫,并與徐潔磐。馬玉書合作出版著作《知識庫系統(tǒng)導論》(2000)。孟小峰,博士,教授,中國人民大學信息學院計算機系副主任,中國計算機學會理事,中國計算機學會數(shù)據(jù)庫專業(yè)委員會委員、秘書長,中國計算機學會青年計算機科技論壇(YOCSEF)副主席,多次擔任國際學術會議程序委員會委員,目前為《計算機研究與發(fā)展》編委。1994-1996年曾在香港中文大學和城市大學從事研究工作。主持或參加過十多項國家科技攻關項目、國家自然科學基金以及國家863項目,獲國家科技進步二等獎,電子部科技進步特等獎,北京市科技進步二等獎等獎勵。研制開發(fā)的主要軟件產(chǎn)品有國產(chǎn)數(shù)據(jù)庫系統(tǒng)COBASE、嵌入式移動數(shù)據(jù)庫系統(tǒng)“小精靈”、中文自然語言查詢系統(tǒng)NChiql和并行數(shù)據(jù)庫系統(tǒng)PBASE/1等。近十年在國內(nèi)外雜志及國際會議發(fā)表論文50余篇,有數(shù)據(jù)方面的著譯作七部。主要研究領域為數(shù)據(jù)庫系統(tǒng)實現(xiàn)技術、數(shù)據(jù)庫查詢語言、自然語言接口、嵌入與移動數(shù)據(jù)管理、Web數(shù)據(jù)管理等。

圖書目錄

譯者序

前言
第1章
引言 1
1.1
什么激發(fā)了數(shù)據(jù)挖掘,?為什么
它是重要的 1
1.2
什么是數(shù)據(jù)挖掘 3
1.3
在何種數(shù)據(jù)上進行數(shù)據(jù)挖掘 6
1.3.1
關系數(shù)據(jù)庫 7
1.3.2
數(shù)據(jù)倉庫 8
1.3.3
事務數(shù)據(jù)庫 10
1.3.4
高級數(shù)據(jù)庫系統(tǒng)和高級數(shù)據(jù)庫
應用 11
1.4
數(shù)據(jù)挖掘功能—可以挖掘什么
類型的模式 14
1.4.1
概念/類描述:特征化和區(qū)分 14
1.4.2
關聯(lián)分析 15
1.4.3
分類和預測 16
1.4.4
聚類分析 16
1.4.5
孤立點分析 17
1.4.6
演變分析 17
1.5
所有模式都是有趣的嗎 18
1.6
數(shù)據(jù)挖掘系統(tǒng)的分類 19
1.7
數(shù)據(jù)挖掘的主要問題 20
1.8
小結(jié) 22
習題 22
文獻注釋 23
第2章
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP
技術 26
2.1
什么是數(shù)據(jù)倉庫 26
2.1.1
操作數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的
區(qū)別 27
2.1.2
為什么需要一個分離的數(shù)據(jù)倉庫 29
2.2
多維數(shù)據(jù)模型 29
2.2.1
由表和電子數(shù)據(jù)表到數(shù)據(jù)立方體 29
2.2.2
星型.?雪花和事實星座:多維數(shù)
據(jù)庫模式 32
2.2.3
定義星型.?雪花和事實星座模式的
例子 34
2.2.4
度量的分類和計算 36
2.2.5
引入概念分層 37
2.2.6
多維數(shù)據(jù)模型上的OLAP操作 39
2.2.7
查詢多維數(shù)據(jù)庫的星型網(wǎng)查詢模型 41
2.3
數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu) 42
2.3.1
數(shù)據(jù)倉庫的設計步驟和結(jié)構(gòu) 42
2.3.2
三層數(shù)據(jù)倉庫結(jié)構(gòu) 44
2.3.3
OLAP服務器類型:ROLAP,MOLAP,
HOLAP的比較 46
2.4
數(shù)據(jù)倉庫實現(xiàn) 47
2.4.1
數(shù)據(jù)立方體的有效計算 47
2.4.2
索引OLAP數(shù)據(jù) 52
2.4.3
OLAP查詢的有效處理 54
2.4.4
元數(shù)據(jù)存儲 55
2.4.5
數(shù)據(jù)倉庫后端工具和實用程序 56
2.5
數(shù)據(jù)立方體技術的進一步發(fā)展 56
2.5.1
數(shù)據(jù)立方體發(fā)現(xiàn)驅(qū)動的探查 56
2.5.2
多粒度上的復雜聚集:多特征方 59
2.5.3
其他進展 61
2.6
從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘 61
2.6.1
數(shù)據(jù)倉庫的使用 62
2.6.2
從聯(lián)機分析處理到聯(lián)機分析挖掘 63
2.7
小結(jié) 65
習題 66
文獻注釋 68
第3章
數(shù)據(jù)預處理 70
3.1
為什么要預處理數(shù)據(jù) 70
3.2
數(shù)據(jù)清理 72
3.2.1
空缺值 72
3.2.2
噪聲數(shù)據(jù) 73
3.2.3
不一致數(shù)據(jù) 74
3.3
數(shù)據(jù)集成和變換 75
3.3.1
數(shù)據(jù)集成 75
3.3.2
數(shù)據(jù)變換 76
3.4
數(shù)據(jù)歸約 77
3.4.1
數(shù)據(jù)立方體聚集 77
3.4.2
維歸約 79
3.4.3
數(shù)據(jù)壓縮 80
3.4.4
數(shù)值歸約 82
3.5
離散化和概念分層生成 87
3.5.1
數(shù)值數(shù)據(jù)的離散化和概念分層
生成 88
3.5.2
分類數(shù)據(jù)的概念分層生成 91
3.6
小結(jié) 93
習題 93
文獻注釋 94
第4章
數(shù)據(jù)挖掘原語.?語言和系統(tǒng)
結(jié)構(gòu) 96
4.1
數(shù)據(jù)挖掘原語:定義數(shù)據(jù)挖掘任務 96
4.1.1
任務相關的數(shù)據(jù) 98
4.1.2
要挖掘的知識的類型 99
4.1.3
背景知識:概念分層 100
4.1.4
興趣度度量 102
4.1.5
發(fā)現(xiàn)模式的表示和可視化 104
4.2
一種數(shù)據(jù)挖掘查詢語言 105
4.2.1
任務相關數(shù)據(jù)說明的語法 107
4.2.2
指定挖掘知識類型的語法 107
4.2.3
概念分層說明的語法 109
4.2.4
興趣度度量說明的語法 110
4.2.5
模式表示和可視化說明的語法 110
4.2.6
匯集—一個DMQL查詢的例子 111
4.2.7
其他數(shù)據(jù)挖掘語言和數(shù)據(jù)挖掘
原語的標準化 112
4.3
根據(jù)數(shù)據(jù)挖掘查詢語言設計圖形
用戶界面 113
4.4
數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu) 113
4.5
小結(jié) 115
習題 115
文獻注釋 117
第5章
概念描述:特征化與比較 119
5.1
什么是概念描述 119
5.2
數(shù)據(jù)概化和基于匯總的特征化 120
5.2.1
面向?qū)傩缘臍w納 120
5.2.2
面向?qū)傩詺w納的有效實現(xiàn) 124
5.2.3
導出概化的表示 125
5.3
解析特征化:屬性相關分析 128
5.3.1
為什么進行屬性相關分析 129
5.3.2
屬性相關分析方法 129
5.3.3
解析特征化:一個例子 131
5.4
挖掘類比較:區(qū)分不同的類 132
5.4.1
類比較方法和實現(xiàn) 133
5.4.2
類比較描述的表示 135
5.4.3
類描述:特征化和比較的表示 136
5.5
在大型數(shù)據(jù)庫中挖掘描述統(tǒng)計
度量 137
5.5.1
度量中心趨勢 138
5.5.2
度量數(shù)據(jù)的離散度 139
5.5.3
基本統(tǒng)計類描述的圖形顯示 141
5.6
討論 144
5.6.1
概念描述:與典型的機器學習方法
比較 144
5.6.2
概念描述的增量挖掘和并行
挖掘 145
5.7
小結(jié) 146
習題 146
文獻注釋 147
第6章
挖掘大型數(shù)據(jù)庫中的關聯(lián)規(guī)則 149
6.1
關聯(lián)規(guī)則挖掘 149
6.1.1
購物籃分析:一個引發(fā)關聯(lián)規(guī)則
挖掘的例子 150
6.1.2
基本概念 150
6.1.3
關聯(lián)規(guī)則挖掘:一個路線圖 151
6.2
由事務數(shù)據(jù)庫挖掘單維布爾關聯(lián)
規(guī)則 152
6.2.1
Apriori算法:使用候選項集找
頻繁項集 152
6.2.2
由頻繁項集產(chǎn)生關聯(lián)規(guī)則 156
6.2.3
提高Apriori的有效性 157
6.2.4
不產(chǎn)生候選挖掘頻繁項集 158
6.2.5
冰山查詢 161
6.3
由事務數(shù)據(jù)庫挖掘多層關聯(lián)規(guī)則 162
6.3.1
多層關聯(lián)規(guī)則 162
6.3.2
挖掘多層關聯(lián)規(guī)則的方法 163
6.3.3
檢查冗余的多層關聯(lián)規(guī)則 166
6.4
由關系數(shù)據(jù)庫和數(shù)據(jù)倉庫挖掘多維
關聯(lián)規(guī)則 167
6.4.1
多維關聯(lián)規(guī)則 167
6.4.2
使用量化屬性的靜態(tài)離散化挖掘
多維關聯(lián)規(guī)則 168
6.4.3
挖掘量化關聯(lián)規(guī)則 169
6.4.4
挖掘基于距離的關聯(lián)規(guī)則 171
6.5
由關聯(lián)挖掘到相關分析 172
6.5.1
強關聯(lián)規(guī)則不一定是有趣的:
一個例子 172
6.5.2
由關聯(lián)分析到相關分析 173
6.6
基于約束的關聯(lián)挖掘 174
6.6.1
關聯(lián)規(guī)則的元規(guī)則制導挖掘 174
6.6.2
用附加的規(guī)則約束制導的挖掘 175
6.7
小結(jié) 179
習題 180
文獻注釋 183
第7章
分類和預測 185
7.1
什么是分類,?什么是預測 185
7.2
關于分類和預測的問題 187
7.2.1
準備分類和預測的數(shù)據(jù) 187
7.2.2
比較分類方法 187
7.3
用判定樹歸納分類 188
7.3.1
判定樹歸納 189
7.3.2
樹剪枝 192
7.3.3
由判定樹提取分類規(guī)則 192
7.3.4
基本判定樹歸納的加強 193
7.3.5
判定樹歸納的可伸縮性 194
7.3.6
集成數(shù)據(jù)倉庫技術和判定樹
歸納 195
7.4
貝葉斯分類 196
7.4.1
貝葉斯定理 196
7.4.2
樸素貝葉斯分類 197
7.4.3
貝葉斯信念網(wǎng)絡 199
7.4.4
訓練貝葉斯信念網(wǎng)絡 200
7.5
后向傳播分類 201
7.5.1
多層前饋神經(jīng)網(wǎng)絡 201
7.5.2
定義網(wǎng)絡拓撲 202
7.5.3
后向傳播 202
7.5.4
后向傳播和可解釋性 206
7.6
基于源自關聯(lián)規(guī)則挖掘概念的
分類 207
7.7
其他分類方法 209
7.7.1
k-最臨近分類 209
7.7.2
基于案例的推理 209
7.7.3
遺傳算法 210
7.7.4
粗糙集方法 210
7.7.5
模糊集方法 211
7.8
預測 212
7.8.1
線性回歸和多元回歸 212
7.8.2
非線性回歸 213
7.8.3
其他回歸模型 214
7.9
分類法的準確性 214
7.9.1
評估分類法的準確率 214
7.9.2
提高分類法的準確率 215
7.9.3
準確率足夠判定分類法嗎 216
7.10
小結(jié) 217
習題 218
文獻注釋 219
第8章
聚類分析 223
8.1
什么是聚類分析 223
8.2
聚類分析中的數(shù)據(jù)類型 225
8.2.1
區(qū)間標度變量 226
8.2.2
二元變量 227
8.2.3
標稱型.?序數(shù)型和比例標度型
變量 228
8.2.4
混合類型的變量 230
8.3
主要聚類方法的分類 231
8.4
劃分方法 232
8.4.1
典型的劃分方法:k-平均
和k-中心點 232
8.4.2
大型數(shù)據(jù)庫中的劃分方法:從k-中
心點到CLARANS 235
8.5
層次方法 236
8.5.1
凝聚的和分裂的層次聚類 236
8.5.2
BIRCH:利用層次方法的平衡
迭代歸約和聚類 238
8.5.3
CURE:利用代表點聚類 239
8.5.4
Chameleon(變色龍):一個利用
動態(tài)模型的層次聚類算法 240
8.6
基于密度的方法 242
8.6.1
DBSCAN:一個基于高密度連接
區(qū)域的密度聚類方法 242
8.6.2
OPTICS:通過對象排序識別
聚類結(jié)構(gòu) 243
8.6.3
DENCLUE:基于密度分布函數(shù)
的聚類 245
8.7
基于網(wǎng)格的方法 246
8.7.1
STING:統(tǒng)計信息網(wǎng)格 247
8.7.2
WaveCluster:采用小波變換聚類 248
8.7.3
CLIQUE:聚類高維空間 249
8.8
基于模型的聚類方法 251
8.8.1
統(tǒng)計學方法 251
8.8.2
神經(jīng)網(wǎng)絡方法 253
8.9
孤立點分析 254
8.9.1
基于統(tǒng)計的孤立點檢測 255
8.9.2
基于距離的孤立點檢測 256
8.9.3
基于偏離的孤立點檢測 257
8.10
小結(jié) 259
習題 260
文獻注釋 261
第9章
復雜類型數(shù)據(jù)的挖掘 263
9.1
復雜數(shù)據(jù)對象的多維分析
和描述性挖掘 263
9.1.1
結(jié)構(gòu)化數(shù)據(jù)的概化 263
9.1.2
空間和多媒體數(shù)據(jù)概化中的聚集
和近似計算 264
9.1.3
對象標識符和類/子類層次的概化 265
9.1.4
類復合層次的概化 265
9.1.5
對象立方體的構(gòu)造與挖掘 266
9.1.6
用分而治之方法對規(guī)劃數(shù)據(jù)庫進行
基于概化的挖掘 266
9.2
空間數(shù)據(jù)庫挖掘 269
9.2.1
空間數(shù)據(jù)立方體構(gòu)造
和空間OLAP 270
9.2.2
空間關聯(lián)分析 273
9.2.3
空間聚類方法 273
9.2.4
空間分類和空間趨勢分析 274
9.2.5
光柵數(shù)據(jù)庫挖掘 274
9.3
多媒體數(shù)據(jù)庫挖掘 274
9.3.1
多媒體數(shù)據(jù)的相似性搜索 275
9.3.2
多媒體數(shù)據(jù)的多維分析 276
9.3.3
多媒體數(shù)據(jù)的分類和預測分析 277
9.3.4
多媒體數(shù)據(jù)中的關聯(lián)規(guī)則挖掘 277
9.4
時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘 278
9.4.1
趨勢分析 279
9.4.2
時序分析中的相似搜索 280
9.4.3
序列模式挖掘 283
9.4.4
周期分析 284
9.5
文本數(shù)據(jù)庫挖掘 285
9.5.1
文本數(shù)據(jù)分析和信息檢索 285
9.5.2
文本挖掘:基于關鍵字的關聯(lián)和
文檔分類 289
9.6
Web挖掘 290
9.6.1
挖掘Web鏈接結(jié)構(gòu),?識別權(quán)威
Web頁面 291
9.6.2
Web文檔的自動分類 293
9.6.3
多層Web信息庫的構(gòu)造 293
9.6.4
Web使用記錄的挖掘 294
9.7
小結(jié) 295
習題 296
文獻注釋 297
第10章
數(shù)據(jù)挖掘的應用和發(fā)展趨勢 301
10.1
數(shù)據(jù)挖掘的應用 301
10.1.1
針對生物醫(yī)學和DNA數(shù)據(jù)分析
的數(shù)據(jù)挖掘 301
10.1.2
針對金融數(shù)據(jù)分析的數(shù)據(jù)挖掘 302
10.1.3
零售業(yè)中的數(shù)據(jù)挖掘 303
10.1.4
電信業(yè)中的數(shù)據(jù)挖掘 304
10.2
數(shù)據(jù)挖掘系統(tǒng)產(chǎn)品和研究原型 305
10.2.1
怎樣選擇一個數(shù)據(jù)挖掘系統(tǒng) 305
10.2.2
商用數(shù)據(jù)挖掘系統(tǒng)的例子 307
10.3
數(shù)據(jù)挖掘的其他主題 308
10.3.1
視頻和音頻數(shù)據(jù)挖掘 308
10.3.2
科學和統(tǒng)計數(shù)據(jù)挖掘 311
10.3.3
數(shù)據(jù)挖掘的理論基礎 312
10.3.4
數(shù)據(jù)挖掘和智能查詢應答 313
10.4
數(shù)據(jù)挖掘的社會影響 314
10.4.1
數(shù)據(jù)挖掘是宣傳出來的還是持久
的穩(wěn)定增長的商業(yè) 314
10.4.2
數(shù)據(jù)挖掘只是經(jīng)理的事還是
每個人的事 316
10.4.3
數(shù)據(jù)挖掘?qū)﹄[私或數(shù)據(jù)安全構(gòu)
成威脅嗎 317
10.5
數(shù)據(jù)挖掘的發(fā)展趨勢 318
10.6
小結(jié) 319
習題 320
文獻注釋 321
附錄A
Microsoft''''s?OLE?DB?for?Data
Mining簡介 323
A.1
創(chuàng)建DMM對象 324
A.2
向模型裝入訓練數(shù)據(jù)并對模型
進行訓練 325
A.3
模型的使用 325
附錄B
DBMiner簡介 328
B.1
系統(tǒng)結(jié)構(gòu) 328
B.2
輸入和輸出 329
B.3
系統(tǒng)支持的數(shù)據(jù)挖掘任務 329
B.4
對任務和方法選擇的支持 332
B.5
對KDD處理過程的支持 332
B.6
主要應用 332
B.7
現(xiàn)狀 332
參考文獻 333
索引 362

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) hotzeplotz.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號