迅速搭建全文搜索平臺：開源搜索引擎實戰(zhàn)教程

定　價：￥32.00

作　者：	于天恩編著
出版社：	北京交通大學出版社
叢編項：
標　簽：	檔案學

購買這本書可以去

ISBN：	9787811231564	出版時間：	2007-10-01	包裝：	平裝
開本：	16開	頁數(shù)：	287	字數(shù)：

內(nèi)容簡介

　　《迅速搭建全文搜索平臺：開源搜索引擎實戰(zhàn)教程》作為有心進入搜索引擎業(yè)的讀者的第二本基礎書籍，承接其兄弟篇，講解了開源搜索引擎的搭建過程中所要解決的基本問題，將搜索引擎這一高起點的技術(shù)講解得清晰透徹，使其變得極為好學，沒有任何神秘可言?！堆杆俅罱ㄈ乃阉髌脚_——開源搜索引擎實戰(zhàn)教程》共包括5章，可以分成兩個部分。第一部分（第1章）：建立搜索引擎的方案。這部分用數(shù)少的文字總結(jié)建立搜索引擎的主要方案，即：常規(guī)的數(shù)據(jù)庫搜索、文件搜索，基于數(shù)據(jù)庫全文索引機制的搜索，利用外部非開源web搜索服務進行的搜索，以及利用開源搜索引擎實現(xiàn)的搜索。第二部分（第2——5章）：架設網(wǎng)絡搜索引擎。從第2章起，陸續(xù)介紹數(shù)據(jù)抓取、數(shù)據(jù)解析、建立索引和執(zhí)行搜索這四項內(nèi)容，它們是創(chuàng)建網(wǎng)絡搜索平臺所要解決的基本問題；第5章，介紹基于HyperEstraier搜索引擎框架來搭建桌面搜索引擎和Web搜索引擎的方法，給出了相關(guān)的案例。

作者簡介

暫缺《迅速搭建全文搜索平臺：開源搜索引擎實戰(zhàn)教程》作者簡介

圖書目錄

第一部分建立搜索引擎的方案
第1章建立搜索引擎的方案
1.1 建立搜索引擎的基本方案
1.1.1 常規(guī)的數(shù)據(jù)庫搜索
1.1.2 常規(guī)的文件搜索
1.1.3 基于數(shù)據(jù)庫全文搜索功能的搜索
1.1.4 基于windows索引服務的全文搜索
1.1.5 四種基本方案的總結(jié)
1.2 利用商業(yè)搜索引擎接口實現(xiàn)的全文搜索
1.2.1 第一種基于GOogle Search API的搜索
1.2.2 第二種基于goode Search API的搜索
1.3 利用開源搜索引擎框架實現(xiàn)的全文搜索
小結(jié)
思考與練習
第二部分架設網(wǎng)絡搜索引擎
第2章數(shù)據(jù)抓取
2.1 WebLech
2.1.1 關(guān)于WebLech
2.1.2 下載WebLech
2.1.3 WebLech 的使用方法
2.1.4 使用WebLech
2.2 WebSPHINX
2.2.1 關(guān)于WebSPHINX
2.2.2 下載WebSPHINX
2.2.3 使用WebSPHINX
2.3 J-Spider
2.3.1 關(guān)于J-Spider
2.3.2 下載J-Spider
2.3.3 使用J-Spider
小結(jié)
思考與練習
第3章數(shù)據(jù)解析
3.1 解析PDF文檔
3.1.1 使用PDFBox解析PDF文檔
3.1.2 使用Xpdf解析PDF文檔
3.2 JACOB組件的使用
3.2.1 下載JACOB組件
3.2.2 JACOB的基本用法
3.3 解析word文檔
3.3.1 使用textmining組件解析word文檔
3.3.2 使用Java2Word組件解析Word文檔
3.3.3 使用JACOB組件解析Word文檔
3.4 解析Excel文檔
3.4.1 使用JDBC訪問Excel文檔
3.4.2 使用POI組件解析Excel文檔
3.4.3 使用Java Excel API解析Excel文檔
3.5 解析Powerpoint，Outlook和Access等文檔
3.6 解析XML文檔
3.6.1 使用DOM解析XML文檔
3.6.2 使用SAX解析XML文檔
3.6.3 使用JDOM解析XML文檔
3.6.4 使用DOM4J解析XML文檔
3.6.5 把XML文檔解析成純文本
3.7 解析HTML文檔
3.7.1 下載HTMLParser組件
3.7.2 HTMLParser組件的使用
3.7.3 中文問題的提出
3.7.4 網(wǎng)頁解析的一般方法
小結(jié)
思考與練習
第4章建立索引和執(zhí)行搜索
4.1 Hyper Estraier簡述
4.1.1 下載Hyper Estraier
4.1.2 安裝Hyper Estraier
4.1.3 初試HyperEstmier
4.2 使用Java API
4.2.1 初試Java API
4.2.2 再試Java API
4.3 基于Hyper Estraier的應用
4.3.1 基于Hyper Estraier的桌面搜索應用
4.3.2 基于Hyper Estraier的Web搜索應用
4.4 Hyper Estraier的中文搜索
4.4.1 Hyper Estraier對中文的支持
4.4.2 UNICODE的應用
4.4.3 一個避開語言問題的方案
4.4.4 對編碼解碼器的思考
小結(jié)
思考與練習
第5章創(chuàng)建搜索引擎
5.1 流程概述
5.1.1 實現(xiàn)步驟
5.1.2 目錄結(jié)構(gòu)
5.2 數(shù)據(jù)抓取
5.2.1 實現(xiàn)抓取
5.2.2 不足之處
5.3 數(shù)據(jù)解析
5.3.1 Word解析器
5.3.2 ExceI解析器
5.3.3 PDF解析器
5.3.4 HTML解析器
5.3.5 XML解析器
5.3.6 純文本解析器
5.3.7 集合解析器
5.3.8 不足之處
5.4 建立索引
5.4.1 索引器
5.4.2 搜索器
5.4.3 不足之處
5.5 Web搜索引擎
5.5.1 創(chuàng)建搜索引擎
5.5.2 測試搜索引擎
5.5.3 不足之處
小結(jié)
思考與練習