注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)行業(yè)軟件及應(yīng)用精通Scrapy網(wǎng)絡(luò)爬蟲(chóng)

精通Scrapy網(wǎng)絡(luò)爬蟲(chóng)

精通Scrapy網(wǎng)絡(luò)爬蟲(chóng)

定 價(jià):¥59.00

作 者: 劉碩
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 行業(yè)軟件及應(yīng)用

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787302484936 出版時(shí)間: 2017-10-01 包裝: 平裝-膠訂
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 224 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)深入系統(tǒng)地介紹了Python流行框架Scrapy的相關(guān)技術(shù)及使用技巧。全書(shū)共14章,從邏輯上可分為基礎(chǔ)篇和高級(jí)篇兩部分,基礎(chǔ)篇重點(diǎn)介紹Scrapy的核心元素,如spider、selector、item、link等;高級(jí)篇講解爬蟲(chóng)的高級(jí)話(huà)題,如登錄認(rèn)證、文件下載、執(zhí)行JavaScript、動(dòng)態(tài)網(wǎng)頁(yè)爬取、使用HTTP代理、分布式爬蟲(chóng)的編寫(xiě)等,并配合項(xiàng)目案例講解,包括供練習(xí)使用的網(wǎng)站,以及*、知乎、豆瓣、360爬蟲(chóng)案例等。本書(shū)案例豐富,注重實(shí)踐,代碼注釋詳盡,適合有一定Python語(yǔ)言基礎(chǔ),想學(xué)習(xí)編寫(xiě)復(fù)雜網(wǎng)絡(luò)爬蟲(chóng)的讀者使用。

作者簡(jiǎn)介

  劉碩:碩士,曾就職于知名外企,從事一線(xiàn)開(kāi)發(fā)工作10年,目前主要從事Python開(kāi)發(fā)與教學(xué)工作,在慕課網(wǎng)開(kāi)設(shè)有多門(mén)Python課程,深受學(xué)員歡迎。

圖書(shū)目錄

第1章 初識(shí)Scrapy 1

1.1 網(wǎng)絡(luò)爬蟲(chóng)是什么 1

1.2 Scrapy簡(jiǎn)介及安裝 2

1.3 編寫(xiě)*個(gè)Scrapy爬蟲(chóng) 3

1.3.1 項(xiàng)目需求 4

1.3.2 創(chuàng)建項(xiàng)目 4

1.3.3 分析頁(yè)面 5

1.3.4 實(shí)現(xiàn)Spider 6

1.3.5 運(yùn)行爬蟲(chóng) 8

1.4 本章小結(jié) 11

第2章 編寫(xiě)Spider 12

2.1 Scrapy框架結(jié)構(gòu)及工作原理 12

2.2 Request和Response對(duì)象 14

2.2.1 Request對(duì)象 15

2.2.2 Response對(duì)象 16

2.3 Spider開(kāi)發(fā)流程 18

2.3.1 繼承scrapy.Spider 19

2.3.2 為Spider命名 20

2.3.3 設(shè)定起始爬取點(diǎn) 20

2.3.4 實(shí)現(xiàn)頁(yè)面解析函數(shù) 22

2.4 本章小結(jié) 22

第3章 使用Selector提取數(shù)據(jù) 23

3.1 Selector對(duì)象 23

3.1.1 創(chuàng)建對(duì)象 24

3.1.2 選中數(shù)據(jù) 25

3.1.3 提取數(shù)據(jù) 26

3.2 Response內(nèi)置Selector 28

3.3 XPath 29

3.3.1 基礎(chǔ)語(yǔ)法 30

3.3.2 常用函數(shù) 35

3.4 CSS選擇器 36

3.5 本章小結(jié) 40

第4章 使用Item封裝數(shù)據(jù) 41

4.1 Item和Field 42

4.2 拓展Item子類(lèi) 44

4.3 Field元數(shù)據(jù) 44

4.4 本章小結(jié) 47

第5章 使用Item Pipeline處理數(shù)據(jù) 48

5.1 Item Pipeline 48

5.1.1 實(shí)現(xiàn)Item Pipeline 49

5.1.2 啟用Item Pipeline 50

5.2 更多例子 51

5.2.1 過(guò)濾重復(fù)數(shù)據(jù) 51

5.2.2 將數(shù)據(jù)存入

MongoDB 54

5.3 本章小結(jié) 57

第6章 使用LinkExtractor提取鏈接 58

6.1 使用LinkExtractor 59

6.2 描述提取規(guī)則 60

6.3 本章小結(jié) 65

第7章 使用Exporter導(dǎo)出數(shù)據(jù) 66

7.1 指定如何導(dǎo)出數(shù)據(jù) 67

7.1.1 命令行參數(shù) 67

7.1.2 配置文件 69

7.2 添加導(dǎo)出數(shù)據(jù)格式 70

7.2.1 源碼參考 70

7.2.2 實(shí)現(xiàn)Exporter 72

7.3 本章小結(jié) 74

第8章 項(xiàng)目練習(xí) 75

8.1 項(xiàng)目需求 77

8.2 頁(yè)面分析 77

8.3 編碼實(shí)現(xiàn) 83

8.4 本章小結(jié) 88

第9章 下載文件和圖片 89

9.1 FilesPipeline和

ImagesPipeline 89

9.1.1 FilesPipeline使用

說(shuō)明 90

9.1.2 ImagesPipeline使用

說(shuō)明 91

9.2 項(xiàng)目實(shí)戰(zhàn):爬取matplotlib

例子源碼文件 92

9.2.1 項(xiàng)目需求 92

9.2.2 頁(yè)面分析 94

9.2.3 編碼實(shí)現(xiàn) 96

9.3 項(xiàng)目實(shí)戰(zhàn):下載360圖片 103

9.3.1 項(xiàng)目需求 104

9.3.2 頁(yè)面分析 104

9.3.3 編碼實(shí)現(xiàn) 107

9.4 本章小結(jié) 109

第10章 模擬登錄 110

10.1 登錄實(shí)質(zhì) 110

10.2 Scrapy模擬登錄 114

10.2.1 使用FormRequest 114

10.2.2 實(shí)現(xiàn)登錄Spider 117

10.3 識(shí)別驗(yàn)證碼 119

10.3.1 OCR識(shí)別 119

10.3.2 網(wǎng)絡(luò)平臺(tái)識(shí)別 123

10.3.3 人工識(shí)別 127

10.4 Cookie登錄 128

10.4.1 獲取瀏覽器

Cookie 128

10.4.2 CookiesMiddleware

源碼分析 129

10.4.3 實(shí)現(xiàn)BrowserCookies-

Middleware 132

10.4.4 爬取知乎個(gè)人

信息 133

10.5 本章小結(jié) 135

第11章 爬取動(dòng)態(tài)頁(yè)面 136

11.1 Splash渲染引擎 140

11.1.1 render.html端點(diǎn) 141

11.1.2 execute端點(diǎn) 142

11.2 在Scrapy中使用Splash 145

11.3 項(xiàng)目實(shí)戰(zhàn):爬取toscrape

中的名人名言 146

11.3.1 項(xiàng)目需求 146

11.3.2 頁(yè)面分析 146

11.3.3 編碼實(shí)現(xiàn) 147

11.4 項(xiàng)目實(shí)戰(zhàn):爬取*商城

中的書(shū)籍信息 149

11.4.1 項(xiàng)目需求 149

11.4.2 頁(yè)面分析 149

11.4.3 編碼實(shí)現(xiàn) 152

11.5 本章小結(jié) 154

第12章 存入數(shù)據(jù)庫(kù) 155

12.1 SQLite 156

12.2 MySQL 159

12.3 MongoDB 165

12.4 Redis 169

12.5 本章小結(jié) 173

第13章 使用HTTP代理 174

13.1 HttpProxyMiddleware 175

13.1.1 使用簡(jiǎn)介 175

13.1.2 源碼分析 177

13.2 使用多個(gè)代理 179

13.3 獲取免費(fèi)代理 180

13.4 實(shí)現(xiàn)*代理 184

13.5 項(xiàng)目實(shí)戰(zhàn):爬取豆瓣電影

信息 187

13.5.1 項(xiàng)目需求 188

13.5.2 頁(yè)面分析 189

13.5.3 編碼實(shí)現(xiàn) 194

13.6 本章小結(jié) 198

第14章 分布式爬取 199

14.1 Redis的使用 200

14.1.1 安裝Redis 200

14.1.2 Redis基本命令 201

14.2 scrapy-redis源碼分析 206

14.2.1 分配爬取任務(wù)

部分 207

14.2.2 匯總爬取數(shù)據(jù)

部分 214

14.3 使用scrapy-redis進(jìn)行分

布式爬取 217

14.3.1 搭建環(huán)境 217

14.3.2 項(xiàng)目實(shí)戰(zhàn) 218

14.4 本章小結(jié) 224

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) hotzeplotz.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)