【Python|邊學邊敲邊記】第四次：初識爬蟲框架Scrapy

【Python | 邊學邊敲邊記】第四次：初識爬蟲框架Scrapy

10年積累的成都網站建設、成都網站制作經驗，可以快速應對客戶對網站的新想法和需求。提供各種問題對應的解決方案。讓選擇我們的客戶得到更好、更有力的網絡服務。我雖然不認識你，你也不認識我。但先網站制作后付款的網站建設流程，更有衡南免費網站建設讓你可以放心的選擇與我們合作。

一、前言

本系列上一篇：【Python | 邊學邊敲邊記】第三次：URL去重策略

今天給大家分享的是，Python里的爬蟲框架Scrapy學習，包含python虛擬環(huán)境的搭建、虛擬環(huán)境的使用、Scrapy安裝方法詳解、Scrapy基本使用、Scrapy項目目錄及內容基本介紹，let's go！

二、Python爬蟲框架Scrapy簡介

推薦查看Scrapy中文幫助文檔：點擊 閱讀原文 靜下心來學習！


 1

# 維基百科看Scrapy
 2

'''
 3
Scrapy（SKRAY -pee）是一個免費和開源 網絡爬行 框架 Python編寫的。最初設計用于Web抓取，它還可
 4
以用于使用API或作為通用Web爬網程序提取數(shù)據(jù)。它目前由網絡抓取開發(fā)和服務公司Scrapinghub Ltd.維護
 5
。
 6
Scrapy項目體系結構是圍繞“Spider”構建的，它們是自包含的爬蟲，可以獲得一組指令。遵循其他框架的精
 7
神，不重復自己的框架，例如Django，它允許開發(fā)人員重用他們的代碼，從而更容易構建和擴展大型爬行項
 8
目。Scrapy還提供了一個Web爬行shell，開發(fā)人員可以使用它來測試他們對站點行為的假設。
 9
(英譯漢有點尷尬！真的想學，還是好好看上面的幫助文檔吧)
10
'''

三、看代碼，邊學邊敲邊記虛擬環(huán)境、Scrapy框架

1.新建一個虛擬環(huán)境

下面操作之前你需要準備好：
(1) 你的 python 版本是3.x，最好系統(tǒng)里只有一個python環(huán)境,后面所有學習筆記都基于 py3 的。
(2) python 環(huán)境里先安裝 virtualenv 模塊，基本方法 pip install virtualenv 。
(3)選擇好虛擬環(huán)境的安裝目錄(我選的是H盤目錄下的 env 文件夾，建議你選的目錄路徑里最好不要有中文)。


1
PS H:\env\> virtualenv spiderenv
2
Using base prefix 'c:\\users\\82055\\appdata\\local\\programs\\python\\python36'
3
New python executable in H:\env\spiderenv\Scripts\python.exe
4
Installing setuptools, pip, wheel...done.
5
注： 如果系統(tǒng)中有兩個python環(huán)境（py2和py3）,新建基于py3的虛擬環(huán)境方法
6
virtualenv -python=你的Python3安裝目錄(精確到python.exe) spiderenv(虛擬環(huán)境名稱)

安裝完成后再自己選擇的目錄下會多出一個文件夾(虛擬環(huán)境)，我這里為 H：\env\spiderenv ,后面所有爬蟲學習過程中需要的模塊、接口都將 pip (安裝)在里面。

2.打開虛擬環(huán)境，安裝Scrapy框架

進入到目錄 H:\env\spiderenv\Scripts (我的虛擬環(huán)境目錄)，按住 shift +鼠標右鍵，打開 powershell 或者 cmd (如果是 powershell 就先輸入 cmd )，再輸入 activate ，進入虛擬環(huán)境，你會發(fā)現(xiàn)在路徑前面多了一個括號里面是你的虛擬環(huán)境名稱，表示你進入了虛擬環(huán)境。具體看下面：


1
# 注：打開powershell 的可以參照下面操作
2
PS H:\env\spiderenv\Scripts> cmd
3
Microsoft Windows [版本 10.0.17134.112]
4
(c) 2018 Microsoft Corporation。保留所有權利。
5
6
H:\env\spiderenv\Scripts>activate
7
(spiderenv) H:\spiderenv\Scripts>

安裝 scrapy 模塊(下面操作都是在虛擬環(huán)境下)：
方法一：直接pip安裝(最簡單，安裝慢，可能出錯)


1
pip install scrapy

方法二：輪子(wheel)安裝(比較簡單，安裝速度還可以，基本不出錯)
點擊這里下載scrapy的 .whl 文件，然后移動到你的虛擬環(huán)境目錄下(比如我的就移動到 H:\env\spiderenv\Scripts ),


1
pip install Scrapy-1.5.1-py2.py3-none-any.whl

方法三：豆瓣源安裝(比較簡單，安裝速度快，方便，推薦)


1
pip install -i https://pypi.douban.com/simple/  scrapy

3.快速進入虛擬環(huán)境方法

安裝 virtualenvwrapper 模塊，用于管理我們所建的虛擬環(huán)境


1
# windows下安裝方法
2
 pip install virtualenvwrapper-win
3
# 其他環(huán)境下安裝
4
 pip install virtualenvwrapper

安裝完成后，打開 控制面板 - > 系統(tǒng) -> 高級系統(tǒng)設置 - > 環(huán)境變量 -> 系統(tǒng)變量 -> 新建 ，在 新建系統(tǒng)環(huán)境變量對話框 中輸入如下


1
變量名：WORKON_HOME
2
變量值：你的虛擬環(huán)境安裝目錄
3

比如：我的虛擬環(huán)境spiderenv安裝在H:\env目錄下，我的變量值就為：H：\env\
4
注：變量值最后一定要以 \ 結尾，不然可能不會產生效果。

【Python | 邊學邊敲邊記】第四次：初識爬蟲框架Scrapy

在上面設置完成后，我們在

cmd

執(zhí)行下面命令，即可簡單快速進入虛擬環(huán)境：


 1
PS C:\Users\82055\Desktop> cmd
 2
Microsoft Windows [版本 10.0.17134.112]
 3
(c) 2018 Microsoft Corporation。保留所有權利。
 4
 5
C:\Users\82055\Desktop>workon
 6
 7
Pass a name to activate one of the following virtualenvs:
 8
==============================================================================
 9
spiderenv
10
11
C:\Users\82055\Desktop>workon spiderenv
12
(spiderenv) C:\Users\82055\Desktop>
13
# 注釋：成功進入，退出虛擬環(huán)境命令為 ： deactivate

4.創(chuàng)建一個基于Scrapy框架的項目


 1
# 進入到自己的項目存放目錄
 2
(spiderenv) H:\env>cd H:\spider_project
 3
 4
# 使用scrapy命令創(chuàng)建一個新工程
 5
(spiderenv) H:\spider_project>scrapy startproject spider_bole_blog
 6
 7
New Scrapy project 'spider_bole_blog', using template directory 'h:\\env\\spiderenv\\
 8
lib\\site-packages\\scrapy\\templates\\project', created in:
 9
    H:\spider_project\spider_bole_blog
10
# 提示創(chuàng)建網站爬蟲命令
11
You can start your first spider with:
12
    cd spider_bole_blog
13
    scrapy genspider example example.com

創(chuàng)建成功后文件目錄結構：


1
spider_bole_blog/
2
    spider_bole_blog/
3
            spiders/
4
                __init__.py
5
            __init__.py
6
            items.py
7
            pipelines.py
8
            settings.py
9
    scrapy.cfg

目錄功能基本介紹:


1

spider_bole_blog/: 該項目的python模塊。之后我們將在此加入代碼。
2

spider_bole_blog/spiders/: 放置spider代碼的目錄。
3

spider_bole_blog/items.py: 項目中的item文件。
4

spider_bole_blog/pipelines.py: 項目中的pipelines文件。
5

spider_bole_blog/settings.py: 項目的設置文件。
6

scrapy.cfg: 項目的配置文件。

創(chuàng)建一個 jobbole (伯樂在線)的爬蟲項目文件：


1
# 進入項目文件
2
(spiderenv) H:\spider_project>cd spider_bole_blog
3
4
# 執(zhí)行命令，創(chuàng)建一個基于Srapy的伯樂在線的爬蟲
5
(spiderenv) H:\spider_project\spider_bole_blog>scrapy genspider jobbole blog.jobbole.com
6
7
Created spider 'jobbole' using template 'basic' in module:
8
  spider_bole_blog.spiders.jobbole

執(zhí)行完成后會在項目的 spiders 目錄下多出一個 jobbole.py 文件，文件內容如下：


 1

# -*- coding: utf-8 -*-        
 2

# 編碼
 3

import
 scrapy
 4

# 導入scrapy包
 5
 6

#繼承scrapy.Spider的 JobboleSpider 爬蟲類
 7


class
 

JobboleSpider

(scrapy.Spider)
:
 8
 9
    

# 用于區(qū)別Spider。 該名字必須是唯一的，您不可以為不同的Spider設定相同的名字。
10
    name = 

'jobbole'
11
12
    

# 允許下載(訪問)域
13
    allowed_domains = [

'blog.jobbole.com'
]
14
15
    

# 包含了Spider在啟動時進行爬取的url列表。
16
    

# 因此，第一個被獲取到的頁面將是其中之一。
17
    

# 后續(xù)的URL則從初始的URL獲取到的數(shù)據(jù)中提取。
18
    start_urls = [

'http://blog.jobbole.com/'
]
19
20
    

# 是spider的一個方法。
21
    

# 被調用時，每個初始URL完成下載后生成的 Response 對象將會作為唯一的參數(shù)傳遞給該函數(shù)。
22
    

# 該方法負責解析返回數(shù)據(jù)(response data)，提取數(shù)據(jù)(生成item)以及生成需要進一步處理的URL
23
    

# 的 Request 對象。
24
    


def
 

parse

(self, response)
:
25
        

pass

四、后言

????今天講的東西涵蓋面還比較廣，特別是虛擬環(huán)境管理這塊， virtualenvwrapper 還有很多命令，很實用，后面會慢慢給大家提及，大家也可以自己百度、谷歌查一下，另外， Scrapy 模塊今天也算正式開始，go on!

新聞標題：【Python|邊學邊敲邊記】第四次：初識爬蟲框架Scrapy
本文網址：http://www.yijiale78.com/article2/pdshoc.html

成都網站建設公司_創(chuàng)新互聯(lián)，為您提供自適應網站、營銷型網站建設、面包屑導航、網站制作、響應式網站、微信公眾號

聲明：本網站發(fā)布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內容

99偷拍视频精品区一区二,口述久久久久久久久久久久,国产精品夫妇激情啪发布,成人永久免费网站在线观看,国产精品高清免费在线,青青草在线观看视频观看,久久久久久国产一区,天天婷婷久久18禁,日韩动漫av在线播放直播

【Python|邊學邊敲邊記】第四次：初識爬蟲框架Scrapy

一、前言

二、Python爬蟲框架Scrapy簡介

三、看代碼，邊學邊敲邊記虛擬環(huán)境、Scrapy框架

四、后言