1、判斷請求頭來進行反爬

這是很早期的網站進行的反爬方式
User-Agent 用戶代理
referer 請求來自哪里
cookie 也可以用來做訪問憑證
解決辦法:請求頭里面添加對應的參數(復制瀏覽器里面的數據)
2、根據用戶行為來進行反爬
請求頻率過高,服務器設置規定時間之內的請求閾值
解決辦法:降低請求頻率或者使用代理(IP代理)
網頁中設置一些陷阱(正常用戶訪問不到但是爬蟲可以訪問到)
解決辦法:分析網頁,避開這些特殊陷阱
請求間隔太短,返回相同的數據
解決辦法:增加請求間隔
3、js加密
反爬方式中較為難處理的一類。
js加密的原理:服務器響應給瀏覽器的js文件,可以動態的生成一些加密參數,瀏覽器會根據js的計算 得到這些參數,在請求中帶入進來,如果請求中沒有這些參數,那么服務器就任務請求無效。

4、字體加密
字體反爬,是一種常見的反爬技術,網站采用了自定義的字體文件,在瀏覽器上正常顯示,但是爬蟲抓取下來的數據要么就是亂碼,要么就是變成其他字符。采用自定義字體文件是CSS3的新特性,熟悉前端的同學可能知道,就是font-face屬性。

5、登錄驗證碼
使用Python爬取網頁內容時往往會遇到使用驗證碼登陸才能訪問其網站,不同網站的使用的驗證碼也不同,在最開始使用簡單驗證碼,識別數字,但是隨著反爬的不斷發展,慢慢設計出了更多復雜的驗證碼,比如:內容驗證碼、滑動驗證碼、圖片拼接驗證碼等等。
網上有很多打碼平臺,通過注冊賬號,調用平臺接口,進行驗證碼的驗證。

6、md5相關知識
MD5,消息摘要算法,一種被廣泛使用的密碼散列函數,可以產生出一個128位(16字節)的散列值(hash value),用于確保信息傳輸完整一致。MD5是最常見的摘要算法,速度很快,生成結果是固定的128 bit字節,通常用一個32位的16進制字符串表示。MD5的特點:
1.不可逆:不能從密文推導出明文。
2.不管明文長度為多少,密文的長度都固定。
3.密文之間不會重復。
import hashlib
print(hashlib.md5('python'.encode()).hexdigest())
本文名稱:python常見的反爬蟲策略-創新互聯
地址分享:http://www.yijiale78.com/article46/ppghg.html
成都網站建設公司_創新互聯,為您提供關鍵詞優化、小程序開發、微信公眾號、網站排名、外貿建站、企業網站制作
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯