【爬蟲實例3】異步爬取大量數據

1、導入模塊

import requests
import csv
from concurrent.futures import ThreadPoolExecutor

2、先獲取第一個頁面的內容

分析得到該頁面的數據是從getPriceData.html頁面獲取,并保存在csv文件中

創新互聯長期為成百上千家客戶提供的網站建設服務，團隊從業經驗10年，關注不同地域、不同群體，并針對不同對象提供差異化的產品和服務；打造開放共贏平臺，與合作伙伴共同營造健康的互聯網生態環境。為皇姑企業提供專業的成都網站制作、成都網站設計，皇姑網站改版等技術服務。擁有十載豐富建站經驗和眾多成功案例,為您定制開發。

得到url地址后,提取第一個頁面內容

def download(url, num):
    resp = requests.post(url).json()
    for i in resp['list']:
        temp = [i['prodName'], i['lowPrice'], i['highPrice'], i['avgPrice'], i['place'], i['unitInfo'], i['pubDate']]
        csvwrite.writerow(temp)
   


if __name__ == "__main__":
    url = 'http://www.xinfadi.com.cn/getPriceData.html'
    download(url)
    print('success')

** 此為第一個頁面信息提取:**

3、獲取更多的信息

分析頁面數據顯示規律,請求地址時頁面攜帶頁碼和需要顯示數據的條數,一共頁,每頁20條數據

設置100個線程提取頁數據,同時每次請求時傳入頁碼

def download(url, num):
    data = {
        "limit": 20,
        "current": num
    }
    resp = requests.post(url, data=data).json()
    for i in resp['list']:
        temp = [i['prodName'], i['lowPrice'], i['highPrice'], i['avgPrice'], i['place'], i['unitInfo'], i['pubDate']]
        csvwrite.writerow(temp)
    print(f'{num}頁提取完成')


if __name__ == "__main__":
    url = 'http://www.xinfadi.com.cn/getPriceData.html'
    # 設置100個線程
    with ThreadPoolExecutor(100) as t:
        for i in range(1, ):
            t.submit(download(url, i))
    print('success')

4、完整代碼

# 1、提取單頁面

import requests
import csv
from concurrent.futures import ThreadPoolExecutor

f = open("data.csv", mode="w", encoding="utf-8")
csvwrite = csv.writer(f)


def download(url, num):
    data = {
        "limit": 20,
        "current": num
    }
    resp = requests.post(url, data=data).json()
    for i in resp['list']:
        temp = [i['prodName'], i['lowPrice'], i['highPrice'], i['avgPrice'], i['place'], i['unitInfo'], i['pubDate']]
        csvwrite.writerow(temp)
    print(f'{num}頁提取完成')


if __name__ == "__main__":
    url = 'http://www.xinfadi.com.cn/getPriceData.html'
    # 設置100個線程
    with ThreadPoolExecutor(100) as t:
        for i in range(1, ):
            t.submit(download(url, i))
    print('success')

以下為第1頁~第199頁數據:

網頁名稱：【爬蟲實例3】異步爬取大量數據
網站鏈接：http://www.yijiale78.com/article44/dsogiee.html

成都網站建設公司_創新互聯，為您提供建站公司、ChatGPT、軟件開發、網站設計、域名注冊、企業建站

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

99偷拍视频精品区一区二,口述久久久久久久久久久久,国产精品夫妇激情啪发布,成人永久免费网站在线观看,国产精品高清免费在线,青青草在线观看视频观看,久久久久久国产一区,天天婷婷久久18禁,日韩动漫av在线播放直播

【爬蟲實例3】異步爬取大量數據

1、導入模塊

2、先獲取第一個頁面的內容

3、獲取更多的信息

4、完整代碼

4、完整代碼