国产精品主播一区二区-国产一级不卡毛片-日本少妇中出-国产视频第二页-青草精品视频-亚洲熟妇丰满多毛xxxx-日韩福利在线-成年人免费观看在线视频-久久久www-91在线视频观看无毒不卡-999国产精品-91久久爽久久爽爽久久片-和搜子居同的日子2hd高清看-鬼眼 电影-中文在线精品-综合网久久-国产精品美女久久久久久

高質(zhì)量代理ip分布式爬蟲的使用

如果沒(méi)有代理ip,爬蟲業(yè)務(wù)肯定沒(méi)有辦法工作,所以大部分爬蟲工作者都會(huì)購(gòu)買安全穩(wěn)定的代理ip。使用高質(zhì)量的代理ip后,你能沒(méi)有后顧之憂嗎?不會(huì)那么容易。我們需要改進(jìn)方案,有效分配資源,提高工作效率,快速、穩(wěn)定、高效地完成爬蟲。
 
 
方案一。每個(gè)進(jìn)程從接口API中隨機(jī)選擇一個(gè)IP列表重復(fù)使用,失敗后再調(diào)用API獲取。一般邏輯如下:
 
1.對(duì)于每個(gè)進(jìn)程,從接口隨機(jī)檢索一批ip,反復(fù)嘗試ip目錄抓取數(shù)據(jù);
 
2.如果訪問(wèn)成功,繼續(xù)抓取下一個(gè)。

3.如果失敗,請(qǐng)從接口中取出一批IP,然后重試。
 
缺點(diǎn):每個(gè)IP都有時(shí)間限制。如果抽取一百個(gè),用第二十個(gè),可能剩下的大部分都用不上。如果設(shè)置HTTP請(qǐng)求時(shí)連接時(shí)間超時(shí)為3秒,讀取時(shí)間超時(shí)為5秒,可能需要3-8秒,在這3-8秒內(nèi)可能被抓取上百次。
 
方案二:每個(gè)進(jìn)程從接口API中隨機(jī)選擇一個(gè)IP使用。如果失敗,它調(diào)用應(yīng)用編程接口來(lái)獲取一個(gè)IP,一般邏輯如下:
 
1.每個(gè)進(jìn)程從接口中隨機(jī)檢索一個(gè)ip,并使用這個(gè)ip來(lái)瀏覽資源。
 
2.如果訪問(wèn)成功,繼續(xù)趕上下一個(gè)。
 
3.如果失敗,從接口中隨機(jī)選擇一個(gè)IP并繼續(xù)嘗試。
 
缺點(diǎn):調(diào)用API獲取IP的行為非常頻繁,會(huì)給代理服務(wù)器帶來(lái)很大的壓力,影響API接口的穩(wěn)定性,可能會(huì)限制抽取。這種方案不適合,不能長(zhǎng)期穩(wěn)定運(yùn)行。
 
方案三:首先提取大量IP導(dǎo)入本地?cái)?shù)據(jù)庫(kù),從數(shù)據(jù)庫(kù)中提取IP。一般邏輯如下:

1.在數(shù)據(jù)庫(kù)中創(chuàng)建一個(gè)表,編寫一個(gè)導(dǎo)入腳本,以及每分鐘有多少個(gè)API請(qǐng)求將IP列表導(dǎo)入數(shù)據(jù)庫(kù)。
 
2.在數(shù)據(jù)庫(kù)中記錄imPort時(shí)間、IP、端口、過(guò)期時(shí)間、IP可用性等字段;
 
3.編寫一個(gè)爬行腳本,從數(shù)據(jù)庫(kù)中讀取可用的IP,每個(gè)進(jìn)程從數(shù)據(jù)庫(kù)中獲取一個(gè)IP供使用。
 
4.進(jìn)行抓取,判斷結(jié)果,處理cookie等。如果有驗(yàn)證碼或者失敗,放棄這個(gè)IP,換成另一個(gè)IP。
 
該方案有效避免了IP代理服務(wù)器資源的消耗,有效分配了代理IP的使用,更加高效穩(wěn)定,保證了爬蟲工作的持久性和穩(wěn)定性。
 
鸡泽县| 迁安市| 新和县| 浦北县| 石景山区| 罗平县| 雷山县| 沂水县| 乌鲁木齐县| 旬阳县| 安义县| 尚义县| 天津市| 郎溪县| 莎车县| 屏山县| 寻乌县| 双牌县| 中卫市| 望谟县| 乌拉特中旗| 阜城县| 锦州市| 洛扎县| 三江| 宁陵县| 尤溪县| 太原市| 海晏县| 札达县| 通榆县| 崇左市| 贵州省| 理塘县| 福贡县| 贡山| 定陶县| 顺义区| 高台县| 武城县| 察雅县|