国产精品主播一区二区-国产一级不卡毛片-日本少妇中出-国产视频第二页-青草精品视频-亚洲熟妇丰满多毛xxxx-日韩福利在线-成年人免费观看在线视频-久久久www-91在线视频观看无毒不卡-999国产精品-91久久爽久久爽爽久久片-和搜子居同的日子2hd高清看-鬼眼 电影-中文在线精品-综合网久久-国产精品美女久久久久久

使用高質(zhì)量動(dòng)態(tài)ip設(shè)計(jì)分布式爬蟲的一些思路

高質(zhì)量代理ip的分布式爬蟲設(shè)計(jì)思路!如果沒有代理ip,爬蟲業(yè)務(wù)肯定沒有辦法工作,所以大部分爬蟲工作者都會(huì)購買安全穩(wěn)定的代理ip。使用高質(zhì)量的代理ip后,你能沒有后顧之憂嗎?這不會(huì)那么容易。我們需要改進(jìn)方案,有效分配資源,提高工作效率,快速、穩(wěn)定、高效地完成爬蟲。
 
 
 
 
 
 
方案一。每個(gè)進(jìn)程從接口API中隨機(jī)選擇一個(gè)IP列表重復(fù)使用,失敗后再調(diào)用API獲取。一般邏輯如下:
 
 
 
1.對(duì)于每個(gè)進(jìn)程,從接口隨機(jī)檢索一批ip,反復(fù)嘗試ip目錄抓取數(shù)據(jù);
 
 
 
2.如果訪問成功,繼續(xù)抓取下一個(gè)。
 
 
 
3.如果失敗,請(qǐng)從接口中取出一批IP,然后重試。
 
 
 
缺點(diǎn):每個(gè)IP都有時(shí)間限制。如果抽取一百個(gè),用第二十個(gè),可能剩下的大部分都用不上。如果設(shè)置HTTP請(qǐng)求時(shí)連接時(shí)間超時(shí)為3秒,讀取時(shí)間超時(shí)為5秒,可能需要3-8秒,在這3-8秒內(nèi)可能被抓取上百次。
 
 
 
方案二:每個(gè)進(jìn)程從接口API中隨機(jī)選擇一個(gè)IP使用。如果失敗,它調(diào)用應(yīng)用編程接口來獲取一個(gè)IP。一般邏輯如下:
 
 
 
1.每個(gè)進(jìn)程從接口中隨機(jī)檢索一個(gè)ip,并使用這個(gè)ip來瀏覽資源。
 
 
 
2.如果訪問成功,繼續(xù)趕上下一個(gè)。
 
 
 
3.如果失敗,從接口中隨機(jī)選擇一個(gè)IP并繼續(xù)嘗試。
 
 
 
缺點(diǎn):調(diào)用API獲取IP的行為非常頻繁,會(huì)給代理服務(wù)器帶來很大的壓力,影響API接口的穩(wěn)定性,可能會(huì)限制抽取。這種方案不適合,不能長(zhǎng)期穩(wěn)定運(yùn)行。
 
 
 
方案三:首先提取大量IP導(dǎo)入本地?cái)?shù)據(jù)庫,從數(shù)據(jù)庫中提取IP。一般邏輯如下:
 
 
 
1.在數(shù)據(jù)庫中創(chuàng)建一個(gè)表,編寫一個(gè)導(dǎo)入腳本,以及每分鐘有多少個(gè)API請(qǐng)求(IP模擬器代理可以提供動(dòng)態(tài)vps)將IP列表導(dǎo)入數(shù)據(jù)庫。
 
 
 
2.在數(shù)據(jù)庫中記錄imPort時(shí)間、IP、端口、過期時(shí)間、IP可用性等字段;
 
 
 
3.編寫一個(gè)爬行腳本,從數(shù)據(jù)庫中讀取可用的IP,每個(gè)進(jìn)程從數(shù)據(jù)庫中獲取一個(gè)IP供使用。
 
 
 
4.進(jìn)行抓取,判斷結(jié)果,處理cookie等。如果有驗(yàn)證碼或者失敗,放棄這個(gè)IP,換成另一個(gè)IP。
 
 
 
該方案有效避免了代理服務(wù)器資源的消耗,有效分配了代理IP的使用,更加高效穩(wěn)定,保證了爬蟲工作的持久性和穩(wěn)定性。
 
荔波县| 利川市| 平陆县| 乌审旗| 增城市| 建湖县| 通州区| 彭山县| 巴彦淖尔市| 牙克石市| 榕江县| 台东县| 东乌珠穆沁旗| 出国| 天峻县| 西城区| 芮城县| 新巴尔虎左旗| 深泽县| 汶上县| 象州县| 绿春县| 工布江达县| 永泰县| 会昌县| 宣武区| 新竹县| 延庆县| 西盟| 宝坻区| 德惠市| 隆化县| 苏尼特左旗| 金湖县| 翁牛特旗| 太仓市| 东丰县| 保德县| 镇原县| 龙山县| 长汀县|