国产精品主播一区二区-国产一级不卡毛片-日本少妇中出-国产视频第二页-青草精品视频-亚洲熟妇丰满多毛xxxx-日韩福利在线-成年人免费观看在线视频-久久久www-91在线视频观看无毒不卡-999国产精品-91久久爽久久爽爽久久片-和搜子居同的日子2hd高清看-鬼眼 电影-中文在线精品-综合网久久-国产精品美女久久久久久

盤點網(wǎng)絡(luò)爬蟲幾種常見類型

根據(jù)系統(tǒng)結(jié)構(gòu)和實現(xiàn)技術(shù),網(wǎng)絡(luò)爬蟲大致可以分為以下幾種類型:通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量網(wǎng)絡(luò)爬蟲和深度網(wǎng)絡(luò)爬蟲。實際的網(wǎng)絡(luò)爬蟲系統(tǒng)通常是通過幾種爬蟲技術(shù)的結(jié)合來實現(xiàn)的。
 
 
一、通用網(wǎng)絡(luò)爬蟲
 
一般的網(wǎng)絡(luò)爬蟲稱為全網(wǎng)爬蟲,抓取對象從一些種子URL擴展到全網(wǎng),主要為門戶網(wǎng)站搜索引擎和大型Web服務(wù)提供商收集網(wǎng)絡(luò)數(shù)據(jù)。由于商業(yè)服務(wù),他們的技術(shù)細節(jié)不太公開。這類網(wǎng)絡(luò)爬蟲的爬行類別和數(shù)量巨大,對爬行速度和存儲空間要求較高,爬行順序相對較低。同時,由于需要刷新的頁面太多,通常會并行工作,但是刷新一次頁面需要很長時間。雖然存在一些不足,但通用網(wǎng)絡(luò)爬蟲適用于搜索引擎搜索廣泛的主題,具有很強的應(yīng)用價值。
 
二、增量式網(wǎng)絡(luò)爬蟲
 
增量式網(wǎng)絡(luò)爬蟲是指對下載的網(wǎng)頁進行增量更新,只抓取新生成或更改的網(wǎng)頁的爬蟲。它可以在一定程度上保證抓取的頁面盡可能的新。與周期性抓取和刷新頁面的網(wǎng)絡(luò)爬蟲相比,增量爬蟲只在需要時抓取新生成或更新的網(wǎng)頁,不重新下載不變的網(wǎng)頁,可以有效減少數(shù)據(jù)下載量,及時更新抓取的網(wǎng)頁,減少時間和空間消耗,但增加了抓取算法的復(fù)雜度和實現(xiàn)難度。增量式網(wǎng)絡(luò)爬蟲的體系結(jié)構(gòu)包括爬行模塊、排序模塊、更新模塊、本地頁面集、待爬行URL集和本地頁面URL集等。
 
三、深度網(wǎng)絡(luò)爬蟲
 
網(wǎng)頁按照存在方式可以分為表層網(wǎng)頁和深層網(wǎng)頁(也稱為不可見網(wǎng)頁或隱藏網(wǎng)頁)。Surface Web頁面是指傳統(tǒng)搜索引擎可以索引的網(wǎng)頁,主要由超鏈接可以到達的靜態(tài)網(wǎng)頁組成。Deep Web是一個大部分內(nèi)容無法通過靜態(tài)鏈接獲取的網(wǎng)頁,隱藏在搜索表單的背后,只能通過用戶提交一些關(guān)鍵詞來獲取。例如,那些內(nèi)容只有在用戶注冊后才能看到的網(wǎng)頁屬于深度網(wǎng)絡(luò)。2000年,光明星球指出,深度網(wǎng)的可訪問信息容量是表層網(wǎng)的幾百倍,是互聯(lián)網(wǎng)上規(guī)模最大、增長最快的新信息資源。
 
IP模擬器代理IP代理,國內(nèi)最可靠的IP代理,高度匿名代理,API調(diào)用頻率快,并發(fā)請求數(shù)量不限,價格低,速度快穩(wěn)定,多機調(diào)用,免費試用!
 
蒙山县| 年辖:市辖区| 金昌市| 辽源市| 汉阴县| 钟祥市| 明星| 田阳县| 武乡县| 西盟| 建宁县| 富源县| 墨脱县| 奎屯市| 杨浦区| 九江市| 百色市| 十堰市| 额济纳旗| 津市市| 巴彦县| 吕梁市| 施甸县| 兴安县| 磴口县| 喀喇沁旗| 巴彦淖尔市| 余江县| 浦东新区| 从江县| 顺平县| 东阳市| 烟台市| 平安县| 兰溪市| 德格县| 永善县| 建平县| 阜平县| 阜新市| 东乡族自治县|