搜索引擎的兩種基本抓取策略 |
發(fā)布時間: 2012/9/11 11:18:12 |
大家好,這里是雅安seo優(yōu)化博客。今天我們來說說搜索引擎的收錄過程中所采取的收錄抓取策略。
蜘蛛在完成對robots.txt文件的訪問之后便會開始對所進(jìn)入的頁面進(jìn)行判斷是否符合收錄標(biāo)準(zhǔn),如果符合,那么提取其內(nèi)容和鏈接。這個頁面抓取完成之后,還沒完,蜘蛛還會順著所提取的鏈接探索下去,從這個鏈接爬到下一個頁面,又從下一個頁面上的鏈接爬到再下一個頁面......
由于互聯(lián)網(wǎng)上的頁面鏈接結(jié)構(gòu)異常復(fù)雜,蜘蛛需要采用一定的策略才能爬行到網(wǎng)上的所有頁面。最簡單的搜索引擎抓取策略有兩種:
1、深度優(yōu)先策略
如上圖,簡單點(diǎn)來說就是沿著一條路線垂直深入的爬行下去,直到完成任務(wù)。
2、廣度優(yōu)先策略
如上圖,簡單說就是先把指定的一個頁面上的所有鏈接爬行一遍,然后再從每條鏈接深入同樣平行地進(jìn)行爬行。
在實(shí)際中,這兩種策略是同時發(fā)生的,理論上只要給予足夠的時間,搜索引擎蜘蛛就可以爬完所有的頁面。但是蜘蛛的帶寬資源、時間并不是無限的,所以蜘蛛只能爬行一定的時間,權(quán)重越高的網(wǎng)站自然爬行的時間越長。
搜索蜘蛛的目的就是探索到有價值的頁面并收錄,這就是為什么權(quán)重高的站爬行時間長,抓取度深的原因。所以我們建議新站的網(wǎng)站鏈接層次不要過深,免得蜘蛛在短時間內(nèi)爬行不到。
在收索引擎蜘蛛爬行完畢之后,便會把搜集到的網(wǎng)頁數(shù)據(jù)交給數(shù)據(jù)分析系統(tǒng),整個收錄過程便結(jié)束了。好了,今天的seo基礎(chǔ)就到這里。 本文出自:億恩科技【www.allwellnessguide.com】 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |