如何解決Google網(wǎng)站管理員工具的抓取錯(cuò)誤 |
發(fā)布時(shí)間: 2012/9/10 11:37:29 |
“抓取錯(cuò)誤”是 Google網(wǎng)站管理員工具(Webmaster Tools)中最受歡迎的工具之一。它可以幫助你檢查錯(cuò)誤的鏈接,不僅僅是URL鏈接,還包行DNS解析失敗、服務(wù)器鏈接、robots.txt 文件等問(wèn)題,幾乎所有網(wǎng)站都會(huì)出現(xiàn)抓取錯(cuò)誤。
網(wǎng)站站長(zhǎng)工具將錯(cuò)誤分為兩類:網(wǎng)站錯(cuò)誤(site errors)和鏈接地址錯(cuò)誤(URL errors)。如果在一個(gè)網(wǎng)站上出現(xiàn)多個(gè)抓取錯(cuò)誤,那么你的網(wǎng)站信任度會(huì)下降,甚至?xí)绊懙脚琶?dāng)然這工具對(duì)于百度優(yōu)化同樣有效。那么應(yīng)當(dāng)如何解決Google網(wǎng)站管理員工具的抓取錯(cuò)誤呢。
通過(guò)Googlebot抓取的錯(cuò)誤分類就看知道是什么導(dǎo)致抓取錯(cuò)誤的原因了。
一、HTTP的錯(cuò)誤
當(dāng)一個(gè)網(wǎng)站上的網(wǎng)頁(yè)(例如,當(dāng)用戶在瀏覽器中訪問(wèn)您的網(wǎng)頁(yè)或Googlebot抓取頁(yè)面時(shí))到您的服務(wù)器發(fā)出請(qǐng)求,服務(wù)器返回HTTP狀態(tài)碼響應(yīng)請(qǐng)求。
如果出現(xiàn)403狀態(tài),可以不用理睬,這表明是你的主機(jī)阻止了Googlebot抓取。對(duì)于所有HTTP狀態(tài)碼的列表文件,可以參考Google HTTP狀態(tài)碼幫助頁(yè)面。
二、Sitemap中的錯(cuò)誤
Sitemap錯(cuò)誤往往會(huì)造成404錯(cuò)誤頁(yè)面,或在當(dāng)前地圖返回一個(gè)404錯(cuò)誤頁(yè)面,如果出現(xiàn)404錯(cuò)誤頁(yè)面請(qǐng)檢查Sitemap中所有的鏈接,
Google會(huì)不斷抓取你已經(jīng)刪除的Sitemap,這點(diǎn)很郁悶,但也有辦法解決:確保舊的Sitemap已經(jīng)在管理員工具中被刪除。如果不想被抓取,確保舊Sitemap出現(xiàn)404或者重新定向到新的Sitemap。
來(lái)自Google員工Susan Moskwa解釋道:
阻止Googlebot的爬行,最好的辦法是使這些網(wǎng)址(例如舊的sitemaps)出現(xiàn)404,當(dāng)我們看到一個(gè)URL多次出現(xiàn)404后,Googlebot會(huì)停止爬行。
三、重定向錯(cuò)誤
有些錯(cuò)誤是因?yàn)?01從定向引起的,執(zhí)行重定向后要注意什么:
1:確保他們返回到正確的HTTP狀態(tài)碼。
2:確保沒(méi)有任何循環(huán)重定向。
3:確保重定向指向有效的網(wǎng)頁(yè),而不是404頁(yè),或其他錯(cuò)誤頁(yè),如503(服務(wù)器錯(cuò)誤)或403(禁止抓取)
4:確保重定向不是指向一個(gè)空頁(yè)面。
四、404錯(cuò)誤
404錯(cuò)誤可能會(huì)出現(xiàn)在以下幾個(gè)方面:
1:刪除了網(wǎng)站上的網(wǎng)頁(yè);
2:改變了網(wǎng)頁(yè)的名稱;
4:鏈接到了一個(gè)不存在的頁(yè)面;
5:其他網(wǎng)站鏈接到你網(wǎng)站上一個(gè)不存在的頁(yè)面;
6:網(wǎng)站遷移到一個(gè)新的域名不完全匹配的網(wǎng)站。
五、受robots.txt限制
還有一個(gè)原因是robots.txt文件阻止了Googlebot的抓取,如果出現(xiàn)大量抓取錯(cuò)誤,第一步應(yīng)該檢查robots.txt
六、軟404錯(cuò)誤
通常情況下,當(dāng)有人請(qǐng)求的頁(yè)面不存在,服務(wù)器將返回一個(gè)404(未找到)錯(cuò)誤。除了在響應(yīng)請(qǐng)求的頁(yè)面不存在返回404代碼,服務(wù)器也將顯示一個(gè)404頁(yè)。 這可能是一個(gè)標(biāo)準(zhǔn)的“未找到文件”的消息,或旨在提供更多信息的用戶,它可能是一個(gè)自定義頁(yè)面。 頁(yè)的內(nèi)容是由服務(wù)器返回的HTTP響應(yīng)完全無(wú)關(guān)。僅僅因?yàn)橐粋(gè)頁(yè)面顯示404文件未找到消息并不意味著它是一個(gè)404頁(yè)。
七、超時(shí)
網(wǎng)站超時(shí)也是出現(xiàn)抓取錯(cuò)誤的原因之一,如果出現(xiàn)超時(shí)現(xiàn)象,Googlebot會(huì)停止抓取。超時(shí)的錯(cuò)誤類型有:
1:DNS超時(shí),可以使用Nslookup 命令檢測(cè)DNS,出現(xiàn)DNS超時(shí)最大的因素是域名服務(wù)商的DNS服務(wù)器不穩(wěn)定。
2:網(wǎng)址超時(shí),在某一個(gè)特定頁(yè)面,而不是整個(gè)域的錯(cuò)誤。
3:robots.txt超時(shí),如果你網(wǎng)站有robots.txt,但服務(wù)器超時(shí),Googlebot會(huì)假定該文件不存在。
4:動(dòng)態(tài)網(wǎng)頁(yè)的響應(yīng)時(shí)間過(guò)長(zhǎng)而造成網(wǎng)頁(yè)載入時(shí)間過(guò)長(zhǎng)。 本文出自:億恩科技【www.allwellnessguide.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |