日志分析:數(shù)據(jù)不會說謊 但要學(xué)會挖掘 |
發(fā)布時間: 2012/9/23 15:32:56 |
下面就寫一下自己如何分析一個垃圾站的過程,來堅定下大家做日志分析的信心。
起因:前段時間做了個垃圾站來玩玩,做好之后又失去了激情,就在那里放著了,提交了百度、谷歌,沒有做過外鏈,只是最近幾天隨手發(fā)了幾個垃圾帖子,算作外鏈吧。因為時間興趣等原因,只是偶爾下載日志來看一下,沒有做數(shù)據(jù)記錄,沒有仔細的觀察。 經(jīng)過:一直以來百度只是收錄了首頁,谷歌收錄還不錯但是沒有排名沒有流量。前天突然興起想要把這站整一下,就去查看了一下日志,發(fā)現(xiàn)不論百度還是谷歌蜘蛛來的次數(shù)很少,抓取也是少得可憐。 結(jié)論:仔細分析了下,發(fā)現(xiàn)原來已經(jīng)在很多地方體現(xiàn)了現(xiàn)在的惡劣后果。 1.蜘蛛來的次數(shù)很少,雖然網(wǎng)站沒有做外鏈,但是對于一個架構(gòu)合理的網(wǎng)站(已經(jīng)提交搜索引擎抓。﹣碚f,一個月的時間已經(jīng)能夠積累一定權(quán)重讓很多蜘蛛來主動抓取了(看抓取次數(shù))。 2.抓取數(shù)量很少,抓取數(shù)量=總抓取時間/每個頁面加載時間,根據(jù)日志查看的總抓取時間和監(jiān)控寶監(jiān)控的網(wǎng)頁加載時間,數(shù)據(jù)嚴重不相符(對比上圖的總停留時間、總抓取量和下圖的響應(yīng)時間,悲劇的被遮住了重要數(shù)據(jù),是337ms)。 3.再看日志源文件,蜘蛛的抓取應(yīng)該是快速密集的,通過數(shù)據(jù)提取明顯有很大的問題(注意蜘蛛兩次抓取時間間隔,應(yīng)該是密集的,這是網(wǎng)站改動后還算正常的截圖,之前的一塌糊涂)。 4.仔細觀察就會發(fā)現(xiàn)日志中路徑的抓取錯誤和返回碼的錯誤(注意狀態(tài)碼,蜘蛛居然主動給后邊加了/,抓取1746.html/ 才是返回200)。 5.谷歌網(wǎng)站管理員工具的應(yīng)用,有一個功能:像Googlebot一樣抓取。在這里可以測試一個網(wǎng)頁是否能被谷歌抓取成功和網(wǎng)頁的返回狀態(tài)碼,自己之前只是測試了首頁,這次測試了下內(nèi)頁居然返回的是301。 6.結(jié)論:空間商的偽靜態(tài)規(guī)則有問題造成了網(wǎng)站的偽靜態(tài)出現(xiàn)返回301的錯誤。 事后感想:我也不知道有什么感想,總之很亂。這些錯誤是很容易發(fā)現(xiàn)的,只是由于自己的疏忽或者是懶惰吧。 再一次證明日志分析,數(shù)據(jù)分析的強大!! 本文出自:億恩科技【www.allwellnessguide.com】 服務(wù)器租用/服務(wù)器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |