文章重復(fù)性的感受 |
發(fā)布時(shí)間: 2012/9/3 11:14:03 |
se可以說一個(gè)是由全球頂尖的it工程師們開發(fā)出的超大型算法程序,遠(yuǎn)沒有想象的那么簡單。 判斷文章相似度并不是簡單的看一個(gè)頁面 se判斷相似度是一個(gè)綜合指標(biāo),并不是簡單的看你某頁面是否與數(shù)據(jù)庫里的某個(gè)頁面相似,而是基于整站構(gòu)架的考慮,如果你全是采集,目錄構(gòu)架和采集站一樣的話,仍然能識(shí)別出你是重復(fù)內(nèi)容,所以即使你每個(gè)頁面都加一些例如轉(zhuǎn)載信息類的文字來試圖和原頁面不同,如果正文還是采集回來的話,se仍然能識(shí)別出你是重復(fù)內(nèi)容。 并不是說換了套不一樣的模板就顯得不相似了 se處理頁面文字是將所有的html代碼去掉看的,所以并不是說換個(gè)模板它就認(rèn)為你和原頁面不形似。 另外如果是已經(jīng)做了一段時(shí)間的站建議不要換模板,因?yàn)閾Q模板可能會(huì)把每個(gè)頁面的內(nèi)部鏈接變掉,有可能會(huì)影響搜索引擎收錄,如果實(shí)在要換,建議保持原有頁面的內(nèi)部鏈接規(guī)則。 se會(huì)把每個(gè)元素分解開來處理 se判別相似度的因素很多,他會(huì)把頁面的所有因素都劈開,如頁面title,整體布局,文字信息,內(nèi)部鏈接架構(gòu),url規(guī)律,再綜合評(píng)判你是否相似。 所以除非你能把采集回來的東西把這些因素都和原站幾乎所有的因素都不形似,但是如果你真能做到的話,那也就不叫采集了。 本文出自:億恩科技【www.allwellnessguide.com】 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |