控制搜索引擎訪問和索引你的網站 |
發(fā)布時間: 2012/9/16 9:51:15 |
我經常被問到 Google(谷歌)和搜索引擎是怎樣運轉的。一個核心問題是:谷歌是怎樣知道一個網站的哪些部分是網站所有者想讓它們顯示在搜索結果中?網站內容發(fā)布者能夠指定部分網站不被搜索嗎?好消息是,網站內容發(fā)布者可以使用很多方法控制你們的網頁在搜索結果中的顯示。 文件 robots.txt 是這里的主角,該文件已經成為業(yè)界標準好多年了。它讓一個網站所有者控制搜索引擎訪問他們的網站。你可以用 robots.txt 不同層次地控制訪問,比如讓搜索引擎只訪問整個網站,單個目錄,特定類型的網頁,或者某一網頁。有效地使用 robots.txt 能讓你更好地控制對你的網站 的搜索,但是如何達到這一目標不是很顯而易見的。這是我們關于如何使用 robots.txt 來控制對你的網站的存取的一系列帖子的第一篇。 文件 robots.txt 有什么用? 互聯(lián)網真的很大。你只是不相信它是怎樣地無窮無盡地大。你也許認為維護網站耗費好多精力,但是那只是“網海一粟”。 (對 Douglas Adams 致以誠摯的道歉) 象谷歌這樣的搜索引擎會讀取所有信息并對這些信息索引,索引是為了讓一個搜索引擎對一些用戶查詢顯示與之相匹配的網頁。 為了做到這一點谷歌的一些電腦不斷抓取網站,他們有一個谷歌所知道的所有網站的名單,他們閱讀每個網站的所有網頁。所有這些機器被稱為謠 Googlebot。一般來說,你是愿意讓 Googlebot 訪問你的網站,這樣你的網頁才可以被人們在谷歌搜到。 然而,對你的網站上的某幾頁,你可能不想讓谷歌索引。舉例來說,你可能有一個目錄包含內部日志,或者你可能有些新聞文章只能在支付費用后才能訪問。你可以通過創(chuàng)建一個文本文件名為 robots.txt 的文件并把它放置在根目錄下來告訴谷歌爬蟲不要去抓取他們。文件 robots.txt 包含了一個搜索引擎不能訪問的頁面的清單。創(chuàng)建一個 robots.txt 是直截了當?shù)模试S你用一套精密分層控制搜索引擎對你網站的訪問。 精細控制 除了 robots.txt 文件讓您為你的一大堆文件簡潔明了給出指令外,你也可以利用 robots META 標簽來精確控制對你的單個網頁的訪問。為了做到這一點,你只需要對你的 HTML 網頁添加特定的 META 標簽來控制怎樣對單個網頁索引。歸而總之,robots.txt 和 META 標簽讓你更靈活地表達復雜的訪問規(guī)定變得比較容易。 一個簡單的例子 這里是一個簡單的例子,它是一個 robots.txt 文件。 User-Agent: Googlebot Disallow: /logs/ User -Agent 行指明下面部分的一套指令只是為 Googlebot。所有主要搜索引擎都閱讀并聽從你放在 robots.txt 的指令。只要你愿意,你可以為不同的搜索引擎指定不同的規(guī)則。Disallow 行告訴 Googlebot 不能進入你網站的檔案日志子目錄。你放在日志目錄中的內容將不會顯示在谷歌搜索 結果中。 禁止訪問單個文件 如果你有一篇只有注冊用戶才能訪問的文章,你一定想讓它排除在谷歌的結果之外。為了做到這一點,你只需要在該文章對應的 HTML 文件中添加一個 META 標簽。該文件的代碼的最開始有點像: <html> <head> <meta name="googlebot" content="noindex"> ... 這段代碼會阻止谷歌索引此文件。標簽 META 特別有用,如果你只被允許編輯單個文件,而不是全站的 robots.txt。他們還允許你逐頁地指定復雜的訪問控制規(guī)定。 本文出自:億恩科技【www.allwellnessguide.com】 |