如何掌控robots對自己網站的存取?

in

  今天瞭解了一下這部分,因為網站這麼多東西,也許會有些東西是不想被搜尋到的,比方說只是要暫時上傳到空間、或是開一個目錄拿來放現在正在進行測試的網站等等(我接case時就會必須放到我的空間測試),又不能直接關掉權限,因為還是需要能夠存取,這種情況又不希望被登記到搜尋引擎裡面弄亂我的網站索引。所以就需要用到robots.txt這個檔案。

  其實Google在這部分說得滿清楚了。以下我整理出一些要點。

1. robots.txt 必須存放在網域的根目錄。
2. 語法:User-Agent 和 Disallow。意思就是「你不要誰(User-Agent)來存取哪些東西(Disallow)?」
3. googlebot特有語法:Allow,讓google某些bot搜尋剛剛你有Disallow過的特定資料。
4. 使用「*」來代表一串任意字元
5. 使用「$」表示 URL 的結尾字元(副檔名)

 
範例:

所有robots無法檢索目錄folder1
User-Agent:*
Disallow: /folder1/

所有robots無法檢索目錄folder1但可以檢索裡面的myfile.html
User-Agent:*
Disallow: /folder1/
Allow:/folder1/myfile.html

無法檢索特定檔案
User-Agent:*
Disallow: /private_file.html

無法檢索特定檔案類型
User-Agent:*
Disallow: /*.gif$

無法檢索動態產生的網頁
User-Agent:*
Disallow: /*?

只讓google adsense檢索某網頁
User-Agent:*
Disallow:/folder1/


User-Agent:MediaPartners-Google
Allow:/folder1/

攔截所有以 private 開頭之子目錄的存取
User-Agent:Googlebot
Disallow:/private*/

常用User-Agent列表(Robots):

* Googlebot:Google 網頁索引及新聞索引
* MediaPartners-Google:Google Adsense 索引網頁以決定廣告內容
* Googlebot-Mobile:Google手機網頁索引
* Googlebot-Image:索引網站裡的圖片
* Adsbot-Google:索引廣告主的廣告網頁來看品質如何
* Feedfetcher-Google:Google的Feed/RSS索引
* MSNBot:MSN 索引機器人
* del.icio.us-thumbnails:del.icio.us的網站縮略圖擷圖robot
* Yahoo-Blogs:Yahoo部落格索引
* Yahoo-MMAudVid:Yahoo多媒體檔案索引
* YahooFeedSeeker:Yahoo的Feed/RSS索引

回應

eEvB22 lwrcomxjsqgk, [url=http://sowegfumgsst.com/]sowegfumgsst[/url], [link=http://knernnavtgtv.com/]knernnavtgtv[/link], http://gopzsltcncci.com/

comment2, viagra sur internet, 7363,

4, buy viagra, cbfsa,

3, viagra generique, 38010,

3, buy viagra cheap, 922,

6, cheap generic viagra, rzbrgv,

5, prix du viagra, shkuca,

6, buy viagra online, ayezwy,

發表新回應

這個欄位的內容會保密,不會公開顯示。
  • 自動將網址與電子郵件位址轉變為連結。
  • 可使用的 HTML 標籤:<a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • 自動斷行和分段。

更多關於格式選項的資訊