[SEO教學,SEO觀念] robots.txt

之前Mr.King在當網管的時候,有一陣子主機的資源幾乎被大陸的搜尋引擎(SOSO)給吃光了,因為這是一台FTP Server 大部分的同學都沒有做好安全防護,幾乎所有的檔案都放在public_html底下,所以造成主機的loading非常的大,當下Mr.King就先利用 robots.txt 限制搜尋引擎的搜尋,接著Mr.King還親自寫mail過去告知對方,不要再那麼頻繁的搜尋我的主機,那次的事件才告一段落。

本文開始

到底robots.txt是幹嘛用的呢?簡單的說 robots.txt 就是各位的主機與搜尋引擎溝通的一個管道,它可以跟任一搜尋引擎溝通,也可以告訴對方哪些資料夾或檔案是不能夠被搜尋的,不過這並不是一個標準的協定,只是一些搜尋引擎一起訂出來的,所以對一些大型的BOT或者有點用,但是有一些飢餓的BOT還是會照樣搜尋的。有興趣可以到 The Web Robots Pages 看看官方教學唷!

 

如何製作一個 robots.txt

其實一個 robots.txt 裡面只有兩個資料要填,一個完整的範例如下,搜尋引擎的名稱可以在你的主機被訪問後得知對方的名稱。請注意 robots.txt全部小寫唷!!!

User-Agent: 對象搜尋引擎的名字

Disallow:目錄底下的所有檔案接拒絕被搜尋

Allow:僅開放此目錄開放搜尋

 

User-Agent 該怎麼填

 如果你想要跟所有的搜尋引擎說的話,可以直接打這樣

User-Agent: *

如果你只是想要跟某一個搜尋引擎通知的話,以Google為例:

User-Agent: Googlebot

如果你想要跟特定但多個搜尋引擎對話的話,就可以分段打( Slurp 是 Yahoo 的)

User-Agent: Googlebot

Disallow: /

  

User-Agent: Slurp

Disallow: /

 常見的ROBOT是

Baiduspider http://www.baidu.com(百度)

Slurp http://www.inktomi.com(Yahoo)

MSNBOT http://search.msn.com(MSN)

Scooter http://www.altavista.com

ia_archiver http://www.alexa.com

Googlebot http://www.google.com(Google)

FAST-WebCrawler http://www.alltheweb.com

怎麼限制或開放指定的目錄

如果你要全部拒絕被搜尋的話,可以打

Disallow: /

OR

Allow:

如果是全部開放搜尋(預設就是這樣)

Disallow:

OR

Allow: /

如果是特定目錄的話,就只要放置該目錄的位置就可以了 

 

不想製作 robots.txt 該怎麼辦

一定會有人覺得要做一個檔案太麻煩了,有沒有別的方法?當然有囉!只是Mr.King覺得這個方法還更麻煩,但是還是跟各位說一下囉!也就是把搜尋限制放在HEADER的META裡面,寫法如下

<html> <head> <title>SEO</title> <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> </head>

這個標籤要注意以下幾點

  • 這個標籤並沒有大小寫的分別
  • name="ROBOTS"  表示針對所有的搜尋引擎,如果要針對某一個搜尋引擎可以寫成 name=GoogleBot
  • CONTENT部分有四種指令分別為:index、noindex、follow、nofollow,之間以「,」分隔
  • INDEX 指令告訴搜尋引擎可抓取該頁面
    
  • FOLLOW 指令表示機器人可以沿著該頁面上的連結繼續抓取下去
    
  • 這個標籤的預設值是INDEX和FOLLOW,只有inktomi除外,它的預設值是INDEX,NOFOLLOW
    
    

 


4 Comments

  • Rox

    2009 年 06 月 24 日

    設定這個其實有好有壞 ..
    看個人需求下去設定 …
    但是我都沒再搞它 ………..
    哈哈 !!
    像有個網友的Wordpress ..
    平常同時上線人數大約10來個
    這兩個月~流量常常爆掉..
    導致無法連線 ……….
    不知道是否與這個有關 (大大說的收尋引擎) …

    • Mr.King

      2009 年 06 月 25 日

      robots.txt 主要是設定搜尋引擎可以抓取的目錄,就像一張許可證一樣,如果那位網友的流量常常爆掉,要檢視該主機的LOG 查明原因,我想造成的原因是搜尋引擎的可能性不大。

  • 谷歌优化-Bansi

    2009 年 06 月 25 日

    在Google管理员工具里的一个工具也能够方便生成robots.txt

    SoSo这个搜索引擎是腾讯QQ的产品,技术核心是Google的,所以SoSo的排名跟Google的基本都是一样。本来我也一直不看好soso,但腾讯QQ在国内的通讯软件中占有绝对的垄断优势,最近也是在预测使用soso的90后非常多。

    对于未来来说,soso还是有很强劲的势头的。

    001over

    • Mr.King

      2009 年 06 月 25 日

      恩恩,在台灣的確對大陸的搜尋引擎不太了解,有機會再請您指教了

發表迴響