DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO相關 >> SEO技術 >> 吉安SEO淺談robots文件!
吉安SEO淺談robots文件!
編輯:SEO技術     

robots.txt 文件由於不常被提及,並且與用戶直接浏覽沒有關系,因而很容易被忘記。但是,這個文件與搜索引擎其實有非常重要的關系,如果不注意,搜索引擎根本不會收錄網站,而你的所有SEO努力也都會白費!下文中吉安SEO將帶你全面了解robots文件!
吉安SEO淺談robots文件!
什麼是robots.txt文件?

吉安SEO:robots.txt是一個協議,是放在網站跟目錄下的一個純文本文件,起到的作用是指示互聯網中網絡爬蟲什麼文件是可以被查看的。站長可以通過控制robots.txt來指示搜索引擎怎麼抓取自己的網站,例如哪部分可以收錄哪部分是保密的。
有的網站後台程序自動生成的robots.txt文件,會自動屏蔽互聯網中的所有機器人,這其中也包括了各大搜索引擎。

如何檢查robots.txt文件?

檢查robots.txt文件非常簡單,因為其被放在域名的根目錄,所以直接在浏覽器中輸入自己的域名+“/robots.txt”就可以查看robots協議文件。

如果出現404錯誤,

那麼說明網站沒有robots協議文件,此時說明允許所有搜索引擎訪問收錄;
如果出現:
User-agent: *
Disallow: /
那麼說明你的網站正在禁止所有搜索引擎訪問收錄網站的所有頁面。

如何使用robots.txt文件?

編寫robots.txt文件,首先得記住以下幾點,否則可能無法生效:
►robots.txt文件必須放在網站的根目錄下。
►robots.txt文件名必須所有字母小寫。
►所有標點符號都必須是英文格式。

1. 如果想讓搜索引擎收錄所有網頁:
不設robot.txt文件:如果沒有這個文件,那麼就默認為可以抓取收錄所有網頁。
設置一個空白的robot.txt文件:同樣也是默認可以收錄所有頁面
在robot.txt文件裡編寫:
User-agent: *
Disallow:

(User-agent: * 表示所有搜索引擎,disallow: 後面沒有內容表示沒有禁止收錄的網頁)

2. Robot.txt文件指令說明:
User-agent: 後面跟要指示的搜索引擎名稱(跟“*”表示所有搜索引擎)。
這裡給出谷歌的不同爬蟲程序名稱:
Googlebot:google網頁爬蟲
Googlebot-news:google新聞爬蟲
Googlebot-image:google圖片爬蟲
Googlebot-video:google視頻爬蟲
Googlebot-mobile:google移動爬蟲
Mediapartners-google或Mediapartners(googlebot):google廣告爬蟲。

Disallow: 後面指禁止收錄的內容(填寫的是路徑而不是網址:例如如果想禁止收錄照片目錄,那麼則寫Disallow: /photos)。

例如:
“Disallow: /”禁止收錄所有頁面。
“Disallow: /*?*”禁止收錄所有動態頁面。
“Disallow: .png$”禁止收錄png格式圖片。

robots.txt實用技巧
以下這些網頁都是應該要屏蔽掉的:
阻止搜索引擎收錄網站中自動生成的類似於“搜索結果頁面”這樣的對用戶沒有價值的頁面。(每次用戶搜索的時候,都會有新的搜索結果頁面生成。這些頁面都包含大量復制的內容,所以如果不被屏蔽的話,搜索引擎會認為您的網站內有大量的復制頁面,會影響網站的權重。)

屏蔽掉網站中因為某種原因而保留的重復內容的頁面,搜索引擎相當不看好大量復制內容的頁面。所以網站中內容重復的頁面也是需要屏蔽的。

另外一個需要屏蔽的是一些基本是由附屬的數據庫組成的頁面,這些信息並不是網站自己的內容,而是從其他資源引進來的,所以不能保證正確性,應該屏蔽。

想要了解更多SEO優化干貨,請關注吉安SEO:http://www.jaseo6.com

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved