DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO相關 >> SEO技術 >> SEO實戰教程如何寫robots.txt
SEO實戰教程如何寫robots.txt
編輯:SEO技術     

SEO實戰教程如何寫robots.txt

robots.txt是你對搜索引擎制定的一個如何索引你的網站的規則。通過該文件,搜索引擎就可以知道在你的網站中哪些文件是可以被索引的,哪些文件是被拒絕索引的,我們就可以很方便地控制搜索索引網站內容了。
 

第一:什麼是robots.txt?

這是一個文本文件,是搜索引擎爬行網頁要查看的第一個文件,你可以告訴搜索引擎哪些文件可以被查看,哪些禁止。當搜索機器人(也叫搜索蜘蛛)訪問一個站點時,它首先會檢查根目錄是否存在robots.txt,如果有就確定抓取范圍,沒有就按鏈接順序抓取。

第二:robots.txt有什麼用

 
為何需要用robots.txt這個文件來告訴搜索機器人不要爬行我們的部分網頁,比如:後台管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等。說到底了,這些頁面或文件被搜索引擎收錄了,用戶也看不了,多數需要口令才能進入或是數據文件。既然這樣,又讓搜索機器人爬行的話,就浪費了服務器資源,增加了服務器的壓力,因此我們可以用robots.txt告訴機器人集中注意力去收錄我們的文章頁面。增強用戶體驗。
1,用robots屏蔽網站重復頁
很多網站一個內容提供多種浏覽版本,雖然很方便用戶卻對蜘蛛造成了困難,因為它分不清那個是主,那個是次,一旦讓它認為你在惡意重復,你就慘了
User-agent: *
Disallow: /sitemap/ (禁止蜘蛛抓取 文本網頁)
2,用robots保護網站安全
很多人納悶了,robots怎麼還和網站安全有關系了?其實關系還很大,不少低級黑客就是通過搜索默認後台登陸,以達到入侵網站的目標
User-agent: *
Disallow: /admin/ (禁止蜘蛛抓取admin目錄下所有文件)
3,防止盜鏈
一般盜鏈也就幾個人,可是一旦被搜索引擎“盜鏈”那家伙你100M寬帶也吃不消,如果你做的不是圖片網站,又不想被搜索引擎“盜鏈”你的網站圖片
User-agent: *
Disallow: .jpg$
4,提交網站地圖
現在做優化的都知道做網站地圖了,可是卻沒幾個會提交的,絕大多數人是干脆在網頁上加個鏈接,其實robots是支持這個功能的
Sitemap: http://bbs.moonseo.cn/sitemaps/sitemaps_1.xml
5,禁止某二級域名的抓取
一些網站會對VIP會員提供一些特殊服務,卻又不想這個服務被搜索引擎檢索到
User-agent: *
Disallow: /
以上五招robots足以讓你對搜索引擎蜘蛛掌控能力提升不少,就像百度說的:我們和搜索引擎應該是朋友,增加一些溝通,才能消除一些隔膜。

第三:robots.txt基本語法

 
1、robots.txt的關鍵語法
 a.User-agent: 應用下文規則的漫游器,比如Googlebot,Baiduspider等。
 b.Disallow: 要攔截的網址,不允許機器人訪問。
 c.Allow: 允許訪問的網址
 d.“*” : 通配符—匹配0或多個任意字符。
 e.“$” : 匹配行結束符。
 f.“#” : 注釋—說明性的文字,不寫也可。
 g.Googlebot: 谷歌搜索機器人(也叫搜索蜘蛛)。
 h.Baiduspider: 百度搜索機器人(也叫搜索蜘蛛)。
 i.目錄、網址的寫法:都以以正斜線 (/) 開頭。
Disallow:/
Disallow:/images/
Disallow:/admin/
Disallow:/css/
2、robots.txt的具體用法
 a.允許所有的robot訪問
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
或者建一個空文件”robots.txt”即可。
 b.僅禁止某個機器人訪問您的網站,如Baiduspider。
User-agent: Baiduspider
Disallow: /
 c.僅允許某個機器人訪問您的網站,如Baiduspider。
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
 d.禁止訪問特定目錄
User-agent: *
Disallow: /admin/
Disallow: /css/
Disallow:
要攔截對所有包含問號 (?) 的網址的訪問(具體地說,這種網址以你的域名開頭、後接任意字符串,然後接問號,而後又接任意字符串),使用以下內容:
User-agent: Googlebot
Disallow: /*?
要指定與某個網址的結尾字符相匹配,就用 $。例如,要攔截以 .xls 結尾的所有網址,就用以下內容: 
User-agent: Googlebot
Disallow: /*.xls$
你可以將此模式匹配與 Allow 指令配合使用。例如,如果 ? 代表一個會話 ID,那麼你可能希望排除包含 ? 的所有網址,以確保 Googlebot 不會抓取重復網頁。但是以 ? 結尾的網址可能是你希望包含
在內的網頁的版本。在此情況下,你可以對你的 robots.txt 文件進行如下設置:
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: /*? 指令會阻止包含 ? 的所有網址(具體地說,它將攔截所有以您的域名開頭、後接任意字符串,然後接問號,而後又接任意字符串的網址)。
Allow: /*?$ 指令將允許以 ? 結尾的任何網址(具體地說,它將允許所有以您的域名開頭、後接任意字符串,然後接 ?,? 之後不接任何字符的網址)。

一般網站查看robots.txt文件的方法是主頁後面加robots.txt就可以,比如淘寶網的就是http://www.taobao.com/robots.txt。請注意,僅當你的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果你希望搜索引擎收錄網站上所有內容,就不要建立robots.txt文件。

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved