DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 金楚遼:老生常談ROBOTS.TXT的寫法
金楚遼:老生常談ROBOTS.TXT的寫法
編輯:SEO優化集錦     

記得很早以前,那個時間新浪屏蔽百度蜘蛛的事件傳得很大,其實你主要是學會了ROBOTS.TXT的寫法,那就簡單的了,兩下就認出了這事的真假。所以說學好技術,可以更好的知道真相。

首先,我們先來認識我們親愛的蜘蛛們吧:

國內的搜索引擎蜘蛛

百度蜘蛛:baiduspider

搜狗蜘蛛:sogou spider

有道蜘蛛:YodaoBot和OutfoxBot

搜搜蜘蛛: Sosospider

國外的搜索引擎蜘蛛

google蜘蛛: googlebot

yahoo蜘蛛:Yahoo! Slurp

alexa蜘蛛:ia_archiver

bing蜘蛛(MSN):msnbot

Robots.txt的幾個常用英文意思

• User-Agent: 適用下列規則的漫游器

• Allow: 充許被抓取的網頁

• Disallow: 要攔截的網頁

Robots.txt的兩個常用符號

“*”: 匹配0或多個任意字符(也有所有的意思)

“$”:匹配行結束符。

介紹得差不多了,下面來進入正題,Robots.txt:

一、充許所有的蜘蛛抓取:

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

(*號可以理解為所以的意思)

二、禁止所有的robot抓取

User-agent: *

Disallow: /

三、禁止某一蜘蛛抓取:

User-agent: 蜘蛛名(上面介紹得有)

Disallow: /

四、只充許某一蜘蛛抓取:

User-agent: 蜘蛛名(上面介紹得有)

Disallow:

User-agent: *

Disallow: /

上半部分是禁止該蜘蛛抓取,下半部分是充許所有,總體意思就是禁止此蜘蛛,充許其它蜘蛛。

五、禁止蜘蛛抓取某些目錄

如禁止抓取admin和manage目錄

User-agent: *

Disallow: /admin/

Disallow: /manage/

六、禁止蜘蛛特定後綴文件,這個用“*”號

如禁止抓取.htm的文件

User-agent: *

Disallow: *.htm(*號後面然後是點文件名,如.asp,.php)

七、僅充許抓取特定後綴文件,這個用“$”號

如僅充許.htm的文件

User-agent: *

Allow: .htm$

Disallow: /

(圖片也可以參考第六條和第七條這個樣子)

八、禁止抓取動態網頁

User-agent: *

Disallow: /*?*

這個在論壇很有用,一般偽靜態後,就不需要搜索引擎再收錄其動態地址了。做論壇的朋友們注意了。

九、聲明網站地圖sitemap

這個告訴搜索引擎你的sitemap在哪

Sitemap: http://你的域名/sitemap.xml

做完這些我們如何檢查我們的robots.txt這個文件的有效性呢?推薦使用 Google管理員工具,登錄後訪問“工具 ->分析 robots.txt”,檢查文件有效性。

原創文章請注明轉載自:武漢seo-sem說

本文地址:http://www.semsay.com/seo/37.html

感謝 jinc 的投稿

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved