DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 如何提升搜索引擎爬蟲的效率來改進SEO工作
如何提升搜索引擎爬蟲的效率來改進SEO工作
編輯:SEO優化集錦     

網站內部優化做了很多天,終於開放給爬蟲看了。今天改模板改累死,到現在才大體改得差不多(用戶體驗還不行),過來寫篇和爬蟲效率有關的文章。

加快爬蟲抓取效率在SEO之中是一件比較重要的事情,尤其對於中大型網站而言,應該將多半的精力都放在讓爬蟲抓取的更多更准上面(“准”指的主要是不要讓它抓到無意義頁面)。

首先robots文件是個很強的利器,當網站上面擁有重復內容、無意義頁面等(需要屏蔽的主要是擁有重復內容或無內容的無意義頁面,其他的,黑帽做法可以留下,你懂的。),就可以果斷的屏蔽掉。

具體的書寫方法不說了,這個網上實在是一搜一大把。只是順帶提示兩點。

一,robots可以用通配符寫,書寫是比較自由的。

二,可以把xml格式的sitemap路徑放在robots中,供搜索引擎尋找。

此外有類似屏蔽效果的還有meta robots等,這種是個因為SEO誕生的元標記。具體寫法也懶得寫,但也順帶一提的是,其中的nofollow可以讓百度不抓取頁面上的所有鏈接(rel="nofollow"不能阻止百度爬蟲抓取),noindex可以讓搜索引擎不把當前網頁置入索引庫,但是上面有的鏈接,爬蟲都會去分析。若要屏蔽鏈接,把nofollow加上。另外之前提到過的rel=”nofollow”屬性是個非常好的東西。這個是用在a標簽裡面的,比如:<a href="http://www.abc.com/" rel="nofollow">…</a>

它的意思是,讓搜索引擎不要為這個鏈接傳遞權值(可以簡單視為PR)。在Google等搜索引擎上,使用了這個標簽的鏈接不會被爬,Google幫助裡面提到的。而對於百度,不僅會爬這個鏈接,還會傳遞錨文本效果(這會提升對應網頁的相關性,雖然不提升權重)。後者是個人的發現,前段時間把一段字指向Google首頁,用了nofollow,加了一個莫名奇妙的錨文本。過了段時間,用這個字符串搜索(還是加了引號的精確匹配)時,Google排在了第一位,由此可見度娘對於nofollow的莫名暧昧(或者是對於谷“哥”的暧昧= =)。

總之不管如何,最重要的是PR這種東西不會再傳遞了。之前在我的文章裡面有提到過,一個網頁如果重要的話,它將會有很高的引用數量,就是有一堆鏈接連向它。而網站上面,經常會有“聯系我們”之類的頁面被其他所有的頁面所鏈接,然後獲得了高的PR值,爬蟲就常常去光顧這些頁面。顯然這是不必要的,此時nofollow阻止下權重的傳遞就能省下爬蟲大量的在無意義頁面上面耗的時間。

貌似按照正常篇幅習慣的話,怎麼都寫不完提升爬蟲效率,那麼就分兩篇算了,這篇再唠叨下靜態,動態和偽靜態。

動態url:當無意生成什麼爬蟲陷阱(無限循環型,比如被人說爛的例子,日歷程序的“下一月”無限存在。),爬蟲往往可以靠參數分析出哪些有可能是陷阱,就此逃掉。好處是,如果沒注意過爬蟲陷阱這個問題,動態url能幫一把。但可能會有極少數情況,好好的頁面被錯誤判斷了。

但現在搜索引擎的技術對於動態url已經沒什麼顯著問題了,只要後面不跟著一串sessionid就好。

偽靜態:它的主要好處是,url看著爽。其他的就不太多了。因為搜索引擎技術的日益完善,多數情況下對於動態的url分析不會有什麼問題,最早要偽靜態是因為當時搜索引擎太弱而已。

缺點主要有二,一是偽靜態的本質是從動態url重定向,這個比較拖累服務器速度,也會略微拖慢爬蟲抓取效率。二是當生成之前所說的無限循環頁面時,因為url沒有參數什麼的,看上去和正常頁面一摸一樣,爬蟲就可能會死在裡面浪費大量時間。

靜態:諸如WP這種程序,本身功能太強大導致反應速度慢,靜態緩存就是個很好的選擇。大致上就是先生成個html文件,用戶請求時直接返回html的,而不需要服務器重新運算。如果是WP,可以用Super Cache之類的插件,雖然不是完全意義上的靜態(復雜的問題不多講了。),但要的效果基本達到了。

而對於網站流量超級巨大的網站,靜態化也是必須的,不然要多配個幾倍的服務器。但依然有缺點,比如會生成大量文件、網站更新不靈活等等,對於某些限制文件數量的空間就沒法做靜態緩存。

純SEO角度上,最好是選擇靜態緩存的方式,這對於提升爬蟲效率是改觀非常大的(尤其像WP這種)。除此之外,個人推薦小型網站用偽靜態,中大型網站用動態。

最後再順帶一提,開啟Gzip大概是提升爬蟲效率的最省事的方式吧,效果也幾乎是最顯著的。這裡不多寫了,因為我也不熟悉,我的空間是默認開啟Gzip的。WP有一鍵開啟Gzip的插件,很是省心。

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved