搜索引擎蜘蛛爬行規律探秘之一蜘蛛如何抓取鏈接

DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 搜索引擎蜘蛛爬行規律探秘之一蜘蛛如何抓取鏈接

編輯：SEO優化集錦

搜索引擎蜘蛛，對於我們來說非常神秘，本文的配圖使用蜘蛛俠的原因就在於此。當然我們也不是百度的也不是Google的，所以只能說探秘，而不是揭秘。本文內容比較簡單，只是給不知道的朋友一個分享的途徑，高手和牛人請繞行吧。

傳統意義上，我們感覺搜索引擎蜘蛛（spider）爬行，應該類似於真正的蜘蛛在蜘蛛網上爬行。也就是比如百度蜘蛛找到一個鏈接，順著這個鏈接爬行到一個頁面，然後再順著這個頁面裡面的鏈接繼續爬……這個類似於蜘蛛網，也類似於一棵大樹。這個理論雖然正確，但是不准確。

搜索引擎內部是有一個網址索引庫的，所以搜索引擎蜘蛛是從搜索引擎的服務器出發，順著搜索引擎已有的網址爬行一個網頁，並將網頁內容抓取回來。頁面采集回來之後，搜索引擎會對其進行分析，將內容和鏈接分開，內容暫時先不說。分析出來鏈接之後，搜索引擎並不會馬上去派蜘蛛進行抓取，而是把鏈接和錨文本記錄下來交給網址索引庫進行分析、對比和計算，最後放入網址索引庫。進入了網址索引庫之後，才會有蜘蛛去抓取。

也就是如果出現了某個網頁的外鏈，並不一定會立刻有蜘蛛去抓取這個頁面，而是會有一個分析計算的過程。即便是這個外鏈在蜘蛛抓取之後被刪除了，這個鏈接也有可能已經被搜索引擎記錄，以後還有抓取的可能。而且下次如果蜘蛛再去抓取這個外鏈所在頁面，發現鏈接不存在了，或者外鏈所在頁面出現了404，那麼只是減少了這個外鏈的權重，應該不會去網址索引庫刪除這個鏈接。

所以說已經不存在的頁面上的鏈接，也有作用。今天就分享這些，以後繼續跟大家分享我自己分析的內容，如果有不准確的地方，請大家批評指正。

轉載請注明來自逍遙博客@LiboSEO，本文地址：http://liboseo.com/1060.html

除非注明，逍遙博客文章均為原創，轉載請注明出處和鏈接！

感謝 張立博 的投稿

上一頁:基於中文分詞的seo軟文技巧二：控制詞與核心詞
下一頁:網站建設秀出自我本色方能立於當下

SEO優化集錦

優化網站鏈接的幾點建議: 我們了解到“鏈接工廠”在網站優化中是行不通的，使用“鏈接工廠&r
淺析網店容易忽略的淘寶SEO搜索陷阱: 對
淺談網站優化之原創文章的好處: 其實關於原創文章，阿呆很糾結，不知道到底該不該寫一篇這樣文章，因為阿呆相信原創文章的好處很多朋友

SEO基礎教程 SEO進階教程 SEO高級教程 SEO技巧 SEO最新資訊 SEO相關 SEO優化集錦

DIV CSS 佈局教程網

相關文章