深入了解搜索引擎原理第一課

DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 深入了解搜索引擎原理第一課

深入了解搜索引擎原理第一課

編輯：SEO優化集錦

第一堂搜索引擎原理課程，主要介紹搜索引擎爬蟲（或者叫機器人，蜘蛛）是如何代替人工收集信息的。

搜索引擎基礎

何為搜索引擎？搜索引擎（國外的代表google，國內的代表百度），利用程序在互聯網上抓取網站信息，把抓取回來的信息進行分類整理，供訪問搜索引擎的互聯網用戶搜索和關鍵詞相匹配的信息。

比如：您想買一款手機，您可以直接在搜索引擎中輸入關鍵詞（諾基亞），在0.1秒之內，搜索引擎會返回出售諾基亞的網站列表，這個網站列表是經過搜索引擎嚴格篩選得出的結果。搜索引擎在給這個關鍵詞（諾基亞）進行網站排名時，會采用自己一套算法，這套算法也是這些搜索引擎公司的絕密文件。

搜索引擎如何抓去信息

搜索引擎初期，由於互聯網信息並不是很多，所以許多搜索引擎收錄信息完全依靠人力，許多編輯，每天不停的訪問互聯網的各個網站，把自己認為比較好的網站進行收錄。但是隨著互聯網時代的到來，互聯網網站爆炸式增長，人工收錄網站信息已經是完全不可能，所以這些搜索引擎就編寫了抓去互聯網信息的程序，就叫搜索引擎爬蟲，機器人，或者蜘蛛。

下面筆者以世界著名的google搜索引擎為例，來說一說爬蟲是怎麼代替人工收集整理網站信息的（大部分搜索引擎都是按照這種方法來收集信息的）。

更新爬蟲

Google搜索引擎可以同時派出N多個爬蟲，同時訪問互聯網，如果發現新的信息就會放到自己所帶的數據庫中，我們把這種爬蟲稱之為“更新爬蟲”。更新爬蟲能夠根據互聯網上的URL地址，不停的以“光速”爬行，一旦自己所帶的數據庫裝不下更多的信息時，它們會返回谷歌所提供的單獨數據庫，把自己所帶的信息扔在裡面，然後又出來接著收集信息。

由於更新爬蟲自身所帶的倉庫容量有限（google更新爬蟲應該是100KB容量），所以許多seo建議在制作網站時，每一個頁面控制在100KB以內。如果網頁大小超過了100KB，剩余的網頁信息，更新爬蟲是無法一次性帶走的。

對於沒有被google主索引收錄的頁面，由於更新爬蟲是和google主索引一起提供搜索結果的，所以您會看見自己的網站信息很快出現在搜索結果中，又很快的消失，直到一段時間後又在google主索引中出現。

對於已經被google主索引收的頁面，刷新爬蟲取得這個頁面的更新後，關於該頁面的更新會出現在搜索結果中，但是過幾天該頁面的更新會退回到沒有更新之前，直到深度爬蟲進行深度爬行之後，更新的頁面就會完全被顯示出來。

深度爬蟲

深度爬蟲的主要任務是訪問google主索引中已經存在的網站，進行整體的服務器更新，目前google深度爬蟲幾乎可以每天更新一次，所以如果不注意觀察是根本察覺不到的。但是百度深度爬蟲的時間就要長一點，大概是一周進行深度爬行一次，所以許多做百度的seo，都盼望百度深度爬行，因為百度深度爬行，就意味著，自己的上一周的工作將被百度肯定。

今日回顧

更新爬蟲每天都在互聯網上忙碌，力求收集更多更新的網站信息，在收集信息時，由於更新爬蟲自身所帶的數據存儲量的限制，所以更新爬蟲不能完全帶走超過自身數據限制的網頁內容，這也是許多seo為什麼要把網頁壓縮到最小的原因。

深度爬蟲訪問搜索引擎主索引之後，就意味著，網站關鍵詞排名的大調整，只有經過深度爬蟲更新後的搜索結果才能算是基本穩定的搜索結果。

上一頁:影響關鍵詞排名因素之關鍵詞(keywords)篇
下一頁:網站SEO中分析絕對路徑與相對路徑的優缺點

SEO優化集錦

醫院網站改版犯下的五宗“罪”: 來這家公司上班已經有2個多月了，最近公司改版，我把自己走過的彎路跟大家交流一下，希望對以後網站需要改
迅速提升網站流量的技巧: &n
49個影響網站排名的因素: 內部因素URL中出現關鍵詞網頁Title中出現關鍵詞常規內容中出現關鍵詞在頁面的第一段中出現關鍵

SEO基礎教程 SEO進階教程 SEO高級教程 SEO技巧 SEO最新資訊 SEO相關 SEO優化集錦

DIV CSS 佈局教程網

相關文章