DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 翻頁式網頁搜索引擎是如何進行抓取的
翻頁式網頁搜索引擎是如何進行抓取的
編輯:SEO優化集錦     

Spider系統的目標就是發現並抓取互聯網中一切有價值的網頁,百度官方也明確表示蜘蛛只可以抓取到盡可能多的有價值資源並保持系統及實際環境中頁面的一致性同時不給網站體驗造成壓力,也就是說蜘蛛不會抓取所有網站的所有頁面,對此蜘蛛有很多的抓取策略來盡量快而全的發現資源鏈接,提高抓取效率。只有這樣蜘蛛才能盡量滿足絕大部分網站,這也是為什麼我們要做好網站的鏈接結構,接下來筆者就只針對一種蜘蛛對翻頁式網頁的抓住機制來發表一點看法。

為什麼需要這個抓取機制?

當前大多數網站都用翻頁的形式來有序分布網站資源,當有新文章增加時,老資源往後推移到翻頁系列中。對蜘蛛來說,這種特定類型的索引頁是爬行的有效渠道,但是蜘蛛爬行頻率和網站文章更新頻率不盡相同,文章鏈接很有可能就被推到翻頁條中,這樣蜘蛛不可能每天從第1個翻頁條爬到第80個,然後一個文章一個文章的抓取,到數據庫對比,這樣太浪費蜘蛛時間,也浪費你網站的收錄時間,所以蜘蛛需要對這種特殊類型的翻頁式網頁來一個額外的抓取機制,從而保證收錄資源的完全。

如何判斷是否是有序翻頁式頁面?  

判斷文章是否按發布時間有序排布是這類頁面的一個必要條件,下面會說到。那麼如何判斷資源是否按發布時間有序排布呢?有些頁面中每個文章鏈接後面跟隨著對應的發布時間,通過文章鏈接對應的時間集合,判斷時間集合是否按大到小或小到大排序,如果是的話,則說明網頁中的資源是按發布時間有序排布,反之亦然。就算沒寫發布時間,蜘蛛寫可以根據文章本身的實際發布時間進行判斷。

該抓取機制原理?

針對這種翻頁式頁面,蜘蛛主要是通過記錄每次抓取網頁發現的文章鏈接,然後將此次發現的文章鏈接與歷史上發現的鏈接作比較,如果有交集,說明該次抓取發現了所有的新增文章,可以停止對後面翻頁條的抓取了;否則,說明該次抓取並未發現所有的新增文章,需要繼續抓取下一頁甚至下幾頁來發現所有的新增文章。

聽起來可能有點不大懂,木木seo來舉個很簡單的例子,比如在網站翻頁目錄新添加了29篇文章,也就是說上次最新一篇是第30篇,而蜘蛛是一次性抓取10篇文章鏈接,這樣蜘蛛第一次進行抓取時抓了10篇,與上次並沒有交集,繼續抓取,第二次又抓10篇,也就是一共抓20篇了,還是與上一次沒有交集,然後繼續抓取,這一次就抓到了第30篇,也就是和上次的有交集了,這就說明蜘蛛已經抓取了從上次抓取到這次網站更新的全部29篇文章。

建議

當前百度蜘蛛對網頁的類型,網頁中翻頁條的位置,翻頁條對應的鏈接,以及列表是否按照時間排序都會做相應的判斷,並根據實際的情況進行處理,但是蜘蛛畢竟不能做到100%的識別准確率,所以如果站長在做翻頁條時不要用JS,更不要用FALSH,同時要有頻率的進行文章更新,配合蜘蛛的抓取,這樣就可以極大地提高蜘蛛識別的准確率,從而提高蜘蛛在你網站的抓取效率。

再次提醒大家本文只是從蜘蛛一個抓取機制進行的解說,不代表蜘蛛就此一種抓取機制,在實際情況中是很多機制同時進行的。

注:相關網站建設技巧閱讀請移步到建站教程頻道。

收藏本文

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved