DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 搜索引擎是如何抓取網頁?
搜索引擎是如何抓取網頁?
編輯:SEO優化集錦     

搜索引擎在抓取海量的原始網頁時,會進行預處理,主要包括四個方面,關鍵詞的提取,“鏡像網頁”(網頁的內容完全相同,未加任何修改)或“轉載網頁”(near-replicas,主題內容基本相同但可能有一些額外的編輯信息等,轉載網頁也稱為“近似鏡像網頁”)的消除,鏈接分析和網頁重要程度的計算。

1. 關鍵詞的提取,取一篇網頁的源文件(例如通過浏覽器的“查看源文件”功能),我們可以看到其中的情況紛亂繁雜。從認識和實踐來看,所含的關鍵詞即為這種特征最好的代表。於是,作為預處理階段的一個基本任務,就是要提取出網頁源文件的內容部分所含的關鍵詞。對於中文來說,就是要根據一個詞典Σ,用一個所謂“切詞軟件”,從網頁文字中切出Σ所含的詞語來。在那之後,一篇網頁主要就由一組詞來近似代表了,p = {t1, t2, …, tn}。一般來講,我們可能得到很多詞,同一個詞可能在一篇網頁中多次出現。從效果(effectiveness)和效率(efficiency)考慮,不應該讓所有的詞都出現在網頁的表示中,要去掉諸如“的”,“在”等沒有內容指示意義的詞,稱為“停用詞”(stop word)。這樣,對一篇網頁來說,有效的詞語數量大約在200個左右。

2. 重復或轉載網頁的消除,與生俱來的數字化和網絡化給網頁的復制以及轉載和修改再發表帶來了便利,因此我們看到Web上的信息存在大量的重復現象。這種現象對於廣大的網民來說是有正面意義的,因為有了更多的信息訪問機會。但對於搜索引擎來說,則主要是負面的;它不僅在搜集網頁時要消耗機器時間和網絡帶寬資源,而且如果在查詢結果中出現,無意義地消耗了計算機顯示屏資源,也會引來用戶的抱怨,“這麼多重復的,給我一個就夠了”。因此,消除內容重復或主題內容重復的網頁是搜索引擎抓取網頁階段的一個重要任務。

3、鏈接分析,大量的HTML標記既給網頁的預處理造成了一些麻煩,也帶來了一些新的機遇。從信息檢索的角度講,如果系統面對的僅僅是內容的文字,我們能依據的就是“共有詞匯假設”(shared bag of words),即內容所包含的關鍵詞集合,最多加上詞頻(term frequency 或tf、TF)和詞在文檔集合中出現的文檔頻率(document frequency 或df、DF)之類的統計量。而TF和DF這樣的頻率信息能在一定程度上指示詞語在一篇文檔中的相對重要性或者和某些內容的相關性,這是有意義的。有了HTML標記後,情況還可能進一步改善,例如在同一篇文檔中,<H1>和</H1>之間的信息很可能就比在<H4>和</H4>之間的信息更重要。特別地,HTML文檔中所含的指向其他文檔的鏈接信息是人們近幾年來特別關注的對象,認為它們不僅給出了網頁之間的關系,而且還對判斷網頁的內容有很重要的作用。

4、網頁重要程度的計算,搜索引擎實際上追求的是一種統計意義上的滿意。人們認為Google目前比baidu好,還是baidu比google好,參照物取決於多數情況下前者返回的內容要更符合用戶的需要,但並不是所有情況下都如此。如何對查詢結果進行排序有很多因素需要考慮。如何講一篇網頁比另外一篇網頁重要?人們參照科技文獻重要性的評估方式,核心想法就是“被引用多的就是重要的”。“引用”這個概念恰好可以通過HTML超鏈在網頁之間體現得非常好,作為Google創立核心技術的PageRank就是這種思路的成功體現。除此以外,人們還注意到網頁和文獻的不同特點,即一些網頁主要是大量對外的鏈接,其本身基本沒有一個明確的主題內容,而另外有些網頁則被大量的其他網頁鏈接。從某種意義上講,這形成了一種對偶的關系,這種關系使得人們可以在網頁上建立另外一種重要性指標。這些指標有的可以在抓取網頁階段計算,有的則要在查詢階段計算,但都是作為在查詢服務階段最終形成結果排序的部分參數。

本文鏈接地址:http://www.mnqiang.com/.

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved