DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> SEOer值得了解的搜索引擎索引和分詞技術
SEOer值得了解的搜索引擎索引和分詞技術
編輯:SEO優化集錦     

在網絡公司做過程序開發的朋友都知道,我們通常用的數據庫搜索技術就是把用戶輸入的詞匯,跟數據庫中的某個或多個字段裡的內容進行比較,同樣,搜索引擎的運行原理簡單來講也就是這樣:

用戶輸入一個詞匯,搜索引擎從他的數據庫中找到匹配的內容,再以有序的排列展現給用戶,搜索引擎每天就是不厭其煩地不斷重復這些操作。看似一切很正常,我們用數據來分析問題——

全球網民按20億計算,全球所有網站的網頁先假設是50億個。

按每人每天搜索1次(也就是1個關鍵詞,假設都是不重復的)

那麼搜索引擎每天要從50億個網頁中搜索比對20億個關鍵詞。

呃。這個聽起來很恐怖,你能想象嗎?想象這個數據如此龐大,但搜索引擎每次的正常搜索時間都是不到一秒。的確,在這個過程中,按照我們傳統的全文搜索方式,是不現實的。仔細看下下圖,並注意“索引庫查詢”這幾個字。

在解釋什麼是索引庫和索引庫在搜索引擎中起到什麼作用前,我們同樣舉個形象的例子加以參考下:

我們在讀書時,老師在講課過程中,經常會說,請同學們翻到第幾頁,看下第幾段,想起來了嗎?快樂並無奈的校園生活是否歷歷在目了~_~,言歸正傳。在老師發出讓你翻到第幾頁看第幾段這個指令時,就是一種索引在運行了,這裡的索引是第幾頁和第幾段,有了這兩個索引,即使你的書本厚達1000頁,也可以在短時間裡定位到具體的那一段話。

而搜索引擎自己的索引庫的構成元素就是很多個詞匯,漢字約有12W個,由這些漢字所組成的詞語將近10W個,再說說英文,英文26個字母,組成的詞匯暫且算作100W個吧,在講索引庫元素的排序方式之前,我們再進行這段數據的分析:

中文:50億÷10W=5W

英文:50億÷100W=5000

搜索引擎處理5W或5000個記錄,是非常容易的一件事了。

明白了索引庫的重要性,再剖析下索引庫的構成形式:

在搜索引擎看來,再華麗的網站,也是一堆代碼堆砌而成的,拿下文的代碼來看:

經過搜索引擎的分析後,去除HTML代碼,留下的是這些詞匯,

那麼其中的這些詞匯就會進入到搜索引擎的索引庫當中,而這些進入索引庫的每個詞匯後面又有很多個網站,就好比新華字典的目錄索引頁一樣,筆畫數是10的,通過索引快速查到,筆畫數是20的,也可以通過索引快速查到。

搜索引擎就是通過建立這樣的索引庫,才能在用戶搜索某個關鍵詞時,快速做出返回頁面的查詢。(而至於排名的前後,我們不在本文中多說了)

再來簡單講下分詞,上面提到的多少多少個詞匯,這個就是分詞了,但這些是通過我們人眼判斷的,搜索引擎是如何進行分詞的呢?搜索引擎再厲害,也只是程序,谷歌的中文分詞技術是購買第三方公司得來的,而百度的分詞技術是自創的,我們可以理解為百度事先把幾W個詞錄進去,也可能是通過漢字的一定排列方式自由組合而成,這個不是我們關心和所能研究的,我們要了解的僅僅是分詞這個概念。

了解了分詞這個概念後,在我們做SEO時,也一定要通過搜索引擎的角度,讓自己從網頁的表面看到底層的收錄抓取原理。

【尊重原創,分享觀點。來自芝麻開門網絡科技原創文章,轉載請標明文章來源 — http://www.51zmkm.com/news/27.html】

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved