DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 百度搜索引擎中文分詞與文本粒度
百度搜索引擎中文分詞與文本粒度
編輯:SEO優化集錦     

百度搜索引擎的目的就是在滿足絕大部分用戶的需求下提供最精確最豐富的搜索結果,對於搜索引擎而言,用戶停留時間越短,越說明搜索引擎的高效性和准確性,不管是百度的輕應用、知心搜索,還是谷歌的語義搜索、蜂鳥算法,或是360的我的搜索,都是為了能夠幫助人們更方便的找到所求。

而對於搜索引擎而言,想要給用戶最需求的就需要去判斷用戶搜索詞的意圖。而搜索引擎盡管非常高效,數據庫非常龐大,但它畢竟不是那麼智能,不能直接判斷出搜索詞的意思,盡管谷歌已公布可以借助更加復雜的搜索請求更好的理解人類語言的概念,而不是一些零散的單詞,這樣的搜索能提供更加精准的結果,即整句搜索。但這只是一小步,搜索引擎不論是進行索引還是網頁排序仍需要對文本進行切分,即中文分詞。分詞仍然是最基礎也是最重要的。而在中文分詞過程中文本粒度起到關鍵性的作用。

文本粒度

所謂文本粒度,對於搜索引擎而言:粒度是衡量文本所含信息量的大小。文本含信息量越多,粒度就越大,反之就小。有人會說那簡單啊,當然詞越長含有的信息量就越大,你確定?那木木SEO告訴你一個小玩意:肌聯蛋白是目前已知的最大蛋白質,名字足足有189819個字母,是名副其實最大的單詞。這個單詞的信息量是有多大?閒話不多說,先來看下面幾組詞中,哪些的粒度大,哪些的粒度小。

蘿卜、葡萄、乒乓

龍井、籃球、紅色、橡皮檫

踢球、拔河、談戀愛、登山

高清電視機、南非雙人游、呼叫中心系統

第一組詞由兩個字組成,但是僅表達一個意思,這些詞的粒度是小的。而第二組詞雖然也基本由兩個字組成,也只有一個意思,但這些詞還可以拆分,如籃和球、橡皮和檫、踢和球等,這類詞粒度要稍微大一些。而後面的第四組,不要說粒度就更大了。

注:相關網站建設技巧閱讀請移步到建站教程頻道。

1 2 下一頁 收藏本文

再看看下面一組詞:

勒布朗.詹姆斯、變形金剛4、北京百度網訊科技有限公司、中華人民共和國

這類詞盡管很長,但都是專名詞,是一類比較特殊的詞,只表達一個意思,粒度也都不大。但機構名、人名等屬於有內部結構的專名,比電影電視劇名的粒度稍大一些。

搜索引擎的原理與分詞粒度

搜索引擎最簡單的實現方式就是通過返回包含關鍵字的頁面,來滿足用戶的檢索需求。在搜索時,不僅允許用戶輸入關鍵字,也可以輸入一定范圍內的文本。那麼這個時候就要進行中文分詞得到關鍵詞,然後對結果進行倒排索引獲得關鍵詞對應的頁面。如果不切分,那麼所有的數據庫不可能存儲所有的詞,如果隨便切分那麼會得到很多無關頁面,肯定不能滿足用戶需求。

所以,我們需要對文本做合適的切分,關於中文分詞百度已有幾種方法,而粒度是分詞中至關重要的一個因素,這也是為什麼上面木木seo解釋文本粒度的原因。

用戶體驗與粒度

搜索引擎需要對文本進行切分,那麼為了能夠使用戶對查詢結果滿意,搜索引擎需要根據什麼樣的粒度分詞?來看下面:

1. 搜索:呼叫中心 SERP:呼叫中心系統、呼叫中心軟件   

2. 搜索:娃哈哈 SERP1:哈哈,去哪玩?SERP2:娃哈哈果奶

3. 搜索:土豆絲 SERP:土豆肉絲

4. 搜索:公交車 搜索:車站 SERP:公交車站

要求:搜索關鍵詞後能得出合適的結果。

1.要求SERP(搜索結果頁面)能找到呼叫中心系統和呼叫中心軟件,就必須對2個詞都切出呼叫中心這個詞來。

2.必須把娃哈哈切為一個詞,否則會出現SERP1這樣不相關的結果。

3.不能把土豆絲切為一個詞,否則就不會出現土豆肉絲這個結果。

4.必須同時切出公交車和車站這兩個重疊的詞匯,才能保證2詞搜索都能得到公交車站這個詞。

以上基本上概括了搜索引擎對切分粒度的要求:影響展現和影響相關性。

搜索引擎展現與粒度

顯而易見,粒度越小,展現就越多,建立倒排索引時,索引的長度就越長;粒度的層次越多,索引的數量就越多。一個多,一個長,就對搜索系統的性能構成了極大的考驗。搜索引擎並不會對所有小粒度詞都建索引,而是選擇“更有可能展現相關結果”的小粒度詞。所以在一般情況下,切分文本粒度越大,索引越多,相關性越好,但展現越少;切分文本粒度越小,索引越少,相關性越差,但展現越好。

那麼搜索引擎如果做到折中呢?基本的原則是在系統性能可接受的前提下,盡量多展現有效結果,計算相關性時,將最相關的排在前面。那麼如何減少切分文本的粒度呢?這裡就要談到緊密度與重要性

緊密度是描述文本所含信息緊密程度的量。緊密度就是信息被人們表達和接受的穩定程度。穩定有兩種解釋:相對於臨時而言的和相對於順序不固定而言的。比如吃火鍋就是臨時的,不穩定即不緊密。我們可以根據詞匯的緊密程度作為減小粒度的依據之一,詞匯越不緊密,我們就有理由將其拆分為更小的粒

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved