DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 實例分析中文分詞技術 關鍵基於詞典匹配和搜索統計
實例分析中文分詞技術 關鍵基於詞典匹配和搜索統計
編輯:SEO優化集錦     

最近有朋友問我的站點除了把合肥SEO、合肥網站推廣做上首頁,而安徽SEO、安徽網站推廣、安徽網站優化也排在百度首頁。所以借著這個契機,跟大家聊聊百度的中文分詞技術,也都是自己的一些理解,有更多的想法歡迎交流。

SEOer都知道,搜索引擎工作原理中有一步預處理,將抓取的頁面進行幾道工序處理下,為之後的排名機制做好初步准備。在預處理過程中,就有分詞這一道技術工序。英文是以一個單詞作為基本單位,單詞之間用空格分割連成一句話,中文是以字為單位中間沒有連接符成為一句話。所以,中文分詞與英文分詞差別很大。而從現有的搜索引擎特別是百度的中文分詞研究表明,主要是基於詞典匹配和基於統計。

1、基於詞典匹配是指將目標詞或句與已有的詞典中的詞條進行匹配處理,掃描之後匹配成句、詞、字形式。

(1)按照掃描方向不同,可分為正向匹配和逆向匹配。

(2)按照匹配長度優先級不同,可分為最大匹配和最小匹配。

(3)按照掃描方向和長度優先混合匹配,可分為正向最大匹配和逆向最大匹配等。

2、基於統計是指分析大量數據樣本,掃描計算出字或詞或句出現的統計概率,幾個字鄉鄰出現越多,就越能形成一個詞,同樣的可以形成句。

基於詞典匹配准確性是取決於詞典的完整性和時效性,速度很快。基於統計的分詞方法更為靈活,同時有利於消除歧義,但速度較慢。搜索引擎的中文分詞往往是將這兩種分詞技術糅合在一起使用,以提高速度和准確性。這是我們所說的中文分詞技術,那麼同樣的基於這些中文分詞技術,我們要最大化利用,回歸合肥SEO博客,談談對中文分詞技術的應用和揣測。

1、從關鍵詞合肥SEO”會被拆分為“合肥”+“SEO”,“合肥網站推廣”會被拆分“合肥”+“網站”+“推廣”或者“合肥”+“網站推廣”或者“合肥網站”+“推廣”等形式。這種分詞可以很好的理解,並在我們的站點中得到廣泛的應用。百度搜索“合肥SEO”前20個結果頁中只有一個不是完全匹配,“合肥網站推廣”前20個結果只有四個不是完全匹配

2、從關鍵詞“安徽合肥SEO”可以拆分為“安徽”+“合肥”+“SEO”或“安徽合肥”+“SEO”或“安徽”+“合肥SEO”,但是這裡可以基於統計拆分為“安徽SEO”+“合肥”。依此,我博客的標題就能拆分為“安徽”+“網站推廣”、“安徽”+“網站優化”。從效果上看,有這幾點因素:

(1)有個主次之分,將競爭力大的詞放一起,競爭力小的詞進行組合拆分。我博客主做“合肥SEO”,分詞“安徽SEO”

(2)站點中要出現拆分過的詞,如“安徽SEO”等,這是在提醒搜索引擎是這樣的分詞,還可以將它們加粗、反顯、錨文本等突出分詞效果。

(3)在外部鏈接或友情鏈接建設過程中,除了主做關鍵詞外,還要做拆分的詞。

3、現在還有一種觀點就是搜索引擎逐漸做到去模擬中文語法,去理解句子。“安徽合肥SEO-合肥網站推廣-合肥網站優化”完全可以拆分為“安徽SEO”+“合肥SEO”+“安徽網站推廣”+“合肥網站推廣”+“安徽網站優化”+“合肥網站優化”。當然漢語的博大精深,目前的機器語言還是很難做到基於理解的分詞技術。

最後要說的是,之所以前鋒SEO博客的中文分詞能做到如此效果,這與其anhuiseo域名分不開的。當然,這很適用百度搜索引擎,谷歌好像不太靈光。本文由小本創業網(http://hot.36578.com)站長原創,轉載請注明出處,謝謝!!

感謝 前鋒 的投稿

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved