DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 從算法角度去了解關鍵詞與文章的相關性
從算法角度去了解關鍵詞與文章的相關性
編輯:SEO優化集錦     

一般來說,一個詞語或短語能否成為文章的關鍵詞,主要取決於這個詞語或短語反應文章中心思想能力的大小。關鍵詞與文章之間的相關性,也主要是為了說明任選的一個詞語和短語,對於指定的文章,它反應這篇文章的中心思想或主題意思的能力有多少。關鍵詞的抽取受到詞語在文章中出現的位置,出現的頻率以及詞語的語義特征的影響。那麼,搜索引擎到底是如何判斷關鍵詞和文章之間的相關性呢?在這裡,筆者從自己的一些觀點出發,產生了一些想法,應該拋磚引玉,得到大家的指點。

個人認為,搜索引擎應該是從以下幾步來如何分析關鍵詞和文章性的:

第一:搜索引擎首先對要分析的網頁進行淨化處理

網頁淨化主要是去掉網頁中大量無用的廣告、導航欄等網頁模板噪聲以及無意義的內容,如JavaScript腳本,CSS標記等內容。至於搜索引擎采用的是何種算法,則不為我們所知,但是個人估計應該是對網頁進行劃分為不同的快,通過衡量網頁塊的重要程度來判斷出包含主題內容的塊,然後提取出該塊的內容,至於搜索引擎如何判別網頁快的重要程度,那是另外一個課題。

第二:針對提取出的內容進行分詞處理

個人認為,搜索引擎可能采用了某種算法,對內容先進行了詞語粗分階段,先得出N個概率最大的切分結果;然後,利用角色標注方法識別未登錄詞,並計算其概率,將未登錄詞加入到切分詞圖中,之後視其為普通詞處理,最終進行動態規劃優選出N個最大概率切分標注結果。並進行記錄。

第三:對初步分詞的結果進行去除無意義的詞語

搜索引擎通過對第二步的分詞結果進行分析,去除一些語氣詞和形容詞等非實意詞和一些單詞,同時還考慮到單字詞所表達的信息不夠完整也應當濾除。去除停用詞通過建立一個停用詞列表來實現。這樣,通過去除這些無意義的詞之後,剩下的就是有意義的,值得分析的詞匯了。

第四:對關鍵詞的權重進行確定分析

在完成對文章分詞切分和淨化工作之後,就要將文章所有關鍵詞進行分析了,筆者的想法是搜索引擎將文本表示成Ⅳ維特征向量,每一維分量由關鍵詞及其權重組成。一般認為,關鍵詞在文中的權重的確定,主要由三部分組成,詞頻,位置和詞義共同影響決定。而詞頻和位置對詞語或短語的影響可以通過確定的算法加以確定,詞義權重也有固定的算法進行分析計算。搜索引擎利用設定好的算法對上述關鍵詞進行了計算和分析。從而得到最後的結果。

筆者認為,搜索引擎通過上面的步驟進行分析後,得到最後的結果,而筆者在這裡談談自己對搜索引擎具體的分析方式,只是個人見解:

第一:搜索引擎基於關鍵詞位置的權重

在文檔中,關鍵字所在的位置對於搜索引擎判斷某個關鍵字在頁面的權重起到很重要的作用。比如說域名被搜索引擎認為是網站最固定的因素,例如:域名裡面含有DVD關鍵字的域名,在用戶檢索關鍵字DVD的時候具有先天的優勢。標題是網站的最寶貴的資源,搜索引擎認為標題是在浏覽器標題欄裡而顯示,因為要顯示給用戶,所以它是文件最重要和最簡潔的摘要。適當突出關鍵字在標題的比重非常有利於排名的提高。

第二:搜索引擎基於關鍵詞出現的頻率

網頁中不同關鍵詞的總數,這是一個很重要的方面。個人認為雖然關鍵詞出現的位置和詞頻大小對關鍵詞權重影響很大,但是詞頻大並不能決定該詞語適合作為關鍵詞。舉個簡單的例子,我們在一篇文章中對“美國’’進行優化,出現的詞頻很大,出現的位置也很重要,但是這個詞還是不能賦予較高的權重,因為“美國’’也廣泛的出現在其他的文獻中,在這些文獻中,“美國“也存在頻率大和所在位置也比較重要。因此,對那些詞頻較高但又不適合作為關鍵詞的詞語賦予的權重應該較低。

第三:文檔中重要關鍵詞之間的距離

個人分析,文檔中重要關鍵詞之間的距離應該也是衡量關鍵詞與文章的相關性的一個重要方面。

筆者認為,搜索引擎在進行以上一系列的處理之後,從而針對這個關鍵詞給該文章一定的評分,當用戶搜索某個關鍵詞時,該評分高的文章排在前面的機會就大很多,當然這是排除了外鏈的影響。以上是個人對搜索引擎的一些觀點,不一定正確,希望能和大家一起學習,最後,文章版權歸屬:廣州人流醫院 :http://www.gzrlw.net/,歡迎大家轉載,但是請大家轉載的時候保留鏈接,謝謝大家的理解和合作!

感謝 siyi8473 的投稿

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved