DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 解說TF-IDF算法在SEO優化中的應用
解說TF-IDF算法在SEO優化中的應用
編輯:SEO優化集錦     

  TF-idf算法其實是一種用戶資訊檢索與資訊探勘的常用加權技術,常常被SEOER們應用到,而很多人或許不太知道,其實最直觀的了解就是“網站關鍵詞密度”。

  直接切入主題,TF-idf算法到底是如何計算的:

  公式:

  TF:詞頻

  IDF:逆文本頻率指數

  TF-IDF=TF*IDF

  我們舉例說明,TF詞頻的意思,是指一個詞出現在頁面中的次數,如果一篇文章的總詞語數是200,而“網站優化”這個詞出現了4次,那麼這個詞頻TF=4/200,也就是0.02。

  而IDF也就是很文件頻率,指這個詞在多少頁面出現過計數為N,文件總數計數為M,那麼IDF=lg(M/N)。假設“網站優化”在2000個頁面出現,總文件數為1億,那麼文件頻率IDF=lg(100000000/2000)=4.69897,那麼計算最後的TF-IDF=0.02*4.69897=0.0939794。

  這只是一個判斷一個頁面的相關度的問題,而在SEO網站優化中,並不只是判斷TF-IDF的值加分,我們需要一個識別度高的詞來為頁面加分。例如:搜索引擎收錄一萬億個頁面,應該說每個頁面都會有“的、是、中、地、得”等等詞,這些高頻詞也叫噪音詞或停止詞,搜索引擎會去除這些詞,所以這些詞的加分權重其實應該是0。計算公式:TF-IDF=log(1萬億/一萬億)=log1=0。

  其實在搜索引擎檢索中,計算權重的時候,會根據每個詞分詞來計算,例如:“SEO網站優化的技巧”這個詞。

  假設:SEO頁面檢索數位2000萬,網站優化的檢索數為1000萬,技巧的檢索數為50000萬

  搜索引擎索引總數假設為100億。

  SEO在www.ruihess.com這個網站中頁面(頁面總詞數400)出現8次,網站優化出現10次,技巧出現16次。

  那麼各自的詞頻

  TF(SEO)=8/400=0.02,

  TF(網站優化)=10/400=0.025

  TF(技巧)=20/400=0.04

  TF(的)=上面已近提到,的屬於高頻停止詞,權重為0。

  那麼搜索“SEO網站優化的技巧”這個頁面的相關度為:TF(總)=0.02+0.025+0.05=0.095。

  而IDF(SEO)=LOG(10000000000/20000000)=2.69897

  IDF(網站優化)= LOG(10000000000/10000000)=3

  IDF(技巧)=log(10000000000/100000000)=1.69897

  這麼算下來之後,每個詞為搜索“SEO網站優化的技巧”為頁面的權重和相關度貢獻的值分別為:

  Tf-idf(seo)=0.02*2.69897=0.0539794

  Tf-dif(網站優化)=0.025*3=0.075

  Tf-idf(技巧)=0.04*1.69897=0.0679588

  由此可以看出,雖然技巧出現的頻率更高,但識別度沒有SEO和網站優化高,所以為頁面的權重貢獻度並不是太大。

  一個詞的預測能力也就是識別度越高,那麼這個詞的權重越大,反之則越小,看到“網站優化“可能你就已經基本了解這個頁面要講什麼,但是看到技巧,你可能還不是太明白頁面的主題。

  當然這支持搜索引擎的算法的一個點,我們還要結合標簽來實現權重的提升,例如H標簽,而主關鍵詞周邊的詞也會加分,這裡周邊是指在一個標簽內的例如:SEO網站優化的技巧主要是一些搜索引擎優化思路的介紹

  Design by www.ruihess.com

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved