自己動手制作偽原創程序分為八個步驟

DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 自己動手制作偽原創程序分為八個步驟

自己動手制作偽原創程序分為八個步驟

編輯：SEO優化集錦

偽原創的目的是為了是搜索引擎認為這是一篇原創文章，從而給此文章比較高的權重。而目前偽原創有很多做法，例如替換詞語，交換句子等。

在這裡將從各方面分析偽原創以及手把手教你制作偽原創程序。與昂貴的偽原創軟件說拜拜！龍居客網站長提供

教程環境：

1、PHP

2、MYSQL

3、SCWS分詞系統

類似PHP腳本，類似MYSQL數據庫，類似分詞系統亦可，在此只提供思路。

第一步：配置好你的環境！

在此需要做的是下載SCWS分析系統，按照官方的教程安裝此系統，並且測試通過。其他的後台腳本，數據庫就不多說了。SCWS是設計給C語言使用的，也為PHP做了擴展庫，你也可以使用C語言制作你的偽原創程序。

第二步：獲取文章，肢解文章

所謂肢解文章，就是將文章分句，分句需要自己寫程序進行，我提供一個思路：以句號、感歎號、問號為分句標識，以上引號，左括號，左書名號等位起始符，以右引號、右括號、右書名號為結束符。遍歷文章，當遇到起始符則進入不可分句狀態，遇到結束符則退出此狀態，當遇到分句標識時，僅當當前為可分句狀態是，將讀取到的內容分為一句，以此循環，將文章肢解問一個一個的句子。在此做分句狀態的目的，是為了保護位於括號、引號、書名號等一段內容內的分句標識，例如【他說：“我愛你。”】這裡的【我愛你。】不會被誤分解。

第三步：分詞

將分解的句子進一步肢解，得到分詞。例如【蘋果與西紅柿一個是水果一個是蔬菜】這個句子可以分為【蘋果】【與】【西紅柿】【一個】【是】【水果】【一個】【是】【蔬菜】，在這個步驟中，需要SCWS的幫助，正常安裝此分詞系統後，分詞操作只需要一個函數。就這個簡單！另外，除了分解出詞語之外，還要獲得詞語的性質，例如名詞、動詞等。

第四步：關鍵詞同義替換

在此需要一個知識庫的支持，下載《哈工大信息檢索實驗室同義詞詞林》擴展版，裡面是非常全的同義詞大全，每個詞有多個編碼，代表該詞多義，一個編碼下有多個詞，表示這些詞是同義詞，將他們讀取並保存到數據庫中備用。

根據相關領域，設置你的關鍵詞，例如你是做房產類網站，那麼你的關鍵詞可能是租房，出租，二手房，買房子，房屋合同，要找出很多的該領域的關鍵詞，然後根據同義詞詞林對它們進行替換。為什麼只替換關鍵詞呢？因為一個非關鍵詞部分替換了，可能會引起奇異，而且不是該領域的詞，權重沒有領域關鍵詞權重高，損失語句通順度來做偽原創，得不償失。

第五步：標點亂舞

文章相似度的計算是根據句子相似度計算的，句子的相似度又是根據詞相似度計算出來的，所以即使更換了關鍵詞為同義詞，所得到的文章與原文還是會被判定為相似文章，怎麼辦呢？首先我們看看如何進行文章相似度計算。

前面說的同義詞詞林的編碼，其實這裡面大有學問，不是隨便亂編的碼，同義詞詞林的拓展版將一個詞的詞義，用一個編碼標識，編碼可分為5部分，分別是大類、中類、小類、詞群、原子詞群，例如學生和老師，這兩個詞，肯定是屬於一個大類的，因為他們都是人，而西紅柿和番茄，肯定是一個詞群的，因為他們指的就是一個東西。那麼相似度的計算就簡單了，按照100為完全相同來計算，若大類相同，則為10，若中類再相同，則為20，若小類再相同，則為50，若詞群再相同則為90，若原子詞群再相同，則為100。這裡為什麼要用“再”字，因為只要其中有一個不同，則無需再對比下去，例如大類都不同的兩個詞，中類，小類肯定不同了。

在此對比兩個文章中的一個句子出現的詞的相似度，計算每個句子的相似度，進而計算文章相似度，這裡涉及一個算法，類似google的PR算法，以貢獻度來疊加計算相似度。

說了這麼多，我們該如何做，我們要打亂標點符號，干擾搜索引擎的分句處理。

人看文章時，特別是新聞或者資訊，一般不在意標點符號，甚至有些人只是一眼而過粗略的看，即使斷句混亂，文章大意不會有任何問題，所以我們要隨意的將文章中的句號和逗號隨意的替換，這樣影響搜索引擎對文章進行分句，從而影響其相似度計算。

第六步：建立摘要置於段首

文章越靠前的內容越重要，這點毋庸置疑，所以我們需要對文章進行摘要，置於文章頂部，摘要的制作要有一定的壓縮率，如1000字的文章，做100字的摘要即可，這裡不按字數來統計，按句子數來統計比較方便，因為我們已經對文章進行了分句處理。500句規模的文章，做20句摘要左右。摘要的核心在於選取摘要句子，因為摘要本身是讓人了解個大概意思，所以又那麼一點點語義不通是可以承受的。

前面說過了關鍵詞，提取摘要也需要關鍵詞，我們以權重的方式提取摘要句，包含關鍵詞的句子，權重高，包含的數量越多，權重越高，以此計算出每個句子的權重。然後根據原文的順序，按權重高低順序將他們提取出來，直到提取夠你所需要的句數為止。將他們拼接，成為文章的文摘。

在此還可以做的更好一些，在網上找句子相似度計算算法，計算句子相似度，將相似句剔除，防止語義重復。因為包含很多關鍵詞的句子很有可能意思是重復的。

第七步：標題的自定義

偽原創很重要的一點就是改標題，標題一定要改，根據相似度計算的算法，我們改標題一定要改得煥然一新，例如【高考10招】改成【高考十招】，這種改法，你簡直是把百度當傻逼了。那要怎麼改呢？編瞎話你會不？【專家十點建議，助你備戰高考】【做到這十項，高考得滿分】【清華離你只有十步！】改成這些標題意思沒變，但是很吸引人去點擊，並且不會被搜索引擎發現是雷同文章。不錯把？

第八步：打亂權重較低的句子的順序

權重低的句子也能派上用場，雖然我們認為這些句子不是很重要，但是搜索引擎可不知道，我們把他們的順序稍微打亂，並不影響語義，反而起到了偽原創的效果，很好。

對於目前的偽原創軟件，無章法的打亂句子順序，是不可取的。例如一篇文章介紹了10個軟件，已經標記好了1、2、3、4的順序，經過偽原創之後，順序亂了，讀者讀起來就匪夷所思了。而本文介紹了句子打亂，是從局部范圍內打亂，而且都是非關鍵句。

即解決了偽原創的問題，又解決了文章可讀性的問題，除非你的文章只是給搜索引擎看的而不是給人看的，否則，趕緊動手制作自己的偽原創程序吧！感謝龍居客網站長提供（http://www.longjuke.com）

感謝 duway 的投稿

上一頁:百度收錄技巧：網站如何被百度收錄
下一頁:SEO菜鳥用實例來講解網站優化的過程

SEO優化集錦

企業網站如何快速提升權重: 企業如何快速提升權重？這是許多seo新手比較關注的問題。網站上線很長時間了，每天都在更新，可是就是不
高亮久：seo與網絡炒作的結合方法: 前段時間有朋友和我聊起seo的現狀，有些悲觀，覺得現在seo應用的非常迷茫，做排名很難，做上去了
預測下一階段百度會打擊的東西:

SEO基礎教程 SEO進階教程 SEO高級教程 SEO技巧 SEO最新資訊 SEO相關 SEO優化集錦

小編推薦

百度抓取診斷工具上線讓黑鏈無所遁形探索移動SEO的發展朱勇：SEO白話文之三影響排名的因素網站進行初步診斷十大基本步驟張帆：如何確定網站目標與seo的策略做SEO怎麼解除“度日如年”的感覺 SEO密集之玉女心經讓免費流量拯救你的店鋪單頁面網站seo優化技巧分析利用百度小更新解決快照和收錄問題

DIV CSS 佈局教程網

相關文章