移動的交互設計:手機語音自動識別的交互設計

DIV+CSS佈局教程網 >> 網頁腳本 >> WEB網站前端 >> 關於網頁技巧 >> 移動的交互設計:手機語音自動識別的交互設計

編輯：關於網頁技巧

破洛洛文章簡介：淺析手機語音交互設計.

語音識別技術，也被稱為自動語音識別，其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入，例如按鍵、二進制編碼或者字符序列。

語音識別技術作為輸入方式，比按鍵輸入和手勢輸入更為快捷，學習成本很低，對於非特定人連續語音識別系統的識別率達到98.73%，已經達到實用要求，具有廣闊的應用前景，在手機端的應用有語音撥號、語音輸入、語音命令、語音搜索和語音翻譯等。

語音的技術原理比較復雜，可以從語音交互的過程來理解：

1.開啟語音識別功能。一般由用戶手動點擊按鈕啟動，手機端暫時無法自動啟動，如由語音命令啟動或者根據音量高低判斷開始識別。

2.進入說話界面。程序界面會通過視覺體現音量的變化。

3.說話完畢，系統開始分析。結束輸入有兩種方式：一是自動關閉，通常時輸入單詞完畢之後自己的關閉，另一種是用戶手機手動關閉。系統處理過程可以分為以下幾個步驟：

a）前端處理。該模塊的主要任務是從輸入信號中去除噪音等影響結果的因素，提取特征，供聲學模型處理。信號處理之前會先進行斷點檢測，端點檢測是指在語音信號中將語音和非語音信號時段區分開來，准確地確定出語音信號的起始點。經過端點檢測後，後續處理就可以只對語音信號進行，這對提高模型的精確度和識別正確率有重要作用。語音增強的主要任務就是消除環境噪聲對語音的影響。目前通用的方法是采用維納濾波，該方法在噪聲較大的情況下效果好於其它濾波器。

b）聲學特征提取。聲學特征的提取既是一個信息大幅度壓縮的過程，也是一個信號解卷過程，目的是使模式劃分器能更好地劃分。如上傳音頻會利用到語音編碼解碼技術，可以減少音頻的文件大小、存儲空間或者傳輸比特率。

c）統計聲學模型。計算各個幀的聲學特征，如上下文建模。根據發聲機理，音之間只能漸變，前一音會影響後一音，從而使得後一個音的頻譜與其他條件下的頻譜產生差異，從而使模型能更准確地描述語音。

d）發音詞典。發音詞典包含系統所能處理的詞匯集及其發音，類似於拼音輸入法的詞庫。如輸入法，詞典更新熱詞和詞庫有組於提高匹配的准確率。

e）語言模型。語言模型對系統所針對的語言進行建模，如分析語音上下文。

由於音頻文件大小的限制，本地只能存儲少量的詞典，這也就要求復雜的語音需要連接服務器分析。谷歌語音搜索在用戶輸入完成之後才提示無法聯網，在啟動輸入之前就應該檢查網絡連接狀況。

4.系統分析完畢輸出結果。一種是根據結果自動顯示結果，如bing搜索，另外一種是提供選項供用戶選擇，這和輸出結果的概率高低有一定關系。用戶選擇的結果對於詞典的排序產生影響，增強語音的自適應和強健性，幫助形成個性化輸入。

根據產品可識別的詞匯量區分產品，對於特定語音命令，用戶只能輸入符合命令的詞匯，比如說出聯系人名字搜索。輸入法的詞匯更多，而語句搜索不但需要龐大的詞匯庫，處理連續的語音輸入需要區分連音和變音，還要求能根據上下文和熱詞輸出更為合理的結果。條件限制越少，語音識別的難度越大。因為一定程度上避免模糊音，詞典數據越少，輸入特定詞匯的准確率越高。

中文的語音輸入與英文不同，英文匹配不到詞典配置的詞就無法識別，中文詞匯由單字組成，中文可以根據單字識別。

io 5的輸入法已經加入語音功能，會逐步變為手機輸入的常規功能，最終輸出結果的准確率和操作流暢度是衡量其交互優劣的重要標准。

上一頁:破洛洛收集國外出色的About Me（關於我）頁面設計
下一頁:UI界面設計之美:柵格系統

關於網頁技巧

介紹幾款WAP模擬浏覽工具（提供下載）: 　　1、WinWAP3.0　　　　說明:　　Winwap是Slobtrot網站提供的WAP仿真工具
用戶體驗:10條有用的網站可用性設計參考: 網頁制作poluoluo文章簡介：這裡是能夠幫助你提高你的網站的用戶體驗的10條有用的可用性結論和指
對比用戶界面設計和用戶體驗設計: 用戶界面設計用戶界面設計用戶體驗設計用戶體驗設計在便池上放一個假蒼蠅會導致男人撒尿的時候會不由自主地

前端技巧關於網頁技巧 WEB前端代碼網頁特效代碼

DIV CSS 佈局教程網

相關文章