發(fā)布時間:2023-03-02 15:05:52
序言:寫作是分享個人見解和探索未知領(lǐng)域的橋梁,我們?yōu)槟x了8篇的語音識別系統(tǒng)樣本,期待這些樣本能夠為您提供豐富的參考和啟發(fā),請盡情閱讀。
自上世紀中期以來,語音教學(xué)在語言教學(xué)中逐步受到重視,教育部《高等學(xué)校英語專業(yè)英語教學(xué)大綱》對學(xué)生的語音能力提出明確的要求,即要求發(fā)音正確,語調(diào)比較自然,以此目標(biāo)指導(dǎo)語音教學(xué)。語音教學(xué)隨同外語教學(xué)理論、模式的演變也在經(jīng)歷著一系列的變革,教學(xué)重點從初期的音素和單詞發(fā)音,發(fā)展到目前著重超切分音,如中信、節(jié)奏和語調(diào)等(羅立勝,2002)。而語言教學(xué)方式也由機械的模仿、重復(fù)、跟讀、單音糾正發(fā)展到今天交際性的練習(xí)和自主練習(xí)。但是在對新生的語音情況調(diào)查中發(fā)現(xiàn),往往這種交際性練習(xí)和自主練習(xí)存在以下幾方面問題:學(xué)生水平參差不齊,受母語影響程度不一,大部分中學(xué)學(xué)習(xí)過英語語音但不系統(tǒng),也不夠重視。中學(xué)教師因受應(yīng)試教育的影響,少有時間教授語音發(fā)音,經(jīng)調(diào)查,80%的學(xué)生稱中學(xué)學(xué)習(xí)過程中惟一的語音輸入來自英語教師。僅有30%的學(xué)生稱聽過磁帶、看過英文電影。語音學(xué)習(xí)雙層面的脫節(jié)性和去語境化學(xué)習(xí)97%學(xué)生因高考需要背記過國際音標(biāo)及其在英語單詞中的讀音,但80%的學(xué)生表示沒有進行過系統(tǒng)的語音訓(xùn)練,缺乏語境化教學(xué)。自主語音學(xué)習(xí)效果欠佳,孤立的語音練習(xí)很難在實際語言交流中應(yīng)用。目前,語音課上教師主要幫助學(xué)生一對一,對比模仿練習(xí)發(fā)音,縮小學(xué)生在語音認知上母語和目標(biāo)語之間的差異。課后學(xué)生僅能通過模仿有聲資料提高語音。標(biāo)準(zhǔn)程度往往由學(xué)生自行判斷,由于學(xué)生聽說能力的差異,自行判斷發(fā)音是否準(zhǔn)確是不確定的。本文試圖以現(xiàn)代的語音教學(xué)技術(shù)Reading Assistant語音識別系統(tǒng)的引入探討語音教學(xué)模式的改革。
二、對Reading Assistant語音識別系統(tǒng)有效手段的分析
Reading Assistant語言學(xué)習(xí)系統(tǒng)由美國科學(xué)學(xué)習(xí)公司研發(fā)的,以語言學(xué)習(xí)理論和過程為基礎(chǔ),旨在通過朗讀提高語音、詞匯、語法等語言綜合技能即“以讀促學(xué)”,筆者所在西安外國語大學(xué)英文學(xué)院于2008年9月開始使用該系統(tǒng),擁有600個賬號,僅供一年級新生使用。目前主要用于配合語音課程,輔助完善語音自主學(xué)習(xí)。根據(jù)上述語音教學(xué)中存在的問題和應(yīng)該堅持的教學(xué)原則,和以下Reading Assistant的教學(xué)特點作一對照,就不難理解該語音識別系統(tǒng)對英語語音學(xué)習(xí)及語言學(xué)習(xí)的可行性了。
1.根據(jù)Reading Assistant(語音識別)系統(tǒng)的(以下簡稱語音識別)的設(shè)計。實行學(xué)生每人擁有一個使用賬號,便于展開個性化的、有針對性的指導(dǎo)。滿足不同層次學(xué)生的要求,在語音教學(xué)中眾多語言教師發(fā)現(xiàn)模仿是提高語音的最有效方法之一,但是模仿什么語音材料,模仿哪種語音,怎樣模仿和自主學(xué)習(xí)能否模仿后是否準(zhǔn)確仍有很大的困難,在使用語音識別系統(tǒng)時,學(xué)生首先要根據(jù)其設(shè)定的不同級別,和原有的測試級別自行測試,從精選的不同層次的150篇文章中選擇適合自己水平和類別的進行朗讀。
每次朗讀后根據(jù)語音發(fā)音有成績記錄,每篇文章可以朗讀10次。語音識別系統(tǒng)是建立在建構(gòu)主意語音教學(xué)模式的理論智商,學(xué)生是學(xué)習(xí)的主體,不是被動地接受知識,而是主動地在原有的知識體系中,通過不斷地積極實踐,構(gòu)建自己的新的知識和經(jīng)驗。因此在這種長期的語音練習(xí)過程中,學(xué)生可以根據(jù)自己的學(xué)習(xí)需要“建構(gòu)”語音學(xué)習(xí)材料,提高自主學(xué)習(xí)能力。
2.導(dǎo)入語音練習(xí)的語境化,模仿對象的本土化。在實際交往活動中,聽、說、讀、寫不是以孤立的因素和單詞為單位進行思想交流的,取而代之的是以綜合的句子和更高層次的話語單位進行的,孤立的因素和單詞的發(fā)音在綜合運用中會產(chǎn)生很大的變異,如連讀、失去爆破、弱讀等影響,因此,語音識別系統(tǒng)通過不同類別的文章(包括科技、生活、文藝、人物傳記)等等構(gòu)建不同的語境,除了傳統(tǒng)意義對話中包含的語境外,文章中還涉及各個年齡段,男聲、女聲等讀音。錄音及文章內(nèi)容的選擇全部出自母語國家。確保模仿對象發(fā)音的準(zhǔn)確性。
3.判讀過程的準(zhǔn)確性和可調(diào)節(jié)性。根據(jù)語音識別系統(tǒng)讀音匹配程度的設(shè)計,學(xué)生在閱讀過程中分別會出現(xiàn)完全正確發(fā)音、誤讀、不會讀、不準(zhǔn)確等情況,并以不同顏色標(biāo)注。每次閱讀完成后,學(xué)生可以查看有哪些單詞不準(zhǔn)確。開始閱讀后,每讀一個單詞就會有不同顏色顯示。而在本身閱讀中如果出現(xiàn)嚴重的錯讀,該識別系統(tǒng)會停止前進,并隨機開始正確讀音,要求練習(xí)者跟讀。教師也可以根據(jù)自己的界面監(jiān)控學(xué)生朗讀過程,隨時抽聽不同學(xué)生的朗讀情況。過度的糾錯會挫傷部分水平較低學(xué)生的學(xué)習(xí)積極性,因此在開始學(xué)習(xí)階段教師可以根據(jù)學(xué)生各個層次的學(xué)習(xí)調(diào)整不同的匹配度以提高學(xué)生學(xué)習(xí)興趣。
三、學(xué)生對語音識別使用情況及存在的問題
經(jīng)過對英文學(xué)院2008級540名學(xué)生一學(xué)年使用情況的調(diào)查,86%的學(xué)生表示自己經(jīng)常去RA實驗室,80%的學(xué)生認為RA有助于閱讀水平的提高,95%的學(xué)生認為RA對語音語調(diào)有幫助,90%的學(xué)生認為RA對聽力有幫助,85%的學(xué)生認為RA對整體學(xué)習(xí)有提高。對于語音識別系統(tǒng)進一步的學(xué)習(xí)和開發(fā),學(xué)生表示除英語專業(yè)學(xué)生初期應(yīng)用在語音教學(xué)以外,還應(yīng)考慮繼續(xù)輔助閱讀、寫作等課程。而語音識別系統(tǒng)中文章內(nèi)容選擇可以適當(dāng)考慮本土化,多針對中國學(xué)生發(fā)音中存在的問題進一步涉及文章和練習(xí)。
綜上所述,外語語音教學(xué)目標(biāo)不再是僵硬的單音、音素教學(xué),而是融合更多語言交際任務(wù)的綜合教學(xué),而隨著計算機、數(shù)字化和語音識別技術(shù)的發(fā)展,充分利用現(xiàn)代教育技術(shù)不僅可以豐富教學(xué)內(nèi)容,更重要的是注意到學(xué)生的情感因素,培養(yǎng)學(xué)生自主學(xué)習(xí)能力,讓語音教學(xué)改變以往依賴性、單一性、枯燥性,使其更具創(chuàng)造性,讓以讀促學(xué)全方位體現(xiàn)在英語學(xué)習(xí)中。
參考文獻
[1]羅立勝等.英語語音教學(xué)的回顧及對目前英語語音教學(xué)的幾點意見.外語與外語教學(xué),2002(10).
[2]顧佩婭等.基于構(gòu)建主義的計算機輔助項目教學(xué)實踐.外語與外語教學(xué),2003(7).
[3]陳愛勤,石春熙.英語專業(yè)新生語音教學(xué)的語境論研究.長春師范學(xué)院學(xué)報(人文社會科學(xué)版),2008(1).
論文關(guān)鍵詞:VC,Matlab,實時語音識別,MFCC,DTW,非特定人,MEX
1引言
VC和Matlab的混合編程共同運用于語音識別,可以借助VC實現(xiàn)對語音信號的采集,同時通過Matlab強
大的矩陣計算功能,簡便化的編程方法,實現(xiàn)對語音
信號的識別處理。
其中,VC主要做語音信號的采集,通過借助于微
軟提供的WindowsMultimedia API 開發(fā)了在線實時語
音采集程序,實現(xiàn)了人機在線實時交互。
2 語音識別系統(tǒng)概述
語音信號的一般處理過程如圖 1所示,其中首先對語音信號進行預(yù)處理DTW,其中預(yù)處理包括預(yù)濾波、采樣和量化、加窗、端點檢測、預(yù)加重等。然后是信號特征量的提取,本文對信號的特征量進行Mel 頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficients)處理。最后通過對已經(jīng)建立好的參數(shù)模板進行對比,測試的依據(jù)是失真度最小準(zhǔn)測,如本文用到的動態(tài)時間規(guī)整: DTW(DynamicTime Warping)。
圖 1 語音識別過程基本流程圖
3 語音信號的采集
語音信號的兩個過程為:對語音信號進行實時
的采集,對采集的語音信號做出識別。本文對語音信號的采集是通過VC調(diào)用Microsoft的Windows系統(tǒng)中提供了多媒體應(yīng)用程序接口(Multimedia API)實現(xiàn)。
3.1 用VC生成動態(tài)鏈接庫供Matlab調(diào)用
通過mex文件來實現(xiàn)VC與Matlab的混合編程。mex
代表 MatlabExecutable。Matlab中可以調(diào)用的C或
Fortran語言程序稱為mex文件。mex文件是一種特殊的動態(tài)連接庫函數(shù),它能夠在MATLAB里像一般的M函數(shù)那樣來執(zhí)行。
VC編譯的時候應(yīng)該包含頭文件mex.h。與C中的主函數(shù)main()函數(shù)一樣,mex程序中的開始函數(shù)為:
void mexFunction(int nlhs,mxArray *plhs[], int nrhs, const mxArray *prhs[])其中
nlhs指的是在調(diào)用函數(shù)時返回值的個數(shù);
plhs[]是每個返回值(在MATLAB中都是矩陣)的指針;
nrhs指的是調(diào)用函數(shù)時的參數(shù)個數(shù);
prhs[]是每個參數(shù)的指針。
對mexFunction的參數(shù)是進行指針操作的,不能用單純的return返回值。mex程序傳送回來的整數(shù)數(shù)據(jù)要變?yōu)殡p精度型數(shù)據(jù),才能為其它函數(shù)所處理。
3.2 Multimedia API函數(shù)介紹
API(ApplicationProgramming Interface,應(yīng)用程序編程接口)是一些預(yù)先定義的函數(shù),目的是提供應(yīng)用程序與開發(fā)人員基于某軟件或硬件的以訪問一組例程的能力,而又無需訪問源碼,或理解內(nèi)部工作機制的細節(jié)。
MultimediaAPI 函數(shù)主要有以下幾個:獲取音頻設(shè)備信的函數(shù)waveInGetNumDevs(),該函數(shù)用于獲取當(dāng)前系統(tǒng)中所安裝的音頻輸入設(shè)備的數(shù)目。
查詢音頻設(shè)備的能力函數(shù)waveInOpen(),該函數(shù)的作用是打開波形輸入輸入設(shè)備。
通過CALLBACK_FUNCTION命令來打開設(shè)備。錄音緩沖區(qū)的組織WAVEHDR結(jié)構(gòu), 一般都是設(shè)置雙緩存區(qū)對語音信號進行平穩(wěn)緩沖站。開始和停止錄音時用到waveInStart()和waveInStop()兩個函數(shù)。
4 用Matlab實現(xiàn)語音識別過程
4.1 端點檢測
從背景噪聲中找出語音的開始和終止點這是在很多語音處理應(yīng)用中的基本問題。端點檢測對于語音識別有著重要的意義。本文主要采用短時能量與短時平均過零率雙門限結(jié)合的方式,來對漢語語音的起止點進行檢測。短時能量和過零率分別確定兩個門限, 信號必須達到比較高的強度, 該門限才可能被超過。且低門限被超過未必就是語音的開始, 有可能是由短時間的噪聲引起; 高門限被超過則可以基本確定是由于語音信號引起的。
%每幀過零率
4.2 特征函數(shù)的提取
語音信號完成分幀處理和端點檢測后,下一步就是特征參數(shù)的提取。目前在語音識別中較為常用的特征參數(shù)是線性預(yù)測倒譜系數(shù)(LPCC,LinearPredictive Cepstrum Coefficients)和Mel頻率倒譜系數(shù)(MFCCDTW,Mel-FrequencyCepstrum Coefficients),這兩種特征參數(shù)都是將語音信號從時域變換到倒頻域上。LPCC從人的發(fā)聲模型角度出發(fā),利用線性預(yù)測編碼(LPC,LinearPredictive Coding)技術(shù)求出倒譜系數(shù),而MFCC則是構(gòu)造人的聽覺模型,把通過該模型(濾波器組)的語音輸出為聲學(xué)特征,直接通過離散傅立葉變換(DFT,DiscreteFourier Transform)進行變換。本文采用MFCC方法。Mel頻率倒譜系數(shù),即MFCC為:
其中,S(m)為語音信號通過預(yù)加重、離散傅里葉變換、通過MEL濾波器、并通過對數(shù)能量處理等得到的對數(shù)頻譜。
4.3 非特定人孤立詞語音識別算法
通常,語音識別的方法可以大致分為三類,即模板匹配法、隨機模型法、和概率語法分析法。這三類方法都屬于統(tǒng)計模式識別方法。其中模板匹配法是將測試語音與參考模板的參數(shù)逐一進行比較和匹配,判決的依據(jù)是失真測度最小準(zhǔn)測,隨機模型法是使用隱馬爾可夫模型(HMM,HiddenMarkov Model)來對似然函數(shù)進行估計與判決,從而得到相應(yīng)的識別結(jié)果。而概率語法分析法利用連續(xù)語音中的語法約束知識來對似然函數(shù)進行估計和判決,更適用于大規(guī)模連續(xù)語音識別。本文用小詞匯量的DTW方法。動態(tài)時間規(guī)整(DTW)是采用動態(tài)規(guī)劃(DP,DynamicProgramming)技術(shù),將一個復(fù)雜的全局最優(yōu)化問題轉(zhuǎn)化為許多局部最優(yōu)化問題DTW,一步一步地進行決策。假設(shè)時間規(guī)整函數(shù)為:其中,表示時間規(guī)整函數(shù)中的第個匹配點對
這個匹配點對是由待測語音的第個特征矢量和參考模板第個特征矢量構(gòu)成的,其中兩者之間的距離(或失真值)稱為局部匹配距離,記做,處于最優(yōu)時間規(guī)整情況下兩矢量的距離稱為全局匹配距離,記做,表達式如下所示:
由于DTW不斷地計算兩矢量的距離以尋找最優(yōu)的匹配路徑,所以得到的兩矢量的匹配距離是累計距離最小的規(guī)整函數(shù),這就保證了它們之間存在最大的聲學(xué)相似特性。
5 結(jié)束語
在本語音識別系統(tǒng)中, 設(shè)定采樣率為11025Hz,幀數(shù)為300幀,幀長為240點,則最長的語音段長度不會超過300*240/11025=6.5秒。采樣樣本為男女各5個人的數(shù)碼語音資料, 實驗表明, 系統(tǒng)達到了較好的實時性和較高的識別率。由于Matlab功能強大, 在處理中可直接利用許多現(xiàn)成的函數(shù), 編程方便, 結(jié)果可視化也容易實現(xiàn)。
參考文獻
[1]楊熙,蘇娟,趙鵬.MATLAB環(huán)境下的語音識別系統(tǒng)[J].電聲技術(shù),2007,31(2): 51-53.
[2]龍銀東,劉宇紅,敬嵐,等.在MATLAB環(huán)境下實現(xiàn)的語音識別[J]
關(guān)鍵詞:語音識別;文本識別;多線程瀏覽器
中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2013)21-4949-02
語音識別,也被稱為自動語音識別Automatic Speech Recognition(ASR),是一門跨越多門學(xué)科的技術(shù)。早在計算機的發(fā)明之前,語音識別就被人們所提出,早期的聲碼器可以認為是語音識別及合成的雛形。最早的語音識別器是產(chǎn)生于20世紀20年代生產(chǎn)的“Radio Rex”玩具狗,當(dāng)人們呼喚該產(chǎn)品的名字的時候,它能夠從底座上自動彈出來。而最早的基于計算機的語音識別系統(tǒng)是由AT&T 貝爾實驗室開發(fā)的Audrey語音識別系統(tǒng),該系統(tǒng)的正確率達到98%。
1 C#語言的語音識別及合成的接口
C#是一種安全的、穩(wěn)定的、簡單的、優(yōu)雅的,由C和C++衍生出來的面向?qū)ο蟮木幊陶Z言。C#實現(xiàn)語音識別功能的主要接口有:IsRecoContext接口、IspRecognizer接口、IsRecoGrammar接口、IspVoice接口。
1)IsRecoContext接口:是主要的用于語音識別的接口,能關(guān)注不同的語音識別事件,安裝或者卸載識別時使用的語法文件。
2)IspRecognizer接口:一個程序擁有兩種不同的語音識別引擎(ISpRecognizer)類型。一個是共享的語音識別引擎,需要建立一個采用共享語音識別引擎的識別環(huán)境(IspRecoContext),應(yīng)用程序需要調(diào)用COM接口位于CoCreateInstance結(jié)構(gòu)上的CLSID_SpSharedRecoContext。然后SAPI會設(shè)立一個音頻輸入流,并把這個音頻輸入流定義為默認的SAPI音頻輸入流。由于它可以與其他語音識別應(yīng)用程序共享其程序資源,所以在大多數(shù)場合中被推薦使用。另一個是非共享的語音識別引擎的語音識別環(huán)境,應(yīng)用程序首先需要調(diào)用COM接口位于CoCreateInstance結(jié)構(gòu)上的CLSID_SpInprocRecoIns-
tance。然后,應(yīng)用程序必須調(diào)用IspRecognizer的SetInput方法來設(shè)立一個音頻輸入流。最后,應(yīng)用程序通過調(diào)用IspRecognizer的CreateRecoContext方法來建立它自己的識別環(huán)境。
C#語言的語音合成的主要接口有:Voice Commands 接口,Voice Dictation接口,Voice Text,Voice Telephone接口,Audio Objects接口。
1)Voice Commands API。對應(yīng)用程序進行控制,一般用于語音識別系統(tǒng)中。識別某個命令后,會調(diào)用相關(guān)接口是應(yīng)用程序完成對應(yīng)的功能。如果程序想實現(xiàn)語音控制,必須使用此組對象。
2)Voice Dictation API。聽寫輸入,即語音識別接口。
3)Voice Text API。完成從文字到語音的轉(zhuǎn)換,即語音合成。
4)Voice Telephone API。語音識別和語音合成綜合運用到電話系統(tǒng)之上,利用此接口可以建立一個電話應(yīng)答系統(tǒng),甚至可以通過電話控制計算機。
5)Audio Objects API。封裝了計算機發(fā)音系統(tǒng)。
其中Voice Text API,就是微軟TTS引擎的接口,通過它我們可以很容易地建立功能強大的文本語音程序。
2 系統(tǒng)設(shè)計與實現(xiàn)
2.1 系統(tǒng)功能概述
根據(jù)對系統(tǒng)需求進行分析,本系統(tǒng)需要完成操作、工具、用戶管理、皮膚管理和幫助功能。這些功能將分成五個功能模塊。操作功能:朗讀、命令識別、文本識別、生成語音文件、添加操作命令、網(wǎng)頁瀏覽;工具功能:訓(xùn)練、開機自動運行、取消開機自動運行;用戶管理:添加用戶、刪除用戶、修改用戶;皮膚管理功能:皮膚的修改功能;幫助功能:幫助文檔、關(guān)于作者
2.2 語音識別功能的實現(xiàn)
語音識別的原理就是將人發(fā)出的語音通過麥克風(fēng)傳到電腦的聲卡,然后語音引擎對對語音信息進行采取,最后和語音庫里面的信息匹配從而識別出相應(yīng)的語音信息輸出到電腦屏幕進行各種各樣的操作。
語音識別的一個最大的難點就在于不能正確地對語音信息進行正確的識別,這里在系統(tǒng)開發(fā)的時候需要做兩個處理工作。
第一是對語音庫進行大量的語音訓(xùn)練,可以通過windows內(nèi)置的語音識別訓(xùn)練系統(tǒng)進行訓(xùn)練,該功能集成與微軟的XP系統(tǒng)的控制面板的語音選項里面。鑒于每個人的發(fā)音都是有所差異的,使用人必須先對語音引擎進行大量持久的語音訓(xùn)練,這樣才能不斷地提高語音識別的正確率,以方便計算機正確地識別出來需要操作的動作和需要對電腦輸入的文字。在進行對語音庫訓(xùn)練的前提是要安裝微軟提供的語音引擎Speech SDK 5.1,在安裝了該引擎之后方能對語音進行訓(xùn)練,可以支持中英日三種語言的使用。
第二是對語音識別的結(jié)果進行模糊處理,也就是說,在不可能實現(xiàn)100%的識別率的情況下,要盡可能地考慮到語音識別出來的錯誤信息,比如本來要識別的信息是:open,但是電腦識別出來的是opened,這時候就要“將錯就錯”,通過數(shù)據(jù)庫將識別出來的opened告訴電腦這是一個open。如此進行常用字的多次測試,并通過微軟的sql server2000進行海量的數(shù)據(jù)識別模糊處理,最大化地考慮到所出現(xiàn)的錯誤來更正。
2.3文本識別功能的實現(xiàn)
文本識別功能的實現(xiàn)是要借助于微軟的TTS(Test To Speech)引擎進行來實現(xiàn)。TTS是“文本到語音(Text To Sound)”的簡稱,TTS語音引擎為我們提供清晰和標(biāo)準(zhǔn)的發(fā)音,所用的關(guān)鍵技術(shù)就是語音合成(SpeechSynthesis)。
該文本識別引擎可以支持中英日三種語言。要使用該功能是只需要進入文本識別界面并啟動文本識別按鈕,然后將要識別的文字通過鍵盤輸入到編輯框里面,再單擊朗讀按鈕,這就可以將文本信息轉(zhuǎn)化為語音信息通過音響發(fā)出。
2.4多標(biāo)簽的語音識別瀏覽器功能的實現(xiàn)
首先是多標(biāo)簽瀏覽器功能的實現(xiàn)。由于C#有自帶的WebBrowser瀏覽器控件,使用其自帶的方法。而對于多標(biāo)簽功能的實現(xiàn)則要使用C#的多線程的技術(shù),也就是說支持多個線程同時不互相干擾的工作。
其次是具有語音識別功能瀏覽器的實現(xiàn)。這個過程可以參照之前所制作的語音識別制作的過程,只需要的瀏覽器里面添加一個開啟語音識別和關(guān)閉語音識別功能的按鈕即可。當(dāng)單擊開啟語音識別功能時,系統(tǒng)將會提示已經(jīng)開啟語音識別功能,這個時候就可以使用語音識別功能進行網(wǎng)上沖浪;當(dāng)單擊關(guān)閉語音識別功能是,系統(tǒng)將會提示已經(jīng)關(guān)閉語音識別功能,這個時候系統(tǒng)會系統(tǒng)語音識別功能已經(jīng)關(guān)閉,此時的瀏覽器就和傳統(tǒng)的多標(biāo)簽瀏覽器如360安全瀏覽器一樣。
3 結(jié)論
本系統(tǒng)主要研究了用語音控制電腦的技術(shù),成功地利用微軟新一代開發(fā)平臺.NET Framework開發(fā)了語音識別系統(tǒng)的新產(chǎn)品。本系統(tǒng)打破了傳統(tǒng)的人機交互方式,實現(xiàn)的使用語音對計算機進行操作。使用微軟的TTS語音引擎可以使系統(tǒng)具備識別中英日三種語言,并且添加了國內(nèi)的捷通語音公司的語音引擎,可以識別粵語,閩南語等方言,對于文本識別的功能的實現(xiàn),提高了語言學(xué)習(xí)者的學(xué)習(xí)效率,這給廣大的語言學(xué)習(xí)者帶來了福音。設(shè)計實現(xiàn)具有語音識別功能的多標(biāo)簽瀏覽器技術(shù)。主要是方便一些不會使用鍵盤打字的人群,使得這類人群可以通過語音控制就可以上網(wǎng)沖浪。
參考文獻:
[1] ZHANG Jinsong, Takatoshi Jitsuhir.An Introduction to the Chinese Speech Recognition Front—End of the NICT/ATR Multi-·Lingual Speech Translation System [J].O'Reilly. 2008.
[2] Arun Krishnaraj, Joseph K. T. Lee. Voice Recognition Software: Effect on Radiology Report Turnaround Time at an Academic Medical Center [J]. 2010.
[3] wu Zhiyong. CAO Guangqi. Voice Recognition Software: Effect on Radiology Report Turnaround Time at an Academic Medical Center [J]. 2008.
[4] Jing Li. Thomas Fang Zhen91. A Dialectal Chinese Speech Recognition Framework [J]. 2006.
[5] 國玉晶,劉剛,劉健,郭軍.基于環(huán)境特征的語音識別置信度研究[J].清華大學(xué)學(xué)報,2009,49(S1).
[6] 林琳,王樹勛,郭綱. 短語音說話人識別新方法的研究[J].系統(tǒng)仿真學(xué)報,2007(10).
[7] 姚琳,梁春霞,張德干.基于實例推理的人機對話系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機應(yīng)用,2007(03)
[8] 林茜,歐建林,蔡駿.基于Microsoft Speech SDK的語音關(guān)鍵詞檢出系統(tǒng)的設(shè)計和實現(xiàn)[J].心智與計算,2007,12-30:433.
[9] 韓紀慶,張磊,鄭鐵然.網(wǎng)絡(luò)環(huán)境下的語音識別方法[J]. 計算機科學(xué),2005(01).
1 項目建設(shè)目標(biāo)
1.1 項目背景
目前,固網(wǎng)用戶撥打電話,必須先查出被叫的號碼,并按鍵進行撥叫。而隨著通信業(yè)的發(fā)展,要記的電話號碼越來越多,而目前大部分的固定電話都沒有號碼存儲的功能,所以很多時候使用固話打電話時,要么從手機上查找被叫的電話,或者是從紙制電話簿去查找,既不方便,又浪費時間。
“語音電話本”完全可以幫助用戶解決以上問題,用戶只需撥打一個號碼接入系統(tǒng)平臺,說出聯(lián)系人的姓名,系統(tǒng)就可以自動將話路轉(zhuǎn)到該人的電話上。整個過程通過自然的語音方式交互,即感到親切自然方便快捷,又節(jié)省時間,提高工作效率。
從服務(wù)管理的角度來看,隨著信息通信客服業(yè)務(wù)受理的不斷發(fā)展,座席客服話務(wù)量越來越多,用戶對服務(wù)的質(zhì)量要求也越來越高,傳統(tǒng)客服系統(tǒng)在傳統(tǒng)語音信息處理上的局限性制約了系統(tǒng)服務(wù)和管理能力的提升。
服務(wù)方面,由于業(yè)務(wù)的多樣性和復(fù)雜性帶來的海量數(shù)據(jù)信息不能得到快速、有效的關(guān)聯(lián)處理而產(chǎn)生的問題,影響了客戶服務(wù)體驗。
運營管理方面,雇傭人工座席每天接聽大量的信息查詢電話,座席業(yè)務(wù)人員的更替帶來的培訓(xùn),消耗了部分運維成本,影響了服務(wù)質(zhì)量。
1.2 建設(shè)目標(biāo)
本項目通過研究智能語音技術(shù)在國網(wǎng)遼寧公司信息通信客服系統(tǒng)中的應(yīng)用,將語音識別及客服查號業(yè)務(wù)相結(jié)合,使用先進的語音識別技術(shù)來代替繁重的人工勞動,提高省公司內(nèi)部溝通的效率。目前,語音電話本技術(shù)實現(xiàn)主要包含:ASR 、TTS 、IVR 三項技術(shù),其中TTS和IVR技術(shù)對于語音電話本業(yè)務(wù)來說已經(jīng)非常成熟。
ASR語音識別技術(shù)近年來發(fā)展十分迅速,其應(yīng)用也逐步得到推廣,佳都新太也一直開發(fā)、調(diào)試、應(yīng)用這項重要的語音技術(shù),自2001年以來佳都新太先后在廣西、天津、廣東、河北、湖北、江蘇、遼寧等省的多個項目中使用了ASR 自動語音識別系統(tǒng),佳都新太通過對ASR測試、改進,自動語音識別率達到95%以上。
語音電話本業(yè)務(wù)可以說是CTI平臺上的典型應(yīng)用,佳都新太把ASR語音自動識別技術(shù)、TTS語音合成技術(shù)與CTI 的IVR技術(shù)三者融合為一體,為語音電話本業(yè)務(wù)的技術(shù)實現(xiàn)提供了可靠的保障。
本項目可以達到目標(biāo):
1.2.1 對語音信息的自動化處理
通過建立具備智能語音分析能力的語音識別平臺,實現(xiàn)對用戶查號業(yè)務(wù)的語音實時識別及關(guān)聯(lián)處理,同時實現(xiàn)對語音文件的統(tǒng)一分析,提供支撐客服業(yè)務(wù)受理的有效工具。
1.2.2 文件分析處理
通過語音分析引擎對送入的語音進行文字轉(zhuǎn)寫、維度結(jié)合后生成索引文件,這些結(jié)構(gòu)化的索引文件中包含了語音中的所有信息。索引文件存儲到數(shù)據(jù)倉庫中,通過對有效的海量錄音文件、音頻文件進行分析處理。
1.2.3 實現(xiàn)自助查號功能
通過實現(xiàn)語音中的知識挖掘和語音文件的快速檢索,實現(xiàn)自動語音查號功能。
2 項目技術(shù)方案
2.1 項目設(shè)計原則
本次項目是對省公司固定電話語音自動查號系統(tǒng)的功能完善,使用先進的語音識別技術(shù)來代替繁重的人工勞動,提高省公司內(nèi)部溝通的效率。
本次項目的關(guān)鍵點和技術(shù)難點在于語音識別,因此在方案設(shè)計過程中我們著重考慮了這個問題,選用了國內(nèi)領(lǐng)先的智能語音技術(shù)來作為語音識別引擎,結(jié)合座席客服系統(tǒng)的需求提供定制化專業(yè)服務(wù)。
2.2 整體架構(gòu)設(shè)計
如圖1,用戶通過撥打查號服務(wù)電話,系統(tǒng)為用戶播放自動語音并引導(dǎo)用戶按鍵選擇功能和需要查號的人名,系統(tǒng)根據(jù)語音分析出內(nèi)容,并在數(shù)據(jù)庫中查詢對應(yīng)的號碼,系統(tǒng)將查到的號碼以自動語音方式播報給用戶。
系統(tǒng)部署需新增接入網(wǎng)關(guān)1臺,用于與電力內(nèi)部電話程控交換機對接,實現(xiàn)平臺電話呼入呼出。采用電信級語音接入網(wǎng)關(guān)Dialogic DMG2030,接入規(guī)模1E1(即30路通話),PRI信令,通過電路中繼上聯(lián)到遼寧電力內(nèi)部程控交換機。遼寧電力內(nèi)部程控交換系統(tǒng)為語音電話本系統(tǒng)分配一個內(nèi)部接入服務(wù)號碼和一個外部接入服務(wù)號碼。同時網(wǎng)關(guān)接入虛擬資源池虛機網(wǎng)絡(luò)。
新增虛擬資源池虛機1臺,用于部署媒體處理軟件、CTI平臺、語音電話本業(yè)務(wù)應(yīng)用軟件、科大訊飛ASR軟件和TTS軟件、Oracle數(shù)據(jù)庫。
新增核心網(wǎng)絡(luò)交換機1臺,用于系統(tǒng)組網(wǎng)。
2.3 系統(tǒng)邏輯結(jié)構(gòu)
IVR與TTS、ASR通過語音引擎實現(xiàn)整個語音交互過程的自動識別、自動播放功能。系統(tǒng)采用B/S結(jié)構(gòu),方便用戶對電話本的修改,也便于各營業(yè)網(wǎng)點的開戶、受理以及對用戶的電話本進行維護等。整個系統(tǒng)采用模塊化結(jié)構(gòu),具有很高的可靠性和可擴充性。
邏輯結(jié)構(gòu)見圖2。
2.4 系統(tǒng)建設(shè)方案
新建“語音電話本”業(yè)務(wù)平臺,其網(wǎng)絡(luò)拓撲結(jié)構(gòu)如圖3所示。
設(shè)備組成說明:
系統(tǒng)平臺需要以下設(shè)備:
(1)IPS數(shù)字排隊機;
(2)信令網(wǎng)關(guān)節(jié)點;
(3)數(shù)據(jù)庫服務(wù)器: 實現(xiàn)用戶數(shù)據(jù)的存儲和系統(tǒng)認證等功能;
(4)TTS服務(wù)器: 通過IPS平臺的MS模塊來實現(xiàn)資源調(diào)用;
(5)ASR服務(wù)器:通過IPS平臺的MS模塊來實現(xiàn)資源調(diào)用;
(6)WEB服務(wù)器:實現(xiàn)用戶通過互聯(lián)網(wǎng)對電話簿的維護管理功能;
(7)業(yè)務(wù)處理服務(wù)器:用于處理個人語音電話本業(yè)務(wù)流程;
(8)管理維護節(jié)點;
(9)路由器和防火墻等網(wǎng)絡(luò)設(shè)備;
2.5 配置計算依據(jù)
2.5.1 中繼和語音的配置比例
語音電話本業(yè)務(wù),用戶報出要找的人的姓名后,ASR進行識別,系統(tǒng)根據(jù)ASR識別出的名字,找出對應(yīng)的電話號碼并進行外呼,被叫接通后,主被叫進行通話的過程中,語音資源即可釋放。整個業(yè)務(wù)實現(xiàn)和呼叫卡類業(yè)務(wù)的資源配置非常相似,根據(jù)200業(yè)務(wù)的實際運行經(jīng)驗數(shù)據(jù),建議中繼和語音的比例為4:1。
2.5.2 中繼和ASR的配置比例
在一個呼叫的過程中,用戶說出要找人的姓名,ASR資源進行識別,在識別完成系統(tǒng)呼通被叫后,ASR資源釋放,主被叫雙方進行通話,按平均呼叫時長為150秒,其中ASR識別的時間大概為30秒,而在一次通話中占用一入一出兩個通道,按上面的估算數(shù)據(jù),中繼和ASR的配比大約為 2×150/30=10:1。
2.5.3 中繼容量和所能支持的用戶數(shù)的比例
假設(shè)一些呼叫參數(shù)如下:
系統(tǒng)中繼容量A
用戶數(shù) B
每用戶每天使用次數(shù)C:8次
每次呼叫時長D:150秒
忙時集中系統(tǒng)E:10%
忙時中繼Erl數(shù)F:0.8
根據(jù)公式:A=B*C*D*E/F/3600
則 A:B=8×150×10%/0.8/3600=1:24
因為語音電話本業(yè)務(wù)每次呼叫要占用一入一出兩個端口,所以中繼容量和所支持的用戶數(shù)的比例約為1:10。
2.5.4 數(shù)據(jù)庫處理能力計算
忙時TPMC=(忙時呼叫次數(shù)×(平均每次呼叫數(shù)據(jù)庫訪問次數(shù)+其他應(yīng)用模塊平均每次呼叫事務(wù)訪問處理次數(shù)))/60
按4.3.3假設(shè)的數(shù)據(jù),當(dāng)使用語音電話本的用戶數(shù)為10,000用戶時,系統(tǒng)的忙時呼叫次數(shù)為 10000×8×10%=8000次/小時
按每次呼叫對數(shù)據(jù)庫的訪問操作次數(shù)為10次來計算,則10,000用戶時,對數(shù)據(jù)庫的TPMC值的要求為:
TPMC=8000×10/60=1333
2.6 業(yè)務(wù)系統(tǒng)功能
2.6.1 業(yè)務(wù)流程(如圖4)
2.6.2 聲控撥號
用戶使用綁定電話撥打接入號碼“***”進入系統(tǒng)后,系統(tǒng)直接會提示用戶報出用戶想找的人的姓名,并進行呼叫。
(1)“聯(lián)系人名字” 選中默認呼叫號碼:
(2)用戶撥打“語音電話本”服務(wù)號碼;
(3)說出對方姓名,如:張三;
(4)系統(tǒng)識別語音,查詢對應(yīng)的默認電話號碼;
(5)系統(tǒng)通過語音播報查詢到的電話號碼。
(6)“聯(lián)系人名字+電話類型” 精確查詢:
(7)用戶撥打“語音電話本”服務(wù)號碼;
(8)說出對方姓名+電話類型,如:張三 手機;
(9)系統(tǒng)識別語音,查詢對應(yīng)的電話類型的號碼;
系統(tǒng)通過語音播報查詢到的電話號碼。用戶通過綁定電話使用語音電話本業(yè)務(wù)流程如圖5所示。
用戶使用非綁定電話使用語音電話本業(yè)務(wù)時,必須先通過輸入帳號和密碼,經(jīng)過系統(tǒng)鑒權(quán)后才能使用。
2.6.3 原始通訊錄的錄入
語音電話業(yè)務(wù)開展的一個關(guān)鍵問題,就是用戶申請該業(yè)務(wù)后首批通訊錄的錄入問題,首批通訊錄相對來說量比較大,錄入的方式建議采用營業(yè)廳前臺填表錄入、通過WEB錄入的方式,也可以采用電話、傳真、信函的方式進行錄入。在首批通訊錄錄入后,用戶在使用過程中做一些號碼本的修改和維護,維護量都比較小,可以通過WEB方式、電話、短消息、傳真等多種方式進行修改。
批量導(dǎo)入電話本:
通過Excel文件導(dǎo)入企業(yè)通訊錄,可以參考如表1格式。
可以根據(jù)實際需求增加其他列。
2.6.4 電話本維護(Web)
系統(tǒng)提供后臺管理界面,管理員登錄后臺對電話本進行管理,如圖6。
個人電話本資料可通過Web、人工坐席、電話、傳真、短消息等多種方式進行電話本資料的維護管理,包括修改用戶密碼等。
業(yè)務(wù)流程如圖7所示。
“增加、刪除、修改”用戶記錄:
系統(tǒng)提供對單個記錄的“增加”、“刪除”、“修改”功能,方便對電話本進行靈活管理。
2.6.5 多個號碼優(yōu)先呼功能
當(dāng)用戶錄入的某個聯(lián)系人有多個通訊號碼時,如有手機、小靈通、固定電話,可以把這些號碼都錄入在系統(tǒng)中,在呼叫時,用戶可以自行設(shè)置優(yōu)先呼叫的號碼,在號碼不通時再按設(shè)置的優(yōu)先策略逐一呼叫被叫其他的聯(lián)系方式。
2.6.6 信息查詢(Web)
系統(tǒng)提供電話本查詢界面給座席和管理員使用。
座席和管理員可根據(jù)聯(lián)系人姓名,查詢聯(lián)系人對應(yīng)的所有電話信息。
該功能主要在座席提供人工服務(wù)時使用。
3 技術(shù)創(chuàng)新點
本次項目采用國內(nèi)領(lǐng)先的智能語音識別技術(shù)(ASR)結(jié)合客服后臺定制化查詢需求,在滿足用戶傳統(tǒng)的查詢基礎(chǔ)上,語音定制化為用戶報出相關(guān)信息,由用戶按鍵選擇即可,大大方便了用戶的操作和客服的工作時間。
4 總體性能指標(biāo)
通過研究智能語音技術(shù)在信息通信客服系統(tǒng)中的應(yīng)用,實現(xiàn)客服查號業(yè)務(wù)的自能化,實現(xiàn)語音的自動識別及數(shù)據(jù)分析,減少人工運維成本,提高客服服務(wù)質(zhì)量及服務(wù)效率。
5 技術(shù)展望
隨著科學(xué)技術(shù)的飛速發(fā)展。信息技術(shù)領(lǐng)域未來必然是智能化,自動化的主流方向。在語音識別領(lǐng)域?qū)⒋笥锌蔀?,傳統(tǒng)的人工繁瑣的操作將被解放。系統(tǒng)語音智能識別,自動處理將是主流趨勢。該項目正是在這樣主流的發(fā)展趨勢下不斷完善提升,用專業(yè)的技術(shù)實現(xiàn)客戶的需求,達到節(jié)省人力物力目的。
論文關(guān)鍵詞:CIS;高職學(xué)生;自我識別;探索
CIS,全稱“Corporate Identity System”,即“企業(yè)識別系統(tǒng)”,分為理念識別MI(Mind Identity)、行為識別BI(Behavior Identity)和視覺識別VI(Visual Identity)。MI是核心和原動力,BI是動態(tài)識別形式,VI是靜態(tài)識別系統(tǒng)。CIS源起于西方,由IBM公司首次導(dǎo)入企業(yè)并加以全面推廣。20世紀70年代,日本開始引進CIS并大量融入東方文化內(nèi)涵,使其得到深化和豐富。20世紀80年代末,太陽神、健力寶等企業(yè)CIS系統(tǒng)的成功建立和推廣引發(fā)了中國企業(yè)界導(dǎo)入CIS的熱潮。
經(jīng)濟領(lǐng)域中任何事物的出現(xiàn),都有其客觀必然性,CIS的產(chǎn)生及運用是由其自身的文化性(Culture)、活動性(Activity)和可識別性(Distinction),即其CAD特征所決定的。通過CIS的運作,可以強化企業(yè)文化建設(shè)、提升企業(yè)凝聚力、擴大企業(yè)知名度,獲取消費者的認同。
培養(yǎng)目標(biāo)為高素質(zhì)技能型人才的高等職業(yè)教育與企業(yè)的發(fā)展息息相關(guān)。1996年9月,《職業(yè)教育法》確立了高等職業(yè)教育在中國的合法地位;2005年國務(wù)院頒布了《關(guān)于大力發(fā)展職業(yè)教育的決定》,提出“到2010年高等職業(yè)教育招生規(guī)模占高等教育招生規(guī)模的一半以上”,進一步推進了我國高等職業(yè)院校在數(shù)量和招生規(guī)模上的突飛猛進。
作為未來的企業(yè)職工,高職大學(xué)生的素質(zhì)直接影響著企業(yè)的發(fā)展,目前很多企業(yè)反映新進員工普遍存在著缺乏實際工作能力、難以融入團隊、工作熱情不能持久等問題,究其原因主要有三點:一是從“學(xué)生”到“職工”的身份轉(zhuǎn)變未做好;二是從“學(xué)?!钡健捌髽I(yè)”的環(huán)境轉(zhuǎn)變未做好;三是從“學(xué)習(xí)”到“社會”的責(zé)任轉(zhuǎn)變未做好。究其深層次原因,很關(guān)鍵的一點來自于高職學(xué)生自我識別的普遍弱化上。
PIS,“Personal Identity System”,是CIS主要理念在個體上的運用和體現(xiàn),通過價值觀建設(shè)、知識性構(gòu)建、自我意識能力、自覺行為導(dǎo)向等方面的努力,塑造個體的特定形象,以期得到社會的廣泛了解、認同和接納。強化高職學(xué)生的自我識別,塑造高職學(xué)生的全新形象,才能提升高職信息的傳遞能力和形象訴求,從而大幅提升高職學(xué)生的就業(yè)率和就業(yè)質(zhì)量。據(jù)此,四川電力職業(yè)技術(shù)學(xué)院在以下領(lǐng)域做了一些積極的探索。
一、在理念上強化高職學(xué)生的自我識別
1.在學(xué)生思想政治教育中融入企業(yè)元素
學(xué)院堅持“以人為本,德育為先”,將學(xué)生的思想政治教育與職業(yè)教育緊密結(jié)合,在人才培養(yǎng)過程中始終以“責(zé)任”、“誠信”、“創(chuàng)新”、“感恩”等為主題。在全校學(xué)生中評選“十佳愛崗敬業(yè)明星”、“自強之星”、“感恩之星”,樹立意志堅定、積極向上、心態(tài)陽光的健康形象;組織學(xué)生參加國網(wǎng)系統(tǒng)的“青春光明行”志愿服務(wù),先后參與“電力天路”圖書館捐書、“電力三下鄉(xiāng)”等活動;組織學(xué)生學(xué)習(xí)愛崗敬業(yè)模范呂清森、職業(yè)道德標(biāo)兵江小金等先進人物及行業(yè)中涌現(xiàn)出的“抗冰保電”、“抗震救災(zāi)”等先進事跡,讓學(xué)生在感動之余深刻領(lǐng)悟優(yōu)秀的電力企業(yè)文化和企業(yè)精神。
2.企業(yè)優(yōu)秀員工到校兼職教育
為了讓學(xué)生對企業(yè)文化和企業(yè)精神有更直接的感悟,學(xué)院聘請電力企業(yè)優(yōu)秀員工到校參與學(xué)生的教育。這些來自一線工作崗位的優(yōu)秀職工,不僅將豐富的實踐經(jīng)驗和行業(yè)發(fā)展的最新成果帶進課堂,提升了學(xué)生的專業(yè)技能;同時也以自身吃苦耐勞、愛崗敬業(yè)、誠實守信等優(yōu)秀品質(zhì)潛移默化的影響學(xué)生,讓學(xué)生形成企業(yè)所需的優(yōu)秀職業(yè)道德。
二、在行為上強化高職學(xué)生的自我識別
1.教學(xué)班引進企業(yè)班組建制
高職教學(xué)班身著統(tǒng)一的工作裝,借鑒企業(yè)的班組建制,采取學(xué)生自愿、教師指導(dǎo)的方式將全班分成若干個班組,各班組民主選舉班組長、制定班組制度和共同愿景;班組將學(xué)院、班級事務(wù)下放、劃撥到每個班組成員,成員間既有共同目標(biāo),又有各自不同的任務(wù)。利用看板定時呈現(xiàn)各班組的學(xué)習(xí)和生活情況,為每位成員建立個人成長記錄,根據(jù)目標(biāo)實現(xiàn)程度及任務(wù)推進情況定期評選優(yōu)秀班組和班組之星,為學(xué)生樹立勤學(xué)守紀的典型,引導(dǎo)正確的發(fā)展方向。該項舉措既強化了班組成員間的團結(jié)協(xié)作,又加強了班組間的良性競爭意識。
2.教室、寢室、實訓(xùn)場地的5S企業(yè)現(xiàn)場管理
借助于5S企業(yè)現(xiàn)場管理的方法,要求學(xué)生對教室、寢室、實訓(xùn)場地進行整理,區(qū)分要與不要的物品,把不需要的雜物清除掉;教室里的桌椅、清潔工具,寑室里的洗漱用品、生活用具,實訓(xùn)場地里的設(shè)備、工具、圖紙、資料等全部按規(guī)定合理、規(guī)范放置;各種標(biāo)示一目了然、物品放置易于取用、區(qū)域劃線清晰分明,定期進行清掃,制定相應(yīng)的規(guī)章制度,通過不間斷的檢查來確保改善的持續(xù)深入推進。企業(yè)優(yōu)秀管理方法的實施,不僅能夠使校園保持清潔,更能使高職學(xué)生養(yǎng)成良好的生活和工作習(xí)慣,提高個人素養(yǎng),從而更好地適應(yīng)現(xiàn)代企業(yè)精益化、標(biāo)準(zhǔn)化的管理要求。
3.校園內(nèi)的企業(yè)文化活動
在學(xué)院“素質(zhì)拓展訓(xùn)練基地”對學(xué)生開展攀巖、跨越、求生等訓(xùn)練,強化學(xué)生的良好心理素質(zhì),增強學(xué)生的競爭意識和團隊精神;舉辦“電力安全知識競賽”、“水利工程中的CAD應(yīng)用”、“電能計量裝置誤接線判斷”、“登桿作業(yè)”、“全站儀控制測量及放樣”、“觸電救護”等各類技能訓(xùn)練和技能比賽,在校園中創(chuàng)設(shè)企業(yè)的仿真環(huán)境,進行崗位適應(yīng)性訓(xùn)練,讓學(xué)生把所學(xué)理論轉(zhuǎn)化為實際的動手能力。
4.校外社會實踐活動
在學(xué)生中大力開展黨團建設(shè),端正學(xué)生的人生觀、價值觀、世界觀;對學(xué)生干部實行素質(zhì)拓展認證制度;組織青年志愿者參與社區(qū)服務(wù);組織學(xué)生到偏遠地區(qū)調(diào)研水利、電力、教育等情況,開展電力科技、農(nóng)村安全用電等科普宣傳,建立“社會實踐服務(wù)基地”,完成調(diào)研論文上報省電機工程學(xué)會。
5.校外企業(yè)頂崗實習(xí)
學(xué)院與四川省電力公司、國電集團川渝公司、中國水電五局、中國水電七局等多家企業(yè)建立了長期的合作關(guān)系,為學(xué)生提供用電檢查、電力營銷、架控線路施工、電能計量等專業(yè)對口的企業(yè)崗位實踐,讓學(xué)生進入企業(yè)、下到車間,以企業(yè)職工的身份代班代崗。通過頂崗實習(xí),學(xué)生們熟悉了企業(yè)環(huán)境、工作流程、生產(chǎn)要求,也清晰了自身與工作崗位間的差距,既促進學(xué)生對自身高職角色的認知,更有利于學(xué)生向企業(yè)職工的角色轉(zhuǎn)換。
三、在視覺上強化高職學(xué)生的自我識別
視覺識別獨具直觀性和形象性,對人有最直接的沖擊力和感染力,最容易被感知、記憶和認同,學(xué)院特別注意強化學(xué)生對自己高職身份的識別。
1.基礎(chǔ)視覺識別
作為國家電網(wǎng)下屬的高職院校,學(xué)院在基礎(chǔ)視覺方面呈現(xiàn)出與企業(yè)相同的風(fēng)格:使用國家電網(wǎng)徽記,標(biāo)準(zhǔn)色統(tǒng)一為深綠色,在標(biāo)志外環(huán)的企業(yè)名稱下加注學(xué)院名稱。這種集標(biāo)志、標(biāo)準(zhǔn)字、標(biāo)準(zhǔn)色于一體的徽記,在向?qū)W生傳達國家電網(wǎng)為社會提供潔凈能源,與客戶建立互惠和諧關(guān)系的企業(yè)服務(wù)理念的同時,也體現(xiàn)了學(xué)院植根電力,與光明同行的辦學(xué)方針。
2.應(yīng)用視覺識別
【關(guān)鍵詞】語音識別 音頻文字自動提取
一、引言
由于計算機技術(shù)近年來發(fā)展非常迅速,使人們用語言與計算機進行通信與交流已成為可能,而起草文稿、撰寫文章、準(zhǔn)備教案、會議記錄等都需要文字整理,對比傳統(tǒng)的鍵盤和鼠標(biāo)輸入方式,語音識別技術(shù)在速度上要提高2~4倍。
從音頻中自動提取文字是以語音識別系統(tǒng)為核心,對參考文本和對應(yīng)語音進行強制對準(zhǔn)的過程,其目的在于將音頻信息轉(zhuǎn)換為文本文字。作為語音識別領(lǐng)域中一種常見的預(yù)處理技術(shù),音頻文字自動提取廣泛應(yīng)用在政府機關(guān)、企事業(yè)單位的會議記錄;網(wǎng)絡(luò)文字直播;媒體采訪速記;錄像文字整理;廣播電視媒體;錄音文字整理;大量文字的錄入排版、打印輸出,計算機輔助語言教學(xué)等方面,此外,還可為現(xiàn)場直播的新聞、演講、會議等生成字幕;為語言教學(xué)、游戲娛樂、電影制作等生成多媒體庫;為歌曲制作同步的歌詞顯示等。
由此可見,音頻中提取文字這項技術(shù)的用處很大,而目前能實現(xiàn)自動翻譯的語音識別同生速記系統(tǒng)還正在研究之中。市場上要將錄音轉(zhuǎn)換成文字的方法就是找專業(yè)的速記公司,進行人工翻譯,工作量大,效率慢,而且收費很高,一般每小時錄音收費為200元左右。
二、背景及發(fā)展現(xiàn)狀
語音識別技術(shù)的研究工作起始于20世紀50年代,貝爾實驗室通過提取語音特征參數(shù),第一個實現(xiàn)了可以識別10個英文數(shù)字的語音識別系統(tǒng)。20世紀80年代,人工神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識別,HMM模型和人工神經(jīng)元網(wǎng)絡(luò)ANN被成功應(yīng)用,進入90年代后語音識別系統(tǒng)從實驗室逐步走向?qū)嵱谩N覈Z音識別研究工作起步于20世紀80年代,從1987年開始執(zhí)行國家863計劃后,以清華大學(xué)電子工程系與中科院自動化研究所為代表的研究機構(gòu),得到了國家自然科學(xué)基金重大和重點項目等基金的支持,取得了豐碩的研究成果。目前市場上主要產(chǎn)品有北京陽宸電子技術(shù)公司的 VS-99 語音自動識別系統(tǒng)、科大訊飛的 InterVeri 系列等開發(fā)的語音自動識別系統(tǒng)等。
三、語音識別原理
自動語音識別技術(shù)(Auto Speech Recognize,簡稱ASR),在整個構(gòu)建過程中包括兩個階段:訓(xùn)練階段和識別階段。在訓(xùn)練階段,ASR系統(tǒng)進行語音收集,然后對收集的語音進行降噪處理,消除部分噪音和發(fā)音者的個性特點,為了使處理后的信號更清晰,可以將發(fā)音者語音中的詞匯內(nèi)容轉(zhuǎn)換為數(shù)字格式,即計算機可讀的輸入,例如二進制編碼,然后ASR系統(tǒng)將提取的每個語音單位的特征矢量進行一定的處理,然后存入到模板庫中。
在模式匹配(即識別)過程中,ASR系統(tǒng)通過學(xué)習(xí)算法產(chǎn)生特征矢量,在識別時將輸入語音的特征矢量與模板庫征矢量相比較,找到最匹配的單詞序列。目前最具有代表性的ASR技術(shù)有動態(tài)時間環(huán)繞技術(shù)、隱馬爾科夫(markov)模型(HMM)和人工神經(jīng)網(wǎng)(ANN)模型。其中基于HMM的技術(shù)最為流行且語音識別性能最好。
四、 音頻文字自動提取的設(shè)計與實現(xiàn)
通常音頻素材所占的容量都比較大,為了節(jié)省工作量,在使用素材之前,一般使用goldwave將音頻素材分割成所需要的長度。再配合使用Windows 7系統(tǒng)中的語音識別功能,通過該功能,可以讓我們徹底拋開鼠標(biāo)和鍵盤,只用語音控制電腦,特別是配合word軟件,還能實現(xiàn)文本的語音輸入,識別的準(zhǔn)確性也較高。為了使win7語音識別系統(tǒng)獲得更清晰的語音素材,需要在播放音頻素材的同時使用內(nèi)錄功能,文本軟件會記錄下提取到的音頻文字內(nèi)容,創(chuàng)建文本文檔,也可在文檔中進行修改或更正錯誤。
盡管win7系統(tǒng)可以實現(xiàn)音頻文字的自動提取,由于環(huán)境噪聲、使用者的語音差別等等因素,所以其最終識別率并不高。所以,我們還需要對win7語音識別系統(tǒng)進行模型訓(xùn)練。通過不斷糾正其錯誤識別文字,在數(shù)據(jù)庫中加入生僻名詞,反復(fù)使用音頻素材對模型進行訓(xùn)練,使語音識別系統(tǒng)最終能完全識別音頻素材,以此來優(yōu)化模型,提高語音系統(tǒng)的識別率。
五、總結(jié)和展望
如今計算機語音識別技術(shù)作為一股潛在的發(fā)展技術(shù)極大提高人們的現(xiàn)實生活需要,不僅轉(zhuǎn)變了人們的生活方式,提高了工作效率,更加推動了社會的進步和文明的發(fā)展,所以從音頻中自動提取文字具有廣闊的應(yīng)用前景,由于語音自動識別的局限性,使得這項技術(shù)任重而道遠,。
在今后的科研中,音頻中自動提取文字將被更加廣泛的應(yīng)用,各種具有音頻自動提取文字的產(chǎn)品也將漸漸在市場上出現(xiàn),隨著計算機信息技術(shù)的不斷發(fā)展創(chuàng)新,語音識別系統(tǒng)將會引領(lǐng)我們的信息技術(shù)革命到一個新的臺階。
關(guān)鍵詞:語音識別;動態(tài)時間規(guī)整算法;人工神經(jīng)元網(wǎng)絡(luò)
中圖分類號:H017文獻標(biāo)識碼:A文章編號:1672-3198(2008)02-0199-02
1 背景介紹
語言是人類特有的功能,是人們思維最重要的寄托體,是人類交流最主要的途徑。語音是語言的聲學(xué)表現(xiàn),是人類交流信息最自然、最有效、最方便的手段。語言和語音與人類社會科學(xué)文化發(fā)展緊密相連。
語音識別技術(shù)是讓機器接收,識別和理解語音信號,并將其轉(zhuǎn)換成相應(yīng)的數(shù)字信號的技術(shù)。它是一門交叉學(xué)科,涉及到語音語言學(xué)、數(shù)理統(tǒng)計、計算機、信號處理等一系列學(xué)科。
2 發(fā)展歷史
1952年貝爾實驗室的Davis等人研制成功了能識別十個英文數(shù)字發(fā)音的Audry系統(tǒng),標(biāo)志著語音識別技術(shù)研究工作開始。20世紀60年代計提出了動態(tài)規(guī)劃(Dynamic programming)和線性預(yù)測分析技術(shù)(Liner Predictive)等重要成果。20世紀70年代,語音識別領(lǐng)域取得了突破。實現(xiàn)了基于線性預(yù)測倒譜和DTW技術(shù)的特定人孤立語音識別系統(tǒng)。20世紀80年代語音識別研究進一步走向深入, 基于特定人孤立語音技術(shù)的系統(tǒng)研制成功, 隱馬爾可夫模型和人工神經(jīng)元網(wǎng)絡(luò)(Artificial Neural Network)在語音識別中的成功應(yīng)用。進入20世紀90年代后語音識別系統(tǒng)開始從實驗室走向?qū)嵱谩N覈鴮φZ音識別的研究開始于20世紀80年代,近年來發(fā)展迅速,并取得了一系列的成果。
3 具體應(yīng)用
隨著計算機技術(shù)、模式識別等技術(shù)的發(fā)展,適應(yīng)不同場合的語音識別系統(tǒng)相繼被開發(fā)出來,語音識別及處理技術(shù)已經(jīng)越來越突現(xiàn)出其強大的技術(shù)優(yōu)勢。近三十年來,語音識別在計算機、信息處理、通信與電子系統(tǒng)、自動控制等領(lǐng)域的應(yīng)用越來越廣泛。
在許多政府部門、商業(yè)機構(gòu),語音識別技術(shù)的應(yīng)用,可免除大量操作人員的重復(fù)勞動,既經(jīng)濟又方便。如:語音郵件、IP電話和IP傳真、電子商務(wù)、自動語音應(yīng)答系統(tǒng)、自動語音信箱、基于IP的語音、數(shù)據(jù)、視頻的CTI系統(tǒng)、綜合語音、數(shù)據(jù)服務(wù)系統(tǒng)、自然語音識別系統(tǒng)、專家咨詢信息服務(wù)系統(tǒng)、尋呼服務(wù)、故障服務(wù)、秘書服務(wù)、多媒體綜合信息服務(wù)、專業(yè)特別服務(wù)號(168自動信息服務(wù)系統(tǒng),112、114、119等信息查詢系統(tǒng))等。許多特定環(huán)境下,如工業(yè)控制方面,在一些工作環(huán)境惡劣、對人身有傷害的地方(如地下、深水及輻射、高溫等)或手工難以操作的地方,均可通過語音發(fā)出相應(yīng)的控制命令,讓設(shè)備完成各種工作。
當(dāng)今,語音識別產(chǎn)品不僅在人機交互中,占到的市場比例越來越大,而且在許多領(lǐng)域都有了廣闊的應(yīng)用前景,在人們的社會生活中起著舉足輕重的作用。
4 語音識別系統(tǒng)原理
語音識別一般分為兩個步驟:學(xué)習(xí)階段和識別階段。學(xué)習(xí)階段的任務(wù)是建立識別基本單元的聲學(xué)模型以及語言模型。識別階段是將輸入的目標(biāo)語音的特征參數(shù)和模型進行比較,得到識別結(jié)果。
語音識別過程如圖所示。下面對該流程作簡單介紹:
(1)語音采集設(shè)備如話筒、電話等將語音轉(zhuǎn)換成模擬信號。
(2)數(shù)字化一般包括預(yù)濾波、采樣和A/D變換。該過程將模擬信號轉(zhuǎn)變成計算機能處理的數(shù)字信號。
(3)預(yù)處理一般包括預(yù)加重、加窗分幀。經(jīng)預(yù)處理后的信號被轉(zhuǎn)換成了幀序列的加窗的短時信號。
(4)參數(shù)分析是對短時信號進行分析,提取語音特征參數(shù)的過程,如時域、頻域分析,矢量量化等。
(5)語音識別是目標(biāo)語音根據(jù)特征參數(shù)與模型庫中的參數(shù)進行匹配,產(chǎn)生識別結(jié)果的過程。一般有模板匹配法、隨機模型法和神經(jīng)網(wǎng)絡(luò)等。
(6)應(yīng)用程序根據(jù)識別結(jié)果產(chǎn)程預(yù)定動作。
(7)該過程是語音模型的學(xué)習(xí)過程。
5 現(xiàn)有算法介紹
語音識別常用的方法有:模板匹配法、人工神經(jīng)網(wǎng)絡(luò)法。
(1)模板匹配法是語音識別中常用的一種相似度計算方法。模板匹配法一般將語音或單詞作為識別單元,一般適用于詞匯表較小的場合。在訓(xùn)練階段,對用戶語音進行特征提取和特征維數(shù)的壓縮,這個過程常用的方法是采用矢量量化(VQ)技術(shù)。然后采用聚類方法或其他方法,針對每個模式類各產(chǎn)生一個或幾個模板。識別階段將待識別的語音模式的特征參數(shù)與各模板進行相似度的計算,將最高相似者作為識別結(jié)果。但由于用戶在不同時刻發(fā)同一個音的時間長度有較大隨意性,所以識別時必須對語音時間進行伸縮處理。研究表明,簡單的線性伸縮是不能滿足要求的。由日本學(xué)者板倉在70年代提出的動態(tài)時間伸縮算法(DTW)很好的解決了這一問題。DTW算法能夠較好地解決小詞匯量、孤立詞識別時說話速度不均勻的難題。DTW算法示意圖如圖所示。
設(shè)測試的語音參數(shù)共有M幀矢量,而參考模板有N幀矢量,且M≠N,則DTW 就是尋找一個時間歸整函數(shù)tn=f(tm),它將測試矢量的時間軸tm非線性地映射到模板的時間軸tn上,并使該函數(shù)滿足第k幀(k=1,2,…M)測試矢量I和第f(k)幀(f(k)=1,2…N)模板矢量J之間的距離測度之和最小:
Distance=min∑Mk=1d[I(k)-J(f(k))]
另外,在實際識別系統(tǒng)中,語音的起點或終點由摩擦音構(gòu)成,環(huán)境噪聲也比較大,語音的端點檢測會存在較大的誤差。DTW 算法起點點可以固定在(tm,tn)=(1,1),稱為固定起點;也可以選擇在(1,2)、(2,1)等點,稱為松馳起點。同樣,中止點可以選擇在(M,N)點,稱為固定終點;也可以選擇在(N一1,M)、(N,M一1)等點,稱為松弛終點。松弛的DTW 算法的起始點從(1,1)、(1,2)、(2,1)等點中選擇一最小值,終止點從(M,N)、(M,N-1)、(M-1,N)等點中選擇一最小值,兩語音樣本之間的相互距離在相應(yīng)的點放松后選擇一最小距離。松弛DTW可以克服由于端點檢測不精確引起的誤差,但運算量加大。
(2)人工神經(jīng)網(wǎng)絡(luò)法?,F(xiàn)實世界的語音信號會隨著許多特征如:說話人語速、語調(diào)以及環(huán)境的變化而動態(tài)變化的,想要用傳統(tǒng)的基于模板的方法建立一個適應(yīng)動態(tài)變化的語音識別系統(tǒng)是非常困難的。因此需要設(shè)計一個帶有自學(xué)習(xí)能力的自適應(yīng)識別系統(tǒng),以便可以適應(yīng)語音的動態(tài)變化。
人工神經(jīng)網(wǎng)絡(luò)由神經(jīng)元、網(wǎng)絡(luò)拓樸和學(xué)習(xí)方法構(gòu)成。人工神經(jīng)網(wǎng)絡(luò)拓樸結(jié)構(gòu)可分為反饋型和非反饋型(前饋型)。學(xué)習(xí)方法可分為監(jiān)督型和非監(jiān)督型。各種人工神經(jīng)網(wǎng)絡(luò)模型中應(yīng)用得最典型的是采用反向傳播(Back Propagation)學(xué)習(xí)算法的多層前饋網(wǎng)絡(luò)。多層前饋型網(wǎng)絡(luò)如圖所示。
除上述介紹的幾種常用的方法外,還有許多其它的識別方法以及改進算法。
6 尚未解決的問題及值得研究的方向
(1)就算法模型方面而言,需要有進一步的突破。聲學(xué)模型和語言模型是聽寫識別的基礎(chǔ)。目前使用的語言模型只是一種概率模型,還沒有用到以語言學(xué)為基礎(chǔ)的文法模型,而要使計算機確實理解人類的語言,就必須在這一點上取得進展。
(2)語音識別的自適應(yīng)性也有待進一步改進。同一個音節(jié)或單詞的語音不僅對隨著的講話者的不同而變化,而且對同一個講話者在不同場合,不同上下文環(huán)境中也會發(fā)生變化。這意味著對語言模型的進一步改進。
(3)語音識別技術(shù)還需要能排除各種環(huán)境因素的影響。目前,對語音識別效果影響最大的就是環(huán)境雜音或噪音。要在嘈雜環(huán)境中使用語音識別技術(shù)必須有特殊的抗噪麥克風(fēng)才能進行,這對多數(shù)用戶來說是不現(xiàn)實的。在公共場合中,如何讓語音識別技術(shù)能有摒棄環(huán)境嗓音并從中獲取所需要的特定聲音是一個艱巨的任務(wù)。
雖然在短期內(nèi)還不可能造出具有和人相比擬的語音識別系統(tǒng),但在未來幾年內(nèi),語音識別系統(tǒng)的應(yīng)用將更加廣泛,各種語音識別系統(tǒng)產(chǎn)品將陸續(xù)進入我們的生活。語音識別各個方面的技術(shù)正在不斷地進步,一步步朝著更加智能化的方向發(fā)展。
參考文獻
[1]楊尚國,楊金龍.語音識別技術(shù)概述[J].福建電腦,2006,(8).
[2]孫寧,孫勁光,孫宇. 基于神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)研究[J]. 計算機與數(shù)字工程,2006.
[3]Phil Woodland. Speech Recognition. Speech and Language Engineering-State of the Art (Ref. No. 1998/499).
兩種識別技術(shù)的應(yīng)用模式
匯豐銀行的系統(tǒng)兼容兩種安全模式。首先,匯豐銀行面向 iPhone 5S、iPhone 6以及 iPhone 6S 的應(yīng)用將會利用手機的內(nèi)置指紋識別器以確認用戶的身份,這一點和手機進行解鎖及支付等操作中的指紋驗證并無二致。而在語音方面,語音識別系統(tǒng)將會用超過 100 個識別碼對用戶的語音進行比對,包括節(jié)奏、口音、發(fā)音等等。除此以外,語音識別系統(tǒng)還可以辨別由不同的喉嚨結(jié)構(gòu)、鼻道以及聲道所發(fā)出的語音。
這兩種技術(shù)是否會讓生活更為便利?匯豐銀行希望通過語音識別技術(shù)為用戶免除需要記憶密碼之苦,現(xiàn)階段,電話銀行系統(tǒng)所使用的密碼、密令等驗證信息給用戶造成了較大的不便。此外,Touch ID的整合無疑也會加快手機銀行應(yīng)用的登錄速度,用戶賬戶的安全性也有了保證。
聲音識別系統(tǒng)的工作原理
由聲音識別企業(yè)“Nuance”公司所提供的技術(shù)內(nèi)置有所謂的“Voice ID”(即聲音密匙)功能,它可以記錄并分析用戶的說話方式,進而辨別用戶口部、舌頭、喉部和呼吸的特有發(fā)音方式,用戶僅需經(jīng)過快捷的訓(xùn)練環(huán)節(jié)即可正常使用。在后續(xù)登錄時,用戶將會被要求讀出特定單詞的發(fā)音,系統(tǒng)會對發(fā)音進行比對。
有一個問題,模仿者有可能騙過系統(tǒng)嗎?
計算機接受聲音的方式和人耳接受聲音的方式非常不一樣。模仿他人的聲音也許是可能的,但想要在超過 100 個識別碼上騙過計算機幾乎是不可能的,況且計算機還會辨識用戶的體征和行為模式。
如果那天我碰巧因為感冒而聲線有所不同會怎么樣?
即便是在因感冒而出現(xiàn)聲線不同的情況下,Voice ID 系統(tǒng)還是能夠識別出用戶的聲音,因為它所分析的聲音構(gòu)成因素有許多。即便是在感冒的情況下,你的口音、節(jié)奏、發(fā)音以及其他體征狀況還是不會發(fā)生變化。
另外,在信號不好的情況下也會是一樣,除非你的通話出現(xiàn)了中斷等情況。
如果我身處大街等較為嘈雜的地方又如何?
絕大多數(shù)智能手機都內(nèi)置有噪音消除技術(shù),這項技術(shù)可以阻隔絕大多數(shù)的外界噪音。而 Nuance 公司和 Voice ID 系統(tǒng)則會對剩余的噪音進行處理。除非你在登錄的時候碰巧遇上防空警報等顯著的噪音,日常生活的正常噪音不會影響你的登錄操作。
其他銀行有沒有使用語音識別技術(shù)?事實上,以巴克萊銀行(Barclays)為首的其他銀行在數(shù)年前已經(jīng)開始面向少量用戶使用語音識別技術(shù),其中巴克萊銀行的語音識別技術(shù)僅對少量優(yōu)質(zhì)的富??蛻糸_放。截至目前,我們尚未獲悉這些銀行有被非法入侵的紀錄。
指紋識別是否足夠安全
iPhone 在主頁按鈕上整合了 Touch ID 傳感器,而你的指紋則被蘋果公司保存在一個加密的模塊當(dāng)中。每當(dāng)用戶用手指接觸主頁按鈕的時候,iPhone 會將 Touch ID 所讀取的指紋和儲存在加密模塊當(dāng)中的指紋進行比對,進而給出允許或拒絕接入的判斷。用戶的指紋數(shù)據(jù)不會被外泄給任何公司,包括蘋果公司在內(nèi)。
有可能用斷指進行解鎖嗎?
回答是不可能的,只要罪犯了解Touch ID的工作原理,你的手指都會非常安全。
Touch ID 傳感器會通過兩種方式讀取指紋。首先它會通過電容傳感器檢測由人體皮膚所釋放出來的電荷,這一點和觸摸屏檢測觸屏動作時的工作原理一樣。此外,它還會使用無線電頻率掃描儀來讀取活體皮下組織的指紋。由于第二種方式只對活體皮下組織有效,因此斷指并不能通過掃描,除非罪犯能以某種方式讓其保持鮮活狀態(tài)。
Touch ID
有沒有被入侵的可能
如果非要說Touch ID 有沒有被入侵的可能,確實有。
但盡管如此,想要入侵 Touch ID 也絕非易事,首先你需要一套價值超過 1000 英鎊的設(shè)備和材料,你還需要掌握犯罪現(xiàn)場偵察人員的技能,并收集到需要原用戶完整、清晰的指紋。入侵條件非??量?,一般的犯罪組織難以滿足。
尚未使用其他生物體征識別技術(shù)
語音和指紋僅僅是生物識別種類的其中兩項,其他目前正在使用或開發(fā)的技術(shù)包括:
1.心率識別技術(shù),這項技術(shù)所使用的是每個人獨特的心率模式;
2.血管分布模式識別技術(shù),這項技術(shù)會檢測每個人特有的皮下血管分布情況,最常用的是手掌、手腕以及手臂等部位;
3.虹膜識別技術(shù),這項技術(shù)會通過設(shè)備的攝像頭辨認用戶的虹膜;
4.視網(wǎng)膜識別技術(shù),和虹膜識別技術(shù)相似,這項技術(shù)會通過設(shè)備的攝像頭辨認用戶的視網(wǎng)膜。
我們曾經(jīng)在電影中看到過有人通過取出他人眼球的方式來解鎖保險庫,這個怎么解釋?
除了語音和指紋識別技術(shù)外,其他生物體征識別技術(shù)皆尚未得到廣泛應(yīng)用,因為這些技術(shù)在易用性、速度以及可靠性等維度上仍然有所欠缺。
有些識別系統(tǒng)甚至能夠辨別用戶使用鍵盤、鼠標(biāo)、觸摸屏等輸入設(shè)備的模式,每個用戶在使用這些設(shè)備時的速度、模式、壓力以及習(xí)慣都有所不同,因此也可被用于用戶登錄的辨別工作上。但目前這類識別系統(tǒng)尚不會被銀行等嚴肅的機構(gòu)采納。
這種情況也不會發(fā)生。首先,想要在保存眼球完整度的情況下取出眼球非常困難,而且想要通過視網(wǎng)膜掃描儀的驗證,被掃描的視網(wǎng)膜需要保存在有血液流動的鮮活狀態(tài)。虹膜掃描儀通常也會檢測用戶的虹膜是否發(fā)生運動,失活的眼球顯然不符合這個條件。
相關(guān)鏈接