應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

“聲紋”獨一無二 是身份識別的利器

2017-03-06 09:23 中國安防展覽網(wǎng)

導(dǎo)讀:每個人聲音的獨一無二的氣質(zhì)形成了“聲紋”,而在某種程度上,這可以代替指紋。指紋必須要和人有直接的肢體接觸,但是聲紋直接發(fā)來一段聲音就可以,將來可以應(yīng)用于識別或偵查領(lǐng)域。那么聲紋的工作原理是什么呢?

  每個人聲音的獨一無二的氣質(zhì)形成了“聲紋”,而在某種程度上,這可以代替指紋。指紋必須要和人有直接的肢體接觸,但是聲紋直接發(fā)來一段聲音就可以,將來可以應(yīng)用于識別或偵查領(lǐng)域。那么聲紋的工作原理是什么呢?

  聲紋識別神秘面紗

  在這個移動互聯(lián)網(wǎng)大行其道的年代,人們不用互相見面就可以完成很多事情,比如社交、購物、網(wǎng)上開店、金融交易等等,但是如何驗證身份變成了人和人在不見面的情況下最難的事情。傳統(tǒng)的解決方案就是密碼或者秘鑰,它需要你記住或者存起來,容易忘又容易丟,還容易被黑客利用各種手段攻擊。有多少人使用“123456“這種簡單密碼在網(wǎng)絡(luò)上行走,他們就是黑客們最喜歡的目標(biāo);你家的路由器是不是還在用”admin”這種默認(rèn)密碼,這就是物聯(lián)網(wǎng)領(lǐng)域中安全最薄弱的環(huán)節(jié)。不過,好在我們每個人身上都長滿了“活密碼”,指紋、臉、聲音、眼睛等等,都是人和人之間相互區(qū)分的獨一無二的標(biāo)識,我們稱之為“生物特征”。聲音就是這種一種可以反映人身份的生物特征,參考“指紋”的命名方式,我們可以叫它“聲紋”。

  各種生物特征比較

  聲紋是指人類語音中攜帶言語信息的聲波頻譜,它同指紋一樣,具備獨特的生物學(xué)特征,具有身份識別的作用,不僅具有特定性,而且具有相對的穩(wěn)定性。聲音信號是一維連續(xù)信號,將它進行離散化后,就可以得到我們現(xiàn)在常見的計算機可以處理的聲音信號。

  計算機可以處理的離散聲音信號

  聲紋識別(也稱說話人識別)技術(shù)也如同現(xiàn)在在智能手機上應(yīng)用十分廣泛的指紋識別技術(shù)一樣,從說話人發(fā)出的語音信號中提取語音特征,并據(jù)此對說話人進行身份驗證的生物識別技術(shù)。每個人都具有獨一無二的聲紋,這是由我們的發(fā)聲器官在成長過程中逐漸形成的特征。無論別人對我們的說話模仿的多么相似,聲紋其實都是具有顯著區(qū)別的。

  現(xiàn)實生活中的“未見其人,先聞其聲”就是人類通過聲音去識別另一個人身份的真實描述,你媽甚至通過你電話里的一個“喂”字就知道是你,而不是隔壁老王家的兒子打的電話,這是我們?nèi)祟惤?jīng)過長期進化所獲得到的超常的能力。雖然目前計算機還做不到通過一個字就判斷出人的身份,但是利用大量的訓(xùn)練語音數(shù)據(jù),可以學(xué)出一個“智商”還不錯的“聲紋”大腦,它在你說出8-10個字的情況下可以判斷出是不是你在說話,或者在你說1分鐘以上的話后,就可以準(zhǔn)確地判斷出你是否是給定的1000人中的一員。這里面其實包含了大部分生物識別系統(tǒng)都適用的重要概念:1:1 和 1:N,同時也包含了只有在聲紋識別技術(shù)中存在的獨特的概念:內(nèi)容相關(guān)和內(nèi)容無關(guān)。

  工作原理

  對于一個生物識別系統(tǒng)而言,如果它的工作模式是需要你提供自己的身份(賬號)以及生物特征,然后跟之前保存好的你本人的生物特征進行比對,確認(rèn)兩者是否一致(即你是不是你),那么它是一個1:1的識別系統(tǒng)(也可以叫說話人確認(rèn),Speaker Verification);如果它只需要你提供生物特征,然后從后臺多條生物特征記錄中搜尋出哪個是你(即你是誰),或者哪個都不是你,那么它是一個1:N的識別系統(tǒng)(也可以叫辨認(rèn),Speaker Identification),見圖1。技術(shù)上,簡單的聲紋識別的系統(tǒng)工作流程圖來見圖2。

  圖1 說話人確認(rèn)和說話人辨認(rèn)

  圖2 聲紋識別工作流程圖

  對于聲紋識別系統(tǒng)而言,如果從用戶所說語音內(nèi)容的角度出發(fā),則可以分為內(nèi)容相關(guān)和內(nèi)容無關(guān)兩大類技術(shù)。顧名思義,“內(nèi)容相關(guān)”就是指系統(tǒng)假定用戶只說系統(tǒng)提示內(nèi)容或者小范圍內(nèi)允許的內(nèi)容,而“內(nèi)容無關(guān)”則并不限定用戶所說內(nèi)容。前者只需要識別系統(tǒng)能夠在較小的范圍內(nèi)處理不同用戶之間的聲音特性的差異就可以,由于內(nèi)容大致類似,只需要考慮聲音本身的差異,難度相對較小;而后者由于不限定內(nèi)容,識別系統(tǒng)不僅需要考慮用戶聲音之間的特定差異,還需要處理內(nèi)容不同而引起的語音差異,難度較大。

  目前有一種介于兩者之間的技術(shù),可以稱之為“有限內(nèi)容相關(guān)”,系統(tǒng)會隨機搭配一些數(shù)字或符號,用戶需正確念出對應(yīng)的內(nèi)容才可識別聲紋,這種隨機性的引入使得文本相關(guān)識別中每一次采集到的聲紋都有內(nèi)容時序上的差異,這種特性正好與互聯(lián)網(wǎng)上廣泛存在的短隨機數(shù)字串(如數(shù)字驗證碼)相契合,可以用來校驗身份,或者和其他人臉等生物特征結(jié)合起來組成多因子認(rèn)證手段。

  具體到聲紋識別算法的技術(shù)細(xì)節(jié),在特征層面,經(jīng)典的梅爾倒譜系數(shù)MFCC,感知線性預(yù)測系數(shù)PLP、深度特征Deep Feature、以及能量規(guī)整譜系數(shù)PNCC 等,都可以作為優(yōu)秀的聲學(xué)特征用于模型學(xué)習(xí)的輸入,但使用最多的還是MFCC特征,也可以將多種特征在特征層面或者模型層面進行組合使用。在機器學(xué)習(xí)模型層面,目前還是N.Dehak在2009年提出的iVector框架一統(tǒng)天下,雖然在深度學(xué)習(xí)大紅大紫的今天,聲紋領(lǐng)域也難免被影響,在傳統(tǒng)的UBM-iVector框架下衍化出了DNN-iVector,也僅僅是使用DNN(或者BN)提取特征代替MFCC或者作為MFCC的補充,后端學(xué)習(xí)框架依然是iVector。

  圖3示出了一個完整的聲紋識別系統(tǒng)的訓(xùn)練和測試流程,可以看到在其中iVector模型的訓(xùn)練以及隨后的信道補償模型訓(xùn)練是最重要的環(huán)節(jié)。在特征階段,可以使用BottleNeck特征取代或者補充MFCC特征,輸入到iVector框架中訓(xùn)練模型,如圖4所示。

  圖3 聲紋識別算法的完整訓(xùn)練和識別框架

  圖4 使用BottleNeck特征訓(xùn)練iVector模型

  在系統(tǒng)層面,不同的特征及模型,可以從不同的維度刻畫說話人的聲音特征,加上有效的分?jǐn)?shù)規(guī)整,將各子系統(tǒng)融合能有效的提高系統(tǒng)的整體性能。