億歐專訪丨建十億級聲紋庫!快商通李稀敏分享聲紋如何“治騙”
人的聲音各有不同,我們用耳朵就能分辨出周圍人聲音的不同,但這樣的“不同”該如何呈現(xiàn)出來呢?第二次世界大戰(zhàn)后期,貝爾實驗室研究和發(fā)明了“音響光譜圖像顯示器”,把聲波用光譜圖像加以顯示,這樣的圖像稱為語譜圖,后來又命名為聲紋。
通過可見的語譜圖,貝爾實驗室實現(xiàn)了人工說話人識別。上世紀(jì)60年代,貝爾實驗室又提出了基于模式匹配和概率統(tǒng)計方差分析的說話人識別方法,此后聲紋識別技術(shù)得到快速發(fā)展,從單模板模型發(fā)展到多模板模型,從模板模型發(fā)展到矢量量化模型、高斯混合模型、隱馬爾可夫模型,再到人工神經(jīng)網(wǎng)絡(luò)……
21世紀(jì)以來,“聲紋識別技術(shù)主要有3次突破。”李稀敏說。李稀敏是清華大學(xué)在職博士,人機對話與聲紋識別領(lǐng)域資深專家,同時他也是廈門快商通科技股份有限公司的AI研發(fā)中心總監(jiān)、快商通聲紋研發(fā)團(tuán)隊的核心成員。
聲紋識別技術(shù)的三個分水嶺
除了上述的身份外,李稀敏還是一名知乎“樓主”,他開通的 “聲紋識別的應(yīng)用實踐”專欄,詳細(xì)介紹了聲紋識別的技術(shù)、資源、應(yīng)用等,目前還在不斷更新中。在接受億歐采訪時,為了便于理解,李稀敏將近年來聲紋識別技術(shù)的發(fā)展總結(jié)為3個分水嶺。
(近年聲紋識別技術(shù)發(fā)展的3個分水嶺)
第一個分水嶺是2000年。在2000年以前,進(jìn)行聲紋識別驗證,主要是基于模板匹配,這種算法基于信號比對,通常要求比對雙方的內(nèi)容相同,比如要驗證說“床前明月光”的人是誰,那驗證人也必須要說“床前明月光”才能驗證,如果他說“疑似地上霜”的話,驗證就不能完成。2000年以后,開始出現(xiàn)基于高斯混合模型的聲紋識別算法,高斯混合模型是典型基于統(tǒng)計學(xué)習(xí)理論的方法,該算法采用大量數(shù)據(jù)為每個說話人訓(xùn)練模型,使用高斯混合模型驗證已經(jīng)與文本無關(guān)了,即要驗證“床前明月光”的說話人時,說“疑似地上霜”也能夠驗證成功。之后產(chǎn)生的許多主流研究方法都是在高斯混合模型的基礎(chǔ)上改進(jìn)的,但高斯混合模型注冊語音的時間過長,無法滿足實際應(yīng)用場景的需求,因此需要新的技術(shù)來突破限制。
第二個分水嶺是2010年左右,這時候出現(xiàn)了iVector/PLDA算法。iVector最大的亮點在于,把語音映射到了一個固定的且低維的向量上,這意味這所有機器學(xué)習(xí)的算法都可以用來解決聲紋識別的問題了,因此這是一個巨大的進(jìn)步。PLDA是一種信道補償算法,因為在iVector中,既包含說話人的信息,也包含信道信息,而我們只關(guān)心說話人的信息,所以才做信道補償,目前PLDA是最好的信道補償算法,但噪聲對結(jié)果依然有很大的影響。
第三分水嶺是在2011年,在第十一屆全國人機語音通訊學(xué)術(shù)會議上,鄧力分享了他在微軟DNN-based speech recognition的研究結(jié)果,將識別率提升了30%,這將聲紋識別的準(zhǔn)確率一下子提升了一個層次。DNN能從大量樣本中學(xué)習(xí)到高度抽象的說話人特征,并對噪聲有很強的免疫力,至此深度學(xué)習(xí)被引入業(yè)界,國內(nèi)對聲紋識別技術(shù)的關(guān)注點也放到了深度學(xué)習(xí)上。
聲紋識別在公共安全領(lǐng)域大有用途
將深度學(xué)習(xí)引入聲紋識別領(lǐng)域后,經(jīng)過了幾年的發(fā)展,目前聲紋識別技術(shù)已經(jīng)相對完善,那么聲紋究竟可以怎么用呢?相對于其他身份認(rèn)證方式,聲紋識別具有易采集、非接觸、高可靠等特點,操作簡單,且驗證內(nèi)容可變化,因此在公共安全領(lǐng)域大有用途。
“最重要的一個應(yīng)用場景是電信反欺詐。”李稀敏說,電信詐騙是通過電話、網(wǎng)絡(luò)或短信的方式編造虛假信息,設(shè)置騙局,是一種非接觸性的詐騙。根據(jù)相關(guān)統(tǒng)計,超過50%的電信詐騙是通過打電話進(jìn)行的,“所以電話是重災(zāi)區(qū),”李稀敏說:“而聲紋識別也是一種非接觸式的方法,可以直接在電話里就識別出說話人的身份,有效減少電信詐騙的發(fā)生。”目前快商通聲紋已經(jīng)與公安局、電信公司展開合作,建立了動態(tài)聲紋數(shù)據(jù)庫,支持十億級聲紋庫實時檢索,能夠快速進(jìn)行1:N大規(guī)模檢索。“十億差不多就是中國網(wǎng)民的數(shù)量,目前能支持這個級別的聲紋實時檢索的,我們是業(yè)內(nèi)首家。”李稀敏告訴億歐。
在公共安全領(lǐng)域,除了電信反欺詐外,司法社區(qū)矯正也是聲紋識別的一個典型應(yīng)用場景。社區(qū)矯正是指針對判處管制、宣告緩刑、裁定假釋、暫予監(jiān)外執(zhí)行這四類犯罪行為較輕的對象所實施的非監(jiān)禁性矯正處罰。盡管我國從2009年開始在社區(qū)矯正中啟用信息化管理手段,但實際操作中仍存在脫管、漏管現(xiàn)象,“采用聲紋對矯正人員身份進(jìn)行驗證,可以有效解決‘人機分離’的問題。”李稀敏說,而且只需通過電話即可完成驗證,這極大地降低了司法所的工作強度,對矯正對象而言,這樣的方式也更能體現(xiàn)出對人格的尊重,有助于其順利回歸社會。
解決借貸黑中介的良方
除了公共安全領(lǐng)域外,金融領(lǐng)域也對聲紋識別有著強烈的需求,“特別是在金融借貸方面。”李稀敏介紹道,在消費金融行業(yè),大部分壞賬來源于黑中介主導(dǎo)的產(chǎn)業(yè)鏈?zhǔn)皆p騙,黑中介利用社交媒體、路邊小廣告等騙取借款人信任,以協(xié)助辦理貸款為名,提供全套虛假貸款資質(zhì)證明材料。因此如何在審查環(huán)節(jié)及時鑒別出黑中介,成為降低消費金融公司壞賬率的關(guān)鍵因素,“聲紋識別就是一種很好的辦法。”
日前快商通聲紋與國內(nèi)某民營金融集團(tuán)上線了聲紋信貸反欺詐系統(tǒng),目的就在于用聲紋識別出黑中介,降低金融公司損失,目前快商通已取得聲紋反欺詐在金融領(lǐng)域應(yīng)用的專利證書。
李稀敏介紹道,當(dāng)貸款訂單進(jìn)入電核環(huán)節(jié),系統(tǒng)會自動提取聲紋并與系統(tǒng)黑名單做對比,同時與最近的或同區(qū)域訂單的聲紋做交叉對比,如果命中黑名單,或發(fā)現(xiàn)重復(fù)的聯(lián)系人信息,系統(tǒng)則會提示該人有重大欺詐嫌疑。
(快商通聲紋信貸反欺詐系統(tǒng)架構(gòu))
“當(dāng)時在打造這個系統(tǒng)的時候,如何在誤報和漏報之間找到平衡點,是一個難題。”李稀敏說,誤報和漏報就像是一個蹺蹺板的兩端,如果漏報率高了,誤報率就會降低,反之亦然。“問題就在于,如果漏報率太高了,抓不住黑中介,那么這個系統(tǒng)就失去意義了;但如果誤報率太高,那么這個系統(tǒng)的報警系統(tǒng)會響個不停,這也是不現(xiàn)實的。”最終,快商通聲紋團(tuán)隊根據(jù)實際應(yīng)用需要,將該系統(tǒng)的誤報率降到萬分之五以下,漏報率控制在20%左右。
快商通聲紋業(yè)務(wù)將迎來井噴式增長
雖然目前聲紋識別已經(jīng)能在多個領(lǐng)域落地應(yīng)用,但聲紋識別技術(shù)仍面臨著許多挑戰(zhàn)。其中一個比較常見挑戰(zhàn)是跨信道的識別,李稀敏說,不同的設(shè)備、傳輸通道會造成信道的不同,不同的信道有不同的噪音,編碼方式也存在差異,因此給聲紋識別的算法加大了難度。除此之外,還有語音合成、口音變化等問題也會給聲紋識別帶來挑戰(zhàn)。
(快商通聲紋識別結(jié)構(gòu)圖)
“所以我們也一直在想辦法提升自己的技術(shù)水平。”而要想有技術(shù)的成果,人才是關(guān)鍵。李稀敏告訴億歐,最近一位全球語音領(lǐng)域的權(quán)威專家加入了快商通聲紋團(tuán)隊,擔(dān)任公司首席科學(xué)家,負(fù)責(zé)人才培養(yǎng)及公司戰(zhàn)略布局指導(dǎo)等工作,這位專家曾擔(dān)任過全球自然語言處理和計算機語言學(xué)領(lǐng)域的國際頂級學(xué)術(shù)會議ACL和語音通信領(lǐng)域的國際頂級學(xué)術(shù)會議InterSpeech的大會主席。
快商通聲紋研發(fā)團(tuán)隊核心成員100%具有國內(nèi)外名校博士學(xué)位,目前通過快商通聲紋引擎建立的聲紋模型數(shù)已超過五千萬,在穩(wěn)定性、識別率和處理速度上處于業(yè)界領(lǐng)先位置。
“今年是投資聲紋識別的元年。”李稀敏認(rèn)為,國內(nèi)的聲紋識別還處于起步階段,隨著技術(shù)的成熟,未來聲紋識別將在越來越多的領(lǐng)域得到應(yīng)用,“我預(yù)計今年快商通聲紋的業(yè)務(wù)會有井噴式增長。”李稀敏透露,今年快商通聲紋將繼續(xù)深耕公共安全和金融安全兩大重點領(lǐng)域,進(jìn)一步推進(jìn)聲紋在這些領(lǐng)域的應(yīng)用。
“當(dāng)然,我們AI研發(fā)中心也不是只做聲紋。”李稀敏告訴億歐,快商通正在籌備一個開放平臺。“現(xiàn)在用戶更希望企業(yè)能提供一籃子的解決方案,不想把服務(wù)器放在自己那里,而是在需要的時候,調(diào)用云上的接口。”李稀敏告訴億歐,目前該平臺只是各個研發(fā)組算法的集成,尚未完全開放,但未來快商通會看準(zhǔn)需求爆發(fā)的時機,真正開放這個平臺。而未來依托這個大的開放平臺,快商通的聲紋業(yè)務(wù)也許會有更大的發(fā)展空間。
(內(nèi)容來源:億歐,唐鈺婷)
