當前位置:
首頁 > 最新 > FinTech時代商業銀行智能語音識別技術應用與發展

FinTech時代商業銀行智能語音識別技術應用與發展

金融AI

FinTech時代商業銀行智能語音識別技術應用與發展

作者:王彥博 桂小柯 楊璇 杜新凱 盧佳慧

來源:中國金融電腦

受到當前利率市場化、互聯網金融快速發展、經濟發展進入新時代等多種因素的影響,國內銀行業傳統經營模式正面臨著全新的變革。如何在精細化管理的基礎上為客戶提供更便捷、更優質、更安全的服務體驗,已經成為各商業銀行競爭的焦點。

近年來,雲計算、大數據、物聯網和人工智慧等FinTech技術快速發展,促進了語音識別準確度的迅速提升,為商業銀行引入智能化服務提供了重要的技術資源,語音識別技術將掀起商業銀行服務模式的變革,為智能化服務增加新的元素。本文從商業銀行實際出發,對該技術的發展進行梳理,並提出商業銀行語音識別「4I」應用框架,以期推動FinTech時代下銀行綜合智能化服務能力進一步提升。

一、語音識別技術概述

語音識別通過運用語言學、計算機科學、電子工程、模式識別、概率論、資訊理論以及人工智慧等領域的方法和技術,使計算機設備能夠精準識別和翻譯語音信息,也被稱為自動語音識別(ASR)或者語音到文本(STT),在金融、電信、電子商務、醫療、製造等行業得到了廣泛應用。

1.語音識別技術發展

語音識別技術按照發展和應用程度,可分為早期實驗研究階段、實用階段、現代語音識別系統開發應用階段。

(1)早期實驗研究階段

20世紀50年代,世界上第一個能識別10個英文數字發音的實驗系統在貝爾實驗室誕生;20世紀60年代,出現了動態時間規整(DTW)演算法以及將語音信號以幀為單位切分的技術,實現了有效的語音特徵提取;20世紀80年代,識別演算法從基於標準模板的方法轉向基於統計模型的方法,產生了基於高斯混合隱馬爾可夫模型(GMM-HMM)的聲學模型和以N元語法為基礎的語言模型,實現了大量辭彙、非特定人以及連續語音的識別。

(2)實用階段

進入20世紀90年代後,語音識別的系統框架趨於穩定,隨著計算機運算能力的快速提升以及語音識別在系統自適應、參數調優等方面的成熟,語音識別技術在商業上逐步成功運用,語音識別技術進入實用階段。

(3)現代語音識別系統開發應用階段

近些年,隨著大數據和深度學習技術的發展,深度學習方法逐漸被引入到語音識別系統中,相較於傳統的語音識別技術,識別性能獲得了顯著提升。

目前,市場上的語音識別系統大多基於深度神經網路模型進行建模,大幅提升了各種應用場景下語音識別的準確度和可靠性,使語音識別技術進入了新的應用階段。

2.語音識別的分類

按照說話人的不同,語音識別技術分為兩類:一是特定人語音識別,它用來對特定人的說話內容進行識別,同時基於說話人的聲紋信息,應用聲紋鑒別技術,實現基於聲音的身份識別;二是非特定人語音識別,通過採集大量語音數據來進行訓練建模,實現非特定人的語音識別,可以被任何說話人使用,更符合實際需要,通常要難於針對特定人的語音識別任務。

根據識別辭彙對象的不同,語音識別任務分為三類:一是孤立詞識別,可識別事先已知的詞語,比如「存款」「取款」等,可應用到自動控制領域;二是連續語音識別,可識別自然交流的連續語音,比如一個句子或者一段話,可應用於語音輸入系統;三是關鍵詞識別,從連續語音中檢測出特定關鍵詞出現的位置,而不需要識別出整個句子,可應用於語音監聽任務。

根據識別服務的實現方式,語音識別分為兩類:一是雲端方式,依賴網路並依託強大的後台模型,識別更準確,目前已經有多款基於雲端的語音助手工具;二是離線方式,不依賴於網路,應用場景更靈活,但識別精確度受到計算資源的限制,一般離線識別會結合專用晶元,通過壓縮模型規模,將計算量控制在合理的水平。

3.語音識別技術原理

傳統語音識別技術的基本過程如圖1所示,主要包括如下內容。

(1)預處理

這一過程主要包括對輸入的原始語音信號進行採樣,去除個體發音差異以及設備環境等引起的背景雜訊,通過分幀將語音信號切分為短片段,並運用端點檢測技術確定出語音的起點和終點。

(2)特徵提取

這一過程主要包括從預處理過的語音信號中,抽取出反映語音本質的特徵參數,形成特徵矢量序列。通常由頻譜衍生出頻率倒譜係數(MFCC),使用長度為10ms的幀分割語音波形,然後從每幀中提取出特徵向量。

(3)聲學模型訓練

基於語音資料庫進行訓練,通過計算語音特徵和發音模板的相似度,為每個聲學單元建立模型參數,識別時將待識別的語音特徵參數與訓練得到的聲學模型進行匹配,獲得識別結果。傳統語音識別系統大多採用GMM-HMM進行聲學模型建模。

(4)語言模型訓練

根據語言的語法規則,對訓練文本資料庫進行語法、語義分析,建立描述給定詞序列在語言中出現的概率分布,在給定若干個詞的情境下能夠判定下一個最可能出現的詞語,縮小搜索範圍,進而提高語音識別性能以及準確率。

(5)語音解碼

語音解碼指語音技術中的識別過程,針對輸入的原始語音信號,經預處理和特徵提取後,結合訓練得到的聲學模型、語言模型以及發音字典建立一個識別網路,運用搜索演算法尋找到最佳路徑,進而獲取該語音信號對應的最優詞串。

4.深度學習和語音識別技術

深度學習也稱為「深層結構化學習」,是一種基於學習數據表徵的機器學習方法,通過構建多隱藏層神經網路,組合低層特徵形成更加抽象的高層表示特徵,以此提升分類或預測的準確性。

語音信號是一種非平穩的隨機信號,人腦對其感知的過程是一個複雜的信號處理過程,深度學習可通過模仿人腦對語音信號的處理方式,以層次化的方式進行處理,因此比傳統的模型更適合於語音信號處理。結合深度學習技術對傳統語音識別技術的相關環節進行優化和完善,出現了級聯繫統(Tandem System)、混合系統(Hybrid System)、端到端模型(End-to-End Model)系統等新技術,具體描述如下:

(1)級聯繫統

運用深度神經網路(DNN)進行特徵提取,優於使用傳統特徵訓練的GMM-HMM識別系統,它可以聯合特徵的上下文信息形成長時特徵矢量,並且具有深層次的非線性變換能力,能夠從有限的數據中挖掘出更多的信息。

(2)混合系統

在GMM-HMM聲學模型基礎上,用DNN替換高斯混合模型(GMM)來計算輸出概率密度函數,其中的DNN可替換為其他的深度學習架構,比如循環神經網路(RNN)、卷積神經網路(CNN)等,這種方法最常用也最便利,不需要重新設計整個傳統聲學模型系統。

(3)端到端模型系統

基於深度神經網路完成從輸入特徵向量到輸出結果的整個過程,聲學模型和語言模型通過後端解碼進行融合,與傳統識別過程相比,不需要進行分幀以及幀級別的標註操作。端到端模型實現方法分為兩種,一種是採用連續時序分類(CTC)和長短記憶網路(LSTM)結合的聲學模型,對語音的音素序列和對應的語音特徵序列進行序列層面建模;另一種是基於編碼解碼(Encoder-Decoder)模型以及注意力(Attention)模型,直接實現從語音聲學特徵序列到最終詞序列的輸出。

二、智能語音識別技術在商業銀行中的應用

隨著語音識別技術與文本挖掘、自然語言處理等技術的不斷融合,在以商業銀行為代表的金融領域,語音識別技術呈現出巨大的應用價值潛力。本文對商業銀行視角下的語音識別應用場景進行梳理和歸類,從對智能化技術要求由淺入深的角度,提出「4I」應用架構,即「Input(信息輸入)—Inspection(實時監察)—Interaction(溝通交互)—Identification(身份驗證)」,以期為商業銀行智能語音識別技術落地提供參考和借鑒。

1.Input(信息輸入):「聽得見」

語音識別的一個主要應用就是將語音數據自動轉換為文本數據,實現自動信息輸入。該類應用下,語音識別技術的主要功能是將音頻數據轉化為文本數據,並為進一步開展智能文本挖掘和自然語言處理積累大量文本信息語料。在商業銀行運營環境下,該功能可主要應用於簡化櫃檯人員業務操作流程、實現客戶經理拜訪客戶後的報告口述撰寫等場景。

以櫃檯操作簡化流程為例,當前網點仍是銀行提供服務的重要渠道之一,櫃檯運營人員服務質量是決定客戶體驗的關鍵要素。客戶針對銀行提出的反饋意見顯示,等待時間過長已成為影響客戶滿意度的重要因素。通過引入語音識別系統,可以將客戶需求直接轉化為系統可識別的文本內容,櫃檯人員僅需針對錄入的信息進行複核校驗,減少客戶填寫各種憑證的時間以及運營人員錄入信息的時間,從而減少客戶等待時間,提升服務效率。此外,當銀行一線人員走出網點對客戶進行拜訪後,由於缺乏行內雙錄設備,往往需要撰寫訪談報告對客戶情況及交談內容進行記錄,此時語音識別技術的應用可直接將客戶經理的口述轉換為文字報告,以提升工作效率,進一步釋放銀行生產力。

2.Inspection(實時監察):「聽得懂」

商業銀行日常應用場景除了需要「聽得見」,很多場景還要求「聽得懂」,即需要在銀行服務人員與客戶交流過程中實時識別出客戶需求點及業務風險點,支持更精準地對客戶提供個性化服務,同時保證業務合規性。

例如,通過在語音識別技術的基礎上架構索引機制、引入文本挖掘和自然語言處理技術支持,對實時「聽」到的文字在「關注」字詞庫里進行搜索。當客戶在櫃檯辦理業務時,通過對客戶與窗口人員的交談內容進行實時監察,一方面可以及時識別銀行員工話術的合規性,當業務人員出現不當銷售、違規引導時,系統及時跳出提醒標識對銀行人員進行警示,儘可能避免對客戶和銀行權益造成損害;另一方面銀行可以實時發現客戶的業務需求,並及時讓窗口人員予以相關產品的推介,當客戶的需求與本行產品及服務核心關鍵詞相匹配時,系統展示產品信息及相關話術對業務人員進行提示,進一步提升銷售成功率。

此外,該技術還可以通過對客戶語言文本的分析,及時發現客戶是否存在負面情緒,輔助業務人員減少不當處理,及時調節、化解業務辦理中可能發生的客戶糾紛。

3.Interaction(溝通交互):「有交互」

語音識別在商業銀行的應用場景除了上述「聽得見」「聽得懂」外,很多時候還需與客戶「有交互」。通過語音合成、聲向定位、語義理解、機器翻譯等進一步技術支持,語音識別技術可應用於自助機具操作、電話銀行自動應答、銀行呼叫中心自動回訪、廳堂機器人服務交互、外籍客戶服務提升等場景。以廳堂設備自助化功能優化為例,當前自助設備已成為廳堂運營過程中分流客戶的重要手段。

目前,自助設備操作主要以觸點操作、手動輸入為主,為輔助客戶進行業務辦理,一般需設置專人對客戶的操作進行指導。引入智能語音識別技術可進一步優化自助設備功能,通過識別語音中的要求、請求、命令或詢問來做出正確的響應,既能改善手動輸入速度慢、易出錯等缺點,又有利於縮短系統的反應時間,使人機交互變得簡便易行。

將語音識別技術應用於手機銀行和微信銀行等數字化渠道,可進一步優化客戶和系統交互的客戶體驗,完成餘額查詢、賬戶掛失、手機號轉賬、轉賬費率查詢、預約取款、賬單查詢、信用卡還款、積分查詢、信用卡掛失等基本業務辦理,減少客戶輸入信息量,增加客戶對渠道的使用黏性,在節省服務成本的同時有效提升客戶體驗。

此外,外籍客戶服務提升也是智能語音識別技術充滿潛力的應用場景。以廳堂或窗口服務機器人為載體,在語音識別技術應用的基礎上實現「同聲傳譯」,使銀行能夠很好的服務外籍客戶,提升客戶尊享度,同時也為銀行更好地布局國際化戰略、發展海外業務提供技術支撐。

4.Identification(身份驗證):「認得出」

語音識別技術還可通過聲紋識別實現客戶身份驗證。在生物特徵識別應用中,基於語音的身份驗證具有非接觸、非侵入、易用性強等特徵,客戶易於接受。聲紋識別可以通過每個人獨特的聲音直接辨識客戶,無需設定、記住和鍵入密碼等操作,同時在信息採集方面較人臉、虹膜、指紋、指靜脈等方式具有更佳的便捷性和友好性,讓身份驗證過程變得快速而簡單。國外領先商業銀行已開啟語音身份驗證的探索,2013年5月,英國巴克萊銀行宣布使用語音識別技術,能夠在30秒內通過一般談話驗證客戶的身份。更進一步,通過建立客戶聲紋庫並對語音中的聲紋鑒別,銀行可有效對客戶進行識別、歷史檔案查詢、信息檢索與推薦。

毋庸置疑,語音識別技術為商業銀行的員工操作和客戶服務等應用模式提供了新的技術選擇,並能進一步提升業務效率,開拓新的業務運營模式。近年來,語音識別技術得到了迅猛發展,但是該技術在國內商業銀行的應用仍處於起步階段。這主要是因為基於銀行業領域特定的語料庫還不夠成熟,導致無法在真正意義上實現智能語音識別。隨著大數據技術不斷發展,數據積累越來越龐大,銀行業的語料庫必將逐漸完善,語音識別技術在商業銀行的應用將會逐漸深入。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 中國電子銀行網 的精彩文章:

瑞銀:加密貨幣是「高投機投資工具」 不提供此類交易
銀行百萬年薪搶人背後:這類人才總缺口達150萬

TAG:中國電子銀行網 |