2018訊飛輸入法媒體見面會暨AI方言發音人招募啟動
【新智元導讀】6月12日下午,訊飛輸入法在京舉辦了主題為「愛輸入·更懂你」的媒體見面會,同期正式啟動「AI方言發音人招募」公益行動。在人工智慧一天天滲透並改變我們生活的今天,科大訊飛在核心技術上持續投入大量研發精力,並將其研究成果快速落地。AI賦能訊飛輸入法,為大眾帶來更豐富功能、更出色體驗;另一方面,AI持續賦能方言保護,為世界留下多彩鄉音。
【語音識別率從97%提升至98% 更懂你的表達】
回歸本質,輸入法是一種人機交流的媒介,也是人與人溝通的重要工具。縱觀輸入法的發展史,從五筆、手寫、拼音再到語音輸入,輸入法幾經變化。語音作為最自然、最便捷的輸入方式,深刻改變用戶的輸入習慣,繁榮著互聯網應用。2016年10月鎚子科技新品發布會上,羅永浩在現場用很快的語速隨口說了一段內容,訊飛輸入法瞬間「打」出文字,識別結果一字不差。
訊飛輸入法誕生之初,便確定以語音為核心,業界首家加入智能語音輸入。近一年來,訊飛輸入法在輸入效率和智能化方面取得了長足的進步,不僅做到一分鐘識別400字,還支持多語種實時語音翻譯、超長語音輸入、耳語輸入、離線語音輸入等功能。值得一提的是,科大訊飛在感知智能、認知智能以及兩種智能深度結合等領域均取得達到國際領先的研究成果,而這些AI黑科技正應用到訊飛輸入法上,率先在行業內做到通用語音識別率98%。
語音輸入更精準的方法離不開數據和演算法。訊飛輸入法從人腦神經科學入手對人類記憶進行仿生,實現大量無監督的數據去輔助有人工標註的數據。受圖像領域CNN應用的啟發,科大訊飛獨家研發了深度全序列卷積神經網路(Deep Fully Convolutional Neural Network,DFCNN)語音識別框架,使用大量的卷積層直接將語譜圖作為輸入,相比傳統語音特徵作為輸入,有效降低信息損失,非常出色地表達語音的長時相關性。同時,借鑒了圖像識別中效果最好的網路配置,每個卷積層使用3×3的小卷積核訓練更深的CNN模型,輸出單元直接與最終的識別結果(比如音節或漢字),從而使識別準確率顯著提升。
此外,訊飛輸入法以自然語言交互方式——語音修改來解決當前技術束手無策的 2% 不準確。也就是說,使用語音輸入的過程中通過自然語言說出指令來修改、添增、刪除文字等操作。由於中文擁有複雜的多樣性,同音不同義的詞非常豐富,這對機器而言存在理解難度。所以,訊飛輸入法新增語音修改結果多同音詞候選,在機器不能準確理解語義時,通過人工選擇更加高效。不僅如此,基於Cache Base Fast Adapation技術,訊飛輸入法獨創的「智適應」支持一次修改自動記憶修正結果,再次輸入相同內容精準識別。
受制於複雜的環境,像含糊不清的口音、雜訊環境、多人對話場所等都給語音識別造成影響,一旦識別錯誤就可能改變整句話的意思。對於口音和方言識別的難題,訊飛輸入法提出方言語音輸入方案來解決。依託科大訊飛對AI技術及語言深度研究的積累,採用Multi-lingual多語言建模,通過多方言數據共享方式訓練;輔以Global Phone全球音素集,從聲學層面的相似性統一各方言的音素定義,對方言「語圖譜」模型做進一步精進,從而有針對性地提升方言語種的識別能力。目前訊飛輸入法支持22種方言,其中粵語、四川話、東北話等識別率均已超過90%。2017年訊飛輸入法對外發起「方言保護計劃」,建立「中國方言庫」,用智能語音留存、發展承載傳統文化積澱的方言,積累了海量方言數據,是訊飛輸入法得天獨厚的深度學習素材,方言識別率日趨精準。本月底,訊飛輸入法還將新增蘇州話識別,方言識別語種將擴充至23種。
基於科大訊飛精簡和優化的Hybrid-DFCNN全新語音識別框架,6月底訊飛輸入法將上線Hyper-CNN語音新引擎,隨之通用語音識別準確率將相對提升15%,此外有效優化中英混合語音輸入、粵語等重點方言、標點判斷準確率,提升語音輸入的體驗。
時至今日,智能語音極大地延展了人類的輸入速度,帶來的不僅是更便捷的輸入體驗,更驚喜的是令人驚喜的交互方式。面向未來,輸入法將不再局限於五筆、九宮格、二十六鍵、手寫固定鍵盤形態。訊飛輸入法首家推出「莫得鍵盤」、「語音鍵盤」、「VG語音交互面板」等革新人機交互,「重新定義鍵盤」讓輸入更有趣。
莫得鍵盤——「沒有」鍵盤,基於訊飛輸入法出色的智能語音技術,支持語音輸入、語音口令控制,顛覆傳統鍵盤交互,實現無鍵盤輸入。訊飛輸入法從用戶未來輸入角度考慮,為語音重度用戶量身定製了語音鍵盤,呈現便捷的語音輸入形態,只憑一張嘴就能輕鬆打字、修改甚至自動加標點符號,不需學習其他技能。基於智能語音應用,訊飛輸入法打造出全新的VG(VoiceGame)語音交互面板,利用AI在交互層面進行了有益的嘗試。輸入過程等同「玩遊戲」,語速快慢、聲音大小等直接體現了創意交互。
人工智慧正從感知智能向認知智能跨越,科大訊飛人工智慧應用願景正在從「能聽會說」到「能理解會思考」。在科大訊飛看來,手機端輸入方式發生了巨大的變化,語音輸入已經達到了實用的門檻,語音交互的比重越來越大,加上對漣漪效應的理解,訊飛輸入法已經成為高粘性的工具類產品。媒體見面會現場,訊飛輸入法市場品牌負責人李強軍介紹,訊飛輸入法用戶規模突破6億,語音輸入月覆蓋率達50%,語音滲透率保持逐年上升態勢。
【新增面對面翻譯和OCR拍照 開啟智能輸入時代】
為踐行「人與人無障礙交流」的目標,同時也讓更多用戶體驗AI技術的便利,訊飛輸入法嘗試將語音識別、語音合成以及機器翻譯等新技術融合在一起,新增面對面翻譯,支持中文與英日韓俄多語種即時翻譯。不僅如此還充分考慮使用場景,將面對面的交互方式引入語音翻譯應用中。例如,在對話雙方各講母語時,另一方就會同步看到翻譯結果;特別是語音播報功能的加入,讓面對面翻譯有了自己的「嘴巴」,身邊儼然有了一位翻譯官,增強了翻譯的實用性。
一般從文件、圖片中提取文字,需要手工錄入大量文字,不僅效率低下且可能出現錯字。基於用戶剛需,訊飛輸入法新增了OCR拍照輸入,相當於給輸入法安裝了一雙「眼睛」。這個新功能的用心之處是不管書本、路牌、名片還是其他紙質圖中的文字,都能輕鬆識別並提取出來,方便用戶進行編輯、歸類、管理,省去大量錄入的時間。更令人驚喜的是,內置OCR不僅能識別各類印刷體,對於手寫識別準確率也高達90%以上,就算字體潦草也輕鬆識別。 作為高效輸入的一種補充,OCR拍照輸入可以捕捉輸入過程中多場景下的文字,滿足用戶多樣的需求,助力訊飛輸入法成為未來最智能化的輸入法。
未來,訊飛輸入法將繼續結合AI,不斷提升語音識別、語義理解、機器翻譯、圖像識別、語音合成技術能力,賦予輸入法更多想像空間。
【啟動方言發音人招募 AI賦能方言語音輸入】
本次見面會的另一個重要環節是啟動「方言發音人招募」公益行動。隨著經濟、文化活動的全球化現狀以及區域經濟的迅速發展,導致主流語言或通用語言更加強勢,同時也使得弱勢語言的交際功能不斷衰弱,甚至瀕臨消亡。目前世界上的語言大約有6000—10000多種,據語言學家預測,大部分語言將於本世紀末消失。因此,瀕危語言保護(以下簡稱為「語保」)已經成為了一項極重要而迫切的工作。
科大訊飛多語種高級研究員祖漪清在現場講述了方言勢微的現狀。現在我們身處人工智慧崛起的時代,利用人工智慧技術進行瀕危語言、方言系統地研究一個語言的語音結構、語言結構,實現對一個語言的完整「複製」迫在眉睫。因此,本次媒體見面上正式啟動了「AI方言發音人招募」公益行動。
科大訊飛提出的「人類語言大互通計劃」,用AI為人類在語言能力上賦能,點亮全人類的語言互動和命運共同。方言保護作為至關重要的一環,訊飛輸入法肩負起方言保護的重任,通過「方言發音人」採集的標準方言語料,持續優化增添方言識別能力,並開放給用戶使用,有著極其重要的文化和社會價值。
※《生命3.0》作者:在AI基礎研究和教育投入上,中國完勝美國
TAG:新智元 |