當前位置:
首頁 > 科技 > 嵌入式神經網路賦予機器視覺、聽覺和分析能力

嵌入式神經網路賦予機器視覺、聽覺和分析能力

人工智慧(AI)潛在的應用與日俱增。不同的神經網路(NN)架構能力經過測試、調整和改進,解決了不同的問題,也開發出以AI優化數據分析的各種方法。當今大部份的AI應用,例如Google翻譯(Google Translate)和亞馬遜(Amazon) Alexa語音識別和視覺識別系統,都利用了雲端的力量。

藉由依賴常時連網(always-on)的網際網路聯機、高帶寬鏈路和網路服務,物聯網(IoT)產品和智能手機應用也可以整合AI功能。到目前為止,大部份的注意力都集中在基於視覺的人工智慧上,部份原因在於它易於出現在新聞報導和視頻中,另外一部份的原因則是它更類似於人類的活動。

嵌入式神經網路賦予機器視覺、聽覺和分析能力

聲音和視覺神經網路(來源:CEVA)

在影像識別中,針對一個2D影像進行分析——每次處理一組像素,透過神經網路的連續層識別更大的特徵點。一開始檢測到的邊緣是具有高對比度差異的部份。以人臉為例,最早識別的部位是在眼睛、鼻子和嘴巴等特徵外圍。隨著檢測過程深入神經網路,將會檢測到整個臉部的特徵。

而在最後階段,結合這些特徵及其位置信息,就能在可用的資料庫中識別到具有最匹配的一張特定人臉。

嵌入式神經網路賦予機器視覺、聽覺和分析能力

神經網路的特徵提取(來源:CEVA)

為了匹配經由相機拍攝或擷取的物體,希望能透過神經網路在其資料庫中找到匹配機率最高的人臉。其巧妙之處在於擷取物體時並不需要與資料庫中的照片拍攝角度或場景完全相同,也不必處於相同的光線條件下。

AI這麼快就流行起來,在很大程度上是因為開放的軟體工具(也稱為架構),使得建構和訓練神經網路實現目標應用變得容易起來,即使是使用各種不同的編程語言。兩個常見的通用架構是TensorFlow和Caffe。對於已知的識別目標,可以離線定義和訓練神經網路。一旦訓練完成,神經網路就可以很容易地部署到嵌入式平台上。這是一種很聰明的劃分方式,能夠藉由開發PC或雲端的力量來訓練神經網路,而功耗敏感的嵌入式處理器只需為了識別目的而使用訓練數據。

這種類似人類的人/物識別能力與流行的應用密切相關,例如工業機器人和自動駕駛車。然而,人工智慧在音頻領域同樣具有吸引力和強大的能力。它採用和影像特徵分析同樣的方式,可以將音頻分解成特徵點而饋入神經網路。其中一種方法是使用梅爾頻率倒譜係數(MFCC)將音頻分解成有用的特性。一開始,音頻樣本被分解成短時間的訊框,例如20ms,然後再對信號進行傅利葉轉換(Fourier transforms),使用重迭三角窗將音頻頻譜的功率映像到非線性尺度上。

嵌入式神經網路賦予機器視覺、聽覺和分析能力

聲音神經網路分解圖(來源:CEVA)

透過這些提取的特徵,神經網路可以用來確定音頻樣本和音頻樣本資料庫中辭彙或者語音的相似度。就像影像識別一樣,神經網路為特定辭彙在資料庫中提取了可能的匹配。對於那些想要複製Google和亞馬遜的『OK Google』或『Alexa』語音觸發(VT)功能的業者來說,KITT.AI透過Snowboy提供了一個解決方案。觸發關鍵詞可以上傳到他們的平台進行分析,導出一個檔案後再整合進嵌入式平台上的Snowboy應用程序,這樣語音觸發(VT)的關鍵詞在離線情況下也可以被檢測到。音頻識別並不局限於語言識別。TensorFlow提供了一個iOS上的示例,可以區分男性和女性的聲音。

另一個替代應用是檢測我們居住的城市和住宅周圍動物和其他聲音。這已經由安裝在英國倫敦伊麗莎白女王奧林匹克公園(Queen Elizabeth Olympic Park)的深度學習蝙蝠監控系統驗證過了。它提供了將視覺和聽覺識別神經網路整合於一個平台的可能性。例如透過音頻識別別特定的聲音,可以用來觸發安全系統進行錄像。

有很多基於雲端的AI應用是不實際的,一方面存在數據隱私的問題,另一方面由於數據連接性差或帶寬不夠造成服務不能持續。另外,實時性能也是一個值得關注的問題。例如工業製造系統需要實時響應,以便實時操作生產線,如果連接雲端服務的延遲就太長了。

因此,將AI功能移動到「邊緣」(edge)越來越受到關注。也就是說,在使用中的裝置上發揮人工智慧的力量。很多IP供貨商都提供了解決方案,如CEVA的CEVA-X2和NeuPro IP核心和配套軟體,都很容易和現有的神經網路架構進行整合。這為開發具備人工智慧的嵌入式系統提供了可能性,同時提供了低功耗處理器的靈活性。以一個語音識別系統為例,可以利用整合在晶元上的功耗優化人工智慧,以識別一個語音觸發關鍵詞和語音命令(VC)的最小化組合。更複雜的語音命令和功能,可以在應用從低功耗的語音觸髮狀態下喚醒之後,由基於雲端的AI完成。

最後,卷積神經網路(CNN)也可以用來提高文本到語音(TTS)系統的質量。一直以來,TTS用於將同一個配音員的許多高質量錄音片段,整合成連續的聲音。雖然所輸出的結果是人類可以理解的,但由於輸出結果存在奇怪的語調和音調,仍然感覺像是機器人的聲音。如果試圖表現出不同的情緒則需要一組全新的錄音。Google的WaveNet改善了當前的情況,透過CNN以每秒16,000個樣本產生TTS波形。與之前的聲音樣本相比,其輸出結果是無縫連接的,明顯表現出更自然、更高質量的聲音。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 EET電子工程專輯 的精彩文章:

三星業績太好年終獎發半年薪水,網友:中國炒內存賺的
Entegris發布2018中國戰略 布局中國市場

TAG:EET電子工程專輯 |