深度學習重大應用，或將給自動駕駛帶來啟發

最新 04-14

智能網聯汽車第一站

深度學習在人工智慧領域的又一次成功運用能否推動智能汽車發展

據國外科技網站Engadget報道，北京時間4月13日凌晨，科技巨頭Google在視頻網站YouTube上投放了一段視頻，視頻里顯示AI系統能夠在嘈雜的環境中分辨出任意說話者的聲音並單獨記錄下來。

Google演示語音智能識別

研發人員聲稱只需要在說話的時候鎖定發言者的面部，AI就能特定地提取出你說話的聲音並單獨設置音軌記錄下來。在視頻中即使測試者的部分臉部被麥克風或者其他物品遮擋，AI也依然能夠成功識別出測試者的聲音。

目前Google 計劃將該技術應用於視頻聊天、音頻識別記錄等眾多領域。但在筆者看來該項技術在智能汽車上具有廣泛的運用前景。

為了保障行駛安全，語音輸入已經廣泛應用於車載人機交互系統，但是目前的語音系統很難達到使用要求。準確率不足和頻頻出現的誤輸入讓很多車主將語音輸入視為雞肋。該項技術的出現能夠讓車載語音系統大大提高識別精度，並且能夠分辨指令是否由駕駛員發出從而決定是否執行，大大提高了行駛安全性。

透過這項技術，不僅要看到技術本身在智能汽車領域的應用，更應該看到深度學習在人工智慧領域的應用前景。

我們先來簡單說一說深度學習。深度學習是機器學習的一個子類，一般特指學習高層數的網路結構。深度學習通過組合低層特徵形成更加抽象的高層來表示屬性類別或特徵，以發現數據的分散式特徵表示。並且利用GPU的並行運算，在模型相當複雜，數據特別大量的情況下，依然可以達到很理想的學習速度。

複雜路況下的高精度視覺感知正是目前自動駕駛向更高級別發展的一大阻礙。如何提高智能汽車的視覺感知能力成為困擾各大企業的一大難題。幸運的是，就目前的研究來看，深度學習能在很大程度上優化汽車的視覺感知能力。

有研究報告指出深度學習如果演算法和樣本量足夠的話，視覺感知的準確率可以達到99.9%以上，而傳統視覺演算法的檢測精度極限在93%左右。作為比較，人感知的準確率一般也是95%左右。

深度學習可以按照模型的不同可以分為CNN、RNN、LSTM等5種類型，其中CNN(卷積神經網路)在處理圖像上擁有很好的效果。

深度學習的工作一般可以分為兩部分，即訓練和檢測。訓練一般是將採集到的樣本輸入到線下的訓練網路中，訓練網路進行前向輸出，調整參數讓輸出誤差在接受範圍內從而得到模型。將這個模型導入到檢測的網路中，檢測網路就可以對輸入的視頻和圖像進行檢測和識別。通常情況下，樣本的數量越多，識別的精度也會越高，所以樣本的數量是影響深度學習精度重要的一個因素。這就體現了大數據平台的重要性。