Apollo小度車載系統打造更舒心的出行

最新 04-05

人工智慧正逐漸佔據著人們生活的方方面面。刷臉支付、智能音箱、無人駕駛等技術已早成為熱門話題。那麼它們在跨行業領域（如汽車領域）的應用如何呢？

「

車載系統的現狀

」

目前市面上很多所謂的智能車載系統，但從用戶體驗角度來看，仍然有很多問題，譬如：

- 有的車載系統帶有語音交互功能，但卻不能語音直接喚醒，需要手動按鍵開啟

- 無法進行實時語音交互，或系統反應速度較慢。

- 語音交互功能比較有限，僅支持某些特定語句。

- 語音識別準確率低，抗噪能力差。

- 在疲勞駕駛監測上仍以駕駛時間長短、方向盤操作頻率等為主。少數車企（豐田等）雖採取了紅外感測器監測面部表情的方法，但價錢昂貴，且識別準確率較低。

- 不能自動識別車主特徵，無法提供針對性的服務。

「

Apollo小度車載系統提供的「智能」

」

百度於2017年底演示的Apollo小度車載系統，是全球首款人車AI交互系統。它提供了人車對話、人臉識別登錄、疲勞監測、智能安全、AR導航、車家互聯、服務和內容個性化引擎等核心AI功能，能夠做到「聽懂你、看懂你、關愛你、守護你」的貼心陪伴。這些核心能力相互協同，構建了完整的人車AI交互系統。

「聽懂你」：智能語音助手，精準化的語音識別以及情感化交流，智能化的語義解讀以及擬人化對答

「看懂你」：人臉識別；疲勞駕駛監測

「關愛你」：AR導航；全新場景化用戶界面

「守護你」：人車家互聯；智能安全

小度車載系統的應用場景譬如：用戶通過刷臉登錄後，車輛座椅立即調節至適合的角度。在開車時，通過語音詢問天氣或時下最熱門的電影等，並可成功通過車載系統刷臉支付購買電影票。同時，小度車載系統還可以打通家居和汽車場景，利用DuerOS場景打通能力、ABC雲及通信安全能力，用戶在家中即可對智能音箱發出語音指令，遠程控制車輛（如完成提前打開車內空調等操作）。

此外，疲勞駕駛監測也是亮點之一。它運用了深度學習、圖像識別、語音合成等等技術，對駕駛員的眼睛、嘴部、臉部以及對車態和車外環境的綜合判斷，作出有效識別，提醒和保護駕駛員更安全的駕駛車輛。

「

智能車載系統的技術難題

」

打造好的語音語義系統

從語音層面，我們要能夠聽清，能夠識別出語音。如果沒有聽清，一切都是空談。

能夠聽清需要硬體（如麥克風陣列、降噪晶元等）與軟體（語音識別與喚醒）相結合。Apollo小度車載系統是如何實現這些的呢？

首先是從晶元級的降噪演算法入手。

-回聲消除：播放導航或者語音的聲音會被錄進去，可通過參考信號方式去掉；

-穩態噪音：譬如開車時的空調噪音、胎噪、風音等，這些噪音的模型相對穩定，可以通過模型把噪音消掉；

-非穩態噪音：譬如開車時副駕駛或后座乘客的各種交談。這類噪音沒有固定的模型擬合，可通過定向識音技術來解決，做到誰喚醒聽誰的。

其次從端上著手。

從端到端，只需要輸入聲學波形和特徵，通過神經網路建模處理，識別出想要的結果。除了實際場景數據，百度可以在短時間內錄製很多近場語料種子，再疊加很多車載噪音的模型，形成模擬車載語音模型。

從語義層面，我們要很好地理解用戶的意圖。

在此基礎上，通過對話、場景做更人性化、擬人化的對答，滿足用戶需求。一套成熟的語義系統包含三方面：技術、數據和內容。內容足夠廣、數據足夠多、技術足夠深，是Apollo小度車載系統打造對話系統的必要條件。百度擁有海量數據，使得它有底氣打造全球車載語音系統。技術上主要是深度學習和自然語言處理。要想讓對話系統擁有導航能力或識別導航的能力，首先要有預知能力，在百度提供的大數據引擎下不斷的訓練和持續優化，最後產生出傳統經典的對話模型，包括意圖識別、詞槽分辨、知識問答等等。

這其中涉及到的挑戰有：

- 傳統的語音語義系統可能考慮很多固定的句式對話，而用戶的指令表達會多樣化。

- 多輪交互的對話流管理。能夠讓用戶在對話中做自然意圖的切換、詞槽的切換。

- 模稜兩可的查詢。需要根據用戶以往對話和行為記錄對用戶進行畫像，識別用戶意圖。

疲勞駕駛監測

Apollo小度車載系統運用了深度學習、圖像識別、語音合成等等技術，對多項指標進行綜合判斷。

AI能力的落地

有些AI技術雖然發展很成熟，但直接放在汽車場景上並不適用。如何讓AI技術落地也是需要考慮的一個重要方面。

關於Apollo小度車載系統的

其他問題

小度車載用定向識音技術來解決非穩態噪音問題，「做到誰喚醒聽誰的」。那麼，小度的語音喚醒和識別是否只能由主駕駛進行？

小度語音喚醒支持整個車上各個座位，大家都可以跟小度去互動的。「誰喚醒聽誰的」，比如說主駕駛喚醒，那麼這輪交互就會針對主駕駛互動；在這輪交互完了以後，下一次如果是副駕駛喚醒，它就會跟副駕駛進行下次交互。

能否提供關於語音喚醒的相關資料？譬如：

（1）自定義喚醒詞，如是否支持用「你好，小明」來喚醒車機？

（2）有些情況是，A喚醒了車機，然後是B希望去命令控制，如「我要聽首歌」，對於這樣的場景是否會矛盾呢？還是有某種模式切換支持？此外，在多人喚醒的場景下，如何處理多人的指令呢？是按照順序逐一處理嗎？譬如，車上所有人都喚醒小度(雖然時間上有先後，但可能還是會比較混亂，就像現實生活中大家七嘴八舌討論一樣), 而且各自提出要聽自己喜歡的一首音樂(但還沒有達成一致……有「熊孩子」的家長們會遇到很多類似問題)，那麼小度會如何處理呢？如果該場景涉及支付的話(譬如買電影票)，又會怎麼處理呢？

（3）除了通過音源定位等技術優化噪音對識別體驗的影響外，在噪音優化上，小度還做了哪些優化努力？

（1）自定義喚醒詞我們是支持的。

（2）A喚醒車機、B去命令控制不會矛盾，只要大家都在同一個音區裡面即可；我們為了兼顧車上各個座位乘客的體驗，也推出了四音區的解決方案，一是提高了各個座位的語音體驗，二是各個座位之間語音識別和藍牙通話等可以並行，互不干擾，三是可以進行車內前後排座位的通話。對於多人場景，N選1或者多個信號源同時處理，小度都支持，具體要看車廠的需求來定。支付上我們已經跟百度錢包做到體驗上的閉環，可以直接用人臉支付。

（3）我們通過回聲消除、模型的訓練匹配以及生源定位定向拾音在前端來解決噪音問題，另外在識別引擎上，我們也在不斷地迭代抗噪能力。

用戶畫像需要基於以往的對話記錄、駕駛行為記錄等等。那麼，對第一次登陸系統的用戶，當他／她提出模稜兩可的查詢時，如何進行用戶畫像？

這種情況小度會和用戶做更詳細的交互。舉個例子，用戶提到「成都博物館」，那麼系統會澄清說：「您是想知道成都博物館的百科呢？還是想導航到這裡去？」小度會跟用戶做多輪交互來進行澄清問題。澄清完了之後，這個用戶就開始在我們這裡有初步的用戶畫像，後續就會慢慢完善了。

小度對多輪會話的支持情況如何？

目前小度通過用戶畫像和當前上下文理解等長短期記憶來實現多輪，藉助百度強大的NLP、DM、DST、NLG等能力構建出了業界領先的多輪能力。

新用戶往往會跳躍問題，打亂問答交互的上下文環境，小度如何提高此種情況的用戶體驗呢？

跨垂類的多輪交互，我們會通過主動澄清和預測的方式來確認用戶的意圖。

目前的語音助手是否只支持普通話？是否支持方言，或者非中文（譬如，英文句子，或夾雜著英文單詞的句子）？在個性化服務上，將來是否會支持用戶自定義一些「快捷」用語庫、進行更個性化的查詢？

這是兩個問題，我先回答第一個。小度現在除了普通話外也是支持方言，包括粵語和四川話，等等。非中文方面，也分兩部分來看，一部分就是Native Speaker，小度平台在美國使用過，效果還是非常好的；而中英文夾雜的這種句子，我們也做了一些重點的優化，比如說有很多POI是中英文混合，如「我想聽I love you 這首歌」，「我要去Starbucks」等等，我們的識別率都是非常高的。小度針對中英文混合的POI或者歌名歌星名專門做過優化，目前的識別率基本跟純中文持平。個性化查詢這塊，我們叫做技能，小度自己有些自定義功能，比如說我要回家，可能每個人的家的地址不一樣，你只要把地址輸入到系統裡面，把公司地址輸入到系統裡面，以後你直接說我要回家或者我要上班就可以自動查詢了。

能夠提供一些數據來支持所謂的「識別率非常高」，或者做些行業內的競品對比？

我們無論在喚醒率和識別率上都超過了競品。我們有一些嚴謹的第三方眾測和OEM們評測的報告，但由於涉及到數據機密，不方便提供相關資料。

雲端模型的訓練與更新周期多長？

這個問題沒有辦法一概而論，理論上，語音這塊的模型每天都在迭代。因為每天從線上會有很多語音查詢，語音在整個百度全平台上面每天被調用幾十億次，我們每天都會把這些數據在演算法模型裡面去訓練，模型每天都在迭代，每天都在學習。

人臉識別的安全問題。有一些黑客或技術人員曾做過實驗，可以通過照片或3D列印模型成功進行人臉識別。那麼，小度車載系統是否也有類似的安全隱患上的考慮？將會如何解決？這個刷臉登陸是只支持一個人，還是其他人也可以呢？

首先，在人臉識別系統里有很嚴格的活體檢測模塊，我們也加了很多種束縛策略來防止入侵。除此之外，我們還有賬號交叉驗證，還有一些產品流程設計上的方案，這些綜合來保證識別的安全性。這方面大家不用太擔心，因為用3D列印模型或照片的話是肯定過不了活體檢測的。刷臉登陸可以支持多人，需要完成註冊即可。

小度車載系統的功能好像會受到網路覆蓋信號的影響。在沒有網路的地方，是基本就無法使用小度車載了嗎？疲勞駕駛監測是否還能正常進行？

無論是語音，還是疲勞檢測這些系統都是支持離線處理的，我們都有離線的一些引擎，並不完全依賴於網路。有離線的引擎在，沒網路的時候它也可以工作。

離線識別情況一般識別率比較低，小度的離線識別情況是什麼樣呢？小度為解決離線下的識別率及識別場景多樣性問題做了哪些權衡與優化？

隨著汽車聯網率的普及以及雲上的能力迭代速度加快，在線會越來越普及，但是由於車載場景的特殊性，在無網或者弱網環境下的體驗也是小度非常關注的，我們針對車載場景下最核心的不依賴於雲端數據返回的場景和需求相關的指令，做深做精，識別率目前已經達到90%以上。

疲勞駕駛監測是一大亮點，模型需要考慮的因素也很多，目前的進展和準確率如何？有一些場景（如，用戶唱歌、做鬼臉等等）的面部動作與打哈欠很類似，監測的誤報率高嗎？下一步會將重點放在這一塊的數據增強、模型訓練以及調優上嗎？

疲勞檢測這一塊，小度和市面的一些競品做過對比，現在支持的疲勞動作監測數目大概12個。比如說閉眼，打哈欠，視線偏移等等，平均的檢測準確率大概在95%左右。這只是一個基準的測試結果，今後會針對車型，包括攝像頭的位置，駕駛員適配後的結果進一步的提升。用戶唱歌、做鬼臉的情況我們也在模型訓練中考慮過，而且專門做過一些針對性的處理。我們通過大量的數據分析後，會發現用戶唱歌的場景下嘴巴開閉的特徵和打哈欠是完全不同的，我們在模型演算法里加入了這種判斷就不會發生混淆了。對於駕駛員監控系統，我們下一步主要在做策略模型的優化，包括去優化推演的規則，包括與大數據統計模型相結合，包括針對各個車體攝像頭的位置，去做支持模型，同時我們也會支持更多、更細化的臉部動作。

小度目前支持得較好的交互場景有哪些？導航場景交互的突出亮點？

小度針對車載主要的交互場景都希望做到體驗極致，尤其是導航、音樂等核心場景。

小度使用的是軟喚醒方案，是否會考慮支持硬喚醒方案？假如有車廠為喚醒效果提出此類需求，小度是否有解決方案？

小度同時支持軟喚醒和硬喚醒方案，車廠可以根據具體的需求選擇。

小度對個性化語音播報的支持情況是怎樣的？能否支持用戶自錄音播報？

小度擁有全球首個情感化TTS合成系統，能夠通過語音合成多個TTS，提高了交互的體驗。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 Apollo開發者社區 的精彩文章:

TAG:Apollo開發者社區 |