從人工「智障」到人工智慧，AI交互還缺什麼？

科技 06-29

圖片來源@視覺中國

文｜劉志剛

引爆AI技術的Alphago與李世石的「人工智慧」世紀大戰已經過去三年，與三年前Alphago大勝李九段時人們驚呼「人工智慧將要替代人類」相比，2019年的人們在面對AI時則更為淡然，與之對應的現實是，近三年來人工智慧技術雖已取得驚人成就，但仍未真正脫離「人工」的現實。

AI的「人工不智能」之困

2018年5月，谷歌在其I/O開發者大會上，展示了令人印象深刻的Duplex人工智慧語音技術，當時谷歌現場演示了Duplex語音AI預約理髮服務，在與理髮店溝通過程中Duplex的那一聲「嗯哼」更是技驚四座、驚艷全球，隨後谷歌董事長驕傲的向世界宣布：在電話預約領域，Duplex已經通過了圖靈測試。

然而，事情當然沒有那麼簡單，在《紐約時報》記者的測試中發現，在成功預約的4次中，有三次是由人工偽裝成Duplex完成的，隨後谷歌官方聲明，目前通過Duplex撥打的電話中，約有25%由人類完全操作，在其他非人工操作的情況下，有15%的呼叫受到了人為干預。

即使人工智慧技術強如谷歌，也仍然邁不過AI語音交互的「智能之坑」。而實際上，著名的圖靈測試，也有其特定歷史環境下的局限性。

在圖靈測試中，僅僅通過AI是否表現的像個人類的判斷無法有效得出AI是否真的具有智能，而要想AI脫離「人工」烙印真正實現智能，就必須真正跨過那條人與AI之間的邊界。

在電影《機械姬》中，人工智慧Ava在利用Caleb的感情達到幫助自己成功逃生則是「真正成功的圖靈測試」的刻畫，影片中，人工智慧Ava的締造者Nathen真正目的正是希望Ava通過「性魅力、對人性的操縱、同理心」等人類情感特徵的綜合利用而實現逃生，因而，Ava的逃生也是「圖靈測試的終極版」。

雖然相比機械姬Ava，谷歌人工智慧Duplex的完成度顯得「相形見絀」，但作為人工智慧最為重要的底層技術之一，AI語音交互技術近年來的發展取得了一系列進步，並隨著智能手機、智能音箱等硬體設備進入千家萬戶。

實際上，AI語音交互的基礎是基於深度學習演算法對語言系統的深度集成，因而決定其具有明顯的「雙邊效應」，一方面，AI語音交互的完成度越高，其用戶數量增長越快；另一方面，用戶數量與使用頻次的增長反作用於AI語音交互的深度學習訓練，從而實現更高的完成度。

AI語音交互的「動態規劃」法則

在互聯網江湖看來，語言交互的過程的本質，是數據在「動態規劃」邏輯下對數據特徵的精確匹配。

在數學領域，動態規劃(dynamic programming)是運籌學的一個分支，是求解決策過程(decision process)最優化的數學方法。在AI語音交互上，實現交互的過程可以看做是一個對語音輸入數據反饋「最優解」的數據匹配過程。

從技術構成上來看，AI語音交互技術大致可分為三個層面：「交互層、演算法層、數據層」。在一個完整的AI語音交互過程中，由語音識別反饋技術為核心，實現交互層AI與人的交互觸達，然後由演算法層進行「動態規劃」解析，將完整語義下的文字數據拆解為特定的「數據包」，並由演算法將「數據包」與已有「語言系統數據」進行精確匹配，從而實現AI對語義的理解並給出反饋。

簡單來說，這就像你拿著一隻印著小貓圖案的黃色鉛筆並且想要一隻同樣的鉛筆，你需要去一個有著各種各樣筆的文具店，因而你需要用「動態規劃」思維將這隻獨特的鉛筆「拆分開來」，明確它的種類以及特徵：首先，它是鉛筆、其次它是黃色的，最後它印著小貓圖案。然後根據這些特徵通過篩選（演算法）去找到文具店中同樣的鉛筆。（與已有「語言系統數據」進行精確匹配）

但就目前的技術條件下，想要實現語言數據的100%精確匹配需要一些「先決條件」。

交互層實現100%準確率的語音識別準確率是保證整個語音交互不會出現語義「理解」偏差的重要前提，而要實現語音識的精準必須構建完整的「語句資料庫」，然後通過大量的識別訓練提升其準確度。

其次，在實現精確語音識別後，需要演算法對其進行「數據打包」並且實現對「語言系統資料庫」進行快速檢索，從而匹配到相應的「反饋方案」，而由於不同的語義決定了不同的語音交互場景，因此需要涵蓋幾乎所有語音交互場景的「演算法倉」，同時每個演算法必須滿足對於精度和效率的雙重需求。

在數據層，「語言系統」資料庫的完善程度重某種意義上決定了整個語言交互系統的完成度。

無論是「交互層」還是「演算法層」都需要「語言系統大數據」的全面參與，因而，構建完善的「語言系統」數據是整個AI語音交互系統的核心，也是技術上難度最高的一環。

然而，現實中在語音識別領域，目前只有科大訊飛的語音識別技術達到了98%的準確率，在整個語音交換互領域，也僅僅只有谷歌的Duplex通過了圖靈測試，而要想真正實現語音交互的人工智慧，仍然需要AI底層技術革新的推動。

進階AI語音交互與「數據納什均衡博弈」

目前，無論是蘋果的Siri 還是微軟的小娜，在語音交互中均未實現基於時間線對語境的理解。而就2018年5月谷歌開發者大會上Duplex的表現來看，谷歌人工智慧語音識別技術在語境的「理解」上已經取得了一些進展。

互聯網江湖團隊認為，在進階的語音交互過程中，除了遵循「動態規劃」原則實現對語言數據的檢索外，基於「語言系統」對輸入數據的反饋則是一場演算法驅動下數據與數據的「納什均衡博弈。」

所謂「納什均衡」，實際上是一種策略組合，在該策略組合上，即在博弈的雙方中，一方的策略會隨著另一方的策略變動進行策略組合的調整，以達到一種戰略上的「均衡態勢」，而這種「均衡態勢」被稱為「納什均衡」。

在進階AI語音交互中，AI演算法基於時間線對語義的「理解」過程，可以看做是對於語言輸入數據端的變化，完成AI演算法端相應的策略變換的過程，從而形成「數據納什均衡」。納什均衡的形成需要以既定的「目標收益」為前提，而在AI語音交互中，這種「目標收益」實質上就是「在時間線的上對於語境的理解」。

「數據納什均衡」下的進階AI語音交互雖然從理論上可以實現AI對特定語境下的理解，但這樣的AI仍不能夠算的上真正的人工智慧，真正意義上的人工智慧不僅僅是「具有人類語言特徵」的AI，而是真正具備人類思維能力以及行為能力的AI系統。

因此，從這個意義上來講，真正的人工智慧不僅具有「人類思維」的軟體範式，也需要在物理上的「擬人化」，使之具備作為「人」行動能力。而想要實現真正的人工智慧，不僅需要AI技術的「人化」也需要工程上的「人類化」。

因而，電影《機械姬》以及《機械公敵》中的人工智慧形態才是完美的人工智慧，從某意義上來講，這樣的人工智以及成為了一種由「人工」創造的硅基生命，而不僅僅是簡單的「人工智慧」了。

尾聲

AI天花板盡顯，人工智慧還有多遠？

當下AI技術的興起，源於深度學習演算法領域取得的突破性進展，因而從這個意義上來講，如今AI技術實質上是計算形式的革新。

也就是說，剝去人工智慧的外衣，如今的AI並未真正意義上實現「人工智慧」，更多的還是一種用於大數據分析與檢索的工具，實際上，當下AI的價值也在於對數據的高效匹配和應用。另一方面，雖然AI技術在產業應用上仍有巨大的空間，但深度學習演算法的「工具式」人工智慧的天花板已經觸及，演算法驅動下的AI技術已經到達瓶頸。

也許，《機械姬》中對於人工智慧的幻想在本世紀末也未必能夠實現，而對於「人工智慧顛覆人類」的恐懼也頗為「杞人憂天」，相對於人工智慧時代的到來，或許我們更應該關注如今AI技術對於當下的改變，而AI語音交互作為AI技術應用的前沿陣地，任何的技術以及應用層面的進展都更值得我們去關注。（本文首發鈦媒體）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 鈦媒體APP 的精彩文章:

※為了打消馬斯克們的疑慮，初創公司流深光電想在今年推出車規級激光雷達
※QQ軌跡刷屏：一流的起牌，二流的牌技，三流的營銷

TAG:鈦媒體APP |