一個理解 『人工智慧』 應用的框架
人工智慧是近兩年商業的熱點,幾乎每個企業都在試圖和人工智慧搭上關係。人工智慧應用也是層出不窮。
過去兩年至少接觸了上百家號稱人工智慧的企業,一直在想有沒有簡單的框架可以把人工智慧應用方向解釋清楚。
初步的想法如下:
人工智慧在根本上還是希望用機器來實現人的能力,並在運算能力和規模上超越人類,從而發現由於人類自身的經驗限制無法發現的規律。
從這個角度出發,人工智慧在以下幾個方面有了非常實際的價值:
關於『聽』(Listen):
第一個關鍵的應用方向是把聲音向文字的自動轉化(Speech to Text),從而解決信息輸入和內容分析的問題。
『分析文字』比直接『語音分析』更直接也更容易,這是人工智慧基礎應用的方向。
很多科技公司包括Google去年就宣稱它的機器識別語音能力已經超過人耳的識別能力,但是目前在噪音和多人交談的環境下語音識別依舊需要提升。
另外一個與『聽』相關的應用是『自動翻譯』(Automated Translation),近來也有了很大的突破,尤其在具有大量訓練素材的英語和其他的拉丁語系之間(歐盟的貢獻之一)翻譯甚至成段的翻譯都可以達到非常精確的程度。
把這兩個方向結合起來就會出現如『自動翻譯機』適用消費者的產品,Google包括國內的科大訊飛都發布了這樣的產品。
關於『看』(See):
目前研發方向和應用的重點讓人工智慧讀懂各種類型的介質,包括文字,圖片和視頻。
比如人工智慧來理解文字的含義,關鍵內容(Theme/Topic)。圖片和視頻中的物體,物體之間的關係以及通過文字來描述圖片。
這些能力對於批量處理文字,圖片和視頻都提供了便利,比如從數十萬的圖片中找到共同的物體,從大量的交通視頻中識別車禍,以及廣告內容的分析和內容生成等。
這其中最著名案例就是吳恩達訓練人工智慧識別視頻中的『貓』,在大量的訓練下,人工智慧開始形成了『貓』的概念,並作出識別反應。無人駕駛是也『看』高級引用,其本質也是對外在介質的『閱讀』和『判斷』。
關於『感受』(Feel):
目前研發方向和應用重點是讓人工智慧可以從人類表達出的外在信號如面部表情,文字和圖片中讀懂『情感』。
對於『文字』,IBM的Watson對此已經有了非常成功的測試,比如通過對一封郵件的閱讀分析來判斷其中的情緒,是友好的稱讚,還是憤怒抱怨。
這種應用可以使得人工智慧在未來與人類的交流中加入情感的因素,使得未來『機器的表達』更像人。這對於提升『機器人客服』交流能力,以及社交媒體內容的分析都很大的價值。
另外一種人類外在信號『面部的表情』情緒識別,已經有了非常成熟的應用。使用機器來讀懂人類的表情甚至模擬人類表情的技術已經非常成熟,典型的有測試消費者面部表情來判斷他們對廣告的情緒反應等。
對於『圖片和視頻』,從中讀出它們試圖表達的『情感』是目前的一個難點。關鍵是圖片和視頻往往是通過故事來體現感情,並與觀看者產生共鳴,而且這種情感可能因人而異。
這要求人工智慧的通盤考慮所有圖片和視頻內容做出整體判斷,同時也需要有足夠多的訓練素材,這些目前都是人工智慧的弱項。
關於『交流』(Speak):
『交流』是具有上面三個能力之後的綜合體現。目的是可以與人類進行無障礙的交流,可以理解人類的問題,尤其上下文的語境,並體會其中的情感從而作出反應。
這一方面的應用比較好的體現在了亞馬遜的Alexa, GoogleHome以及蘋果的Siri上,目前在交流的通暢上尤其語境考慮還有很大的改進的空間。
目前比較成熟的『對話機器人』傾向於垂直應用比如只關注一個具體的方面天氣,飛行信息等等。
當把這幾個能力進行延伸之後,就可以有進一步的應用。比如當人工智慧具備『看』的能力後,就可以模擬『作詩』或『繪畫』。
整合這些能力也會形成綜合系統。這也是為什麼百度和Google都用『大腦』來形容內部的人工智慧,其最終的目的是可以統籌一切信息,綜合各種能力的應用。
Sirius Wang,在國內接受全程教育的
中國人,五年前來英國工作。供職於
全球最大傳播集團旗下的研究機構,
服務世界上每年花錢第二多的廣告主,
任全球研發總監。
※只有韶關80、90後才知道的潮流,它們可能要消失了…
※我是大齡剩女,仍然相信愛情
TAG:全球大搜羅 |