沒有神跡,用不著嚇唬,人工智慧的真正突破還未到來
圖源:Pixabay.com
撰文 | 邸利會(《知識分子》主筆)
責編 | 陳曉雪
知識分子為更好的智趣生活 ID:The-Intellectual
Rolf Pfeifer穩穩地站在台上,做著演講。他一邊用遙控器控制著PPT翻頁,一邊踱步,從一頭走到另一頭,照顧處在不同位置的觀眾。當他走動時,眼中看到的聽眾圖像是穩定的,不會起伏和晃動。當然,Rolf Pfeifer不是機器人,他做到這一切易如反掌。
這是在今年CCF-GAIR全球人工智慧與機器人峰會上。作為機器人專家,蘇黎世大學信息學系計算機科學教授以及人工智慧實驗室的主任,Pfeifer的心情顯得有點複雜,一方面行業的火熱吸引了大量資金,自然是好事;可另一方面,催生出的機器人產品卻大同小異,在外形上像小孩的玩具,而功能上——不過相當於一只iPhone。
「本質上,這些機器人就是桶子里的iPhone,輪子上的iPhone。」 在談到充斥市面上的社交機器人時,他不無感嘆地說。
這多少反應了有點尷尬的現實:我們可以建造複雜的機器人,在工廠里精準地裝配汽車,飛到火星上探測新世界,卻無法造一個普通人一樣的機器人,完成一些基本的簡單任務:比如像Rolf Pfeifer這樣,穩穩地站在台上,從容地邊走邊翻PPT,而不用擔心突然摔倒。
如今,一些機器人的比賽,比如亞馬遜的機器人大賽,所完成的任務也不過是識別物體,抓取,從一頭移動到另一頭。看起來很小兒科,不過,對於機器人來說,「抓取」 的確是個難題,當然也與亞馬遜的業務密切相關:或許有一天技術突破了,就可以部分代替倉庫里的理貨員了。
不過,至少現在還不用擔心!這波AI熱潮湧來後,我們受到的驚嚇已經太多了。當AlphaGo戰勝李世石的那一刻,幾乎所有人都在驚呼,哎呀嘛,人類完了!簡單回復一句,根本不是那麼回事。還記得Sophia么,它似乎能與人交流,做出各種表情,表演的視頻席捲網路,但已經被研究神經網路的專家Yann Lecun打了假,沒錯,他實在看不過去,髒話都差點罵出了口。
回到這次的大會,Rolf Pfeifer的擔憂代表了業內很多專家的意見,這從他演講的題目也可以看出來—— 「我們如何應對機器人、AI技術過熱的時代」。
在另一個與人工智慧緊密相關的領域,計算機視覺,專家們也覺得有必要告訴大家,你們眼中的「重大突破」、「嚇X了」的黑科技,還遠沒有到,諸如AI統治人類的「世界末日」的時候。
「你也可以說它很蠢」
在大會的計算機視覺專場,來自香港科技大學的權龍教授做了「計算機視覺,識別與三維重建」 的演講。
「人工智慧的目的是讓計算機去看、去聽和去讀。圖像、語音和文字的理解,這三部分基本構成了我們現在的人工智慧。而在人工智慧的這些領域中,視覺又是核心,視覺占人類所有感官輸入的80%,也是最困難的一部分感知,如果說人工智慧是一場革命,那麼它將發軔於計算機視覺,而非別的領域。」 他說。
而當下的這場人工智慧的熱潮,也發軔於計算機視覺領域。如今,人工智慧似乎要幾乎等同於機器學習,等同於深度學習,等同於更專門一點的卷積神經網路(簡稱CNN)。與大眾的普遍印象不同,在學者的眼中,引爆人工智慧的不是AlphaGo,而是2012年的Alex Net,卷積神經網路捲土重來。Alex Net更早的版本要追溯到1998年由Yann LeCun建立的LeNet。卷積神經網路可以認為是改進了的神經網路,一種據說是受人腦神經元的連接啟發而設計的計算模型。
不過,和今天的受追捧不可,之前的神經網路屬於幾乎無人問津的「冷門」。「那個時代,如果你在論文中提到CNN,估計會直接被拒;但今天你的論文如果不提CNN,就非常難入圍(計算機視覺會議)。」 權龍說。
利用CNN,研究者不斷改進模型設計,在一些識別任務,如圖片識別上的錯誤率,在特定數據集上,已經超過了人類。這種成績的取得,除了演算法層面,權龍認為還要歸功於算力的提升(如英偉達GPU的更新迭代)以及大量的標準數據(如李飛飛創建的Image Net)。「如果你能清晰地定義問題,做好數據標定,這個問題基本就解決了。」權龍說。
不過,他提醒說,這種東西還有很大局限,並不是真的聰明,只是記住了很多樣本。「你也可以說它很蠢,因為它根本不知道自己在做什麼。一切取決於你的標準,如果你把一個東西標註成貓,它就認為這是一隻貓,明天你再把它標註成狗,它就認為這是一條狗。」 他說。
CNN的優勢,在權龍看來,在於端到端,把數據丟給模型就可以了,而且無需像之前需要人工定義,就能學到維數動輒上百萬的有結構的視覺特徵。他認為,下一步計算機視覺要在識別的基礎上,走向三維重建。「我們是活在三維空間里,要做到交互和感知,就必須將世界恢復到三維。」 他說。
「人眼基本不會犯這樣的低級錯誤」
確實,除了物體識別(recognition)外,計算機視覺研究還包括了三維重建(reconstruction),圖像重組織(reorganization)。在這次大會上,同為計算機視覺專家、加州大學伯克利分校的馬毅則對深度學習進行了更深刻的反思。
「視覺並不僅僅是找任意一個演算法或系統,能對一個資料庫中對圖像分類、恢復三維幾何,或者分割就可以了。而這樣的演算法和系統的重要性能必須要有保障。首先是對雜訊不敏感(insensitive),數字圖片識別對小的雜訊和擾動穩定(stable);此外要保證對干擾要穩健或魯棒(robust),例如戴眼鏡,化濃妝也能人臉識別;還有對姿態不變性(invariant),物體姿態變化、圖片變形也不會影響結果。」 他說。
如果從這三個要求衡量,他說,現在的物體(人臉)檢測以及識別技術並不能在這幾方面提供嚴格的保障,經驗驗證尚且不充分,更談不上理論上的嚴格保障。他在現場展示了最近的兩項研究,給聽眾留下了深刻印象。
其中一項研究[1]涉及人臉的檢測,在圖片上加了一個很小的雜訊後,用當前最好的卷積神經網路看,就已經檢測不出是人臉了,更不用說識別出是誰。
另外的一項研究[2]則表明,對圖片中物體的姿態(位置、大小,方向)做很小的改動,現代的深度卷積神經網路的識別就變的很差,可人眼卻基本不會犯這樣的低級錯誤。
他提到,神經網路在數學本質上是在學習高維數據中稀疏的低維結構,「從有限的觀測樣本中穩健地學習到一個低維的模型」 是機器學習一個普遍性的問題,是無論如何繞不開的核心挑戰。
他還認為,利用反傳演算法(back propagation)加上足夠的計算力、數據等資源,深度模型可以擬合或過度擬合任意有限的樣本,所以在有限樣本能夠覆蓋所有感興趣或重要的例子的應用場景是有很用的。但(機器或者人的)學習最終目的終究是從有限的樣本發現最簡單的通用的數據生成的機理模型,以對付無限可能的變化情況。從有限到無限,這是學習以及科學研究的根本目的。另外,從工程實現來講,沒有這樣一個參考模型和標準,學習演算法系統的穩定性,穩健性和不變性,是無從談起的。
「我們解決了計算機視覺的三個核心問題了么?嚴格來講還沒有。我們在物體識別、幾何重建、圖像分割這些問題上,都還沒有找到能夠嚴格保證穩定,穩健和不變性的演算法和系統。計算機視覺,以及人工智慧還有很長的路要走。」 馬毅總結說。
擔心AI的過熱問題
由深度學習所帶動的這波人工智慧的熱潮,究竟會持續多久,目前還不好確定。但從這次大會上傳遞出的信息看,專家們已經在擔心AI的過熱問題,這包括媒體的炒作、民眾的過高期待,投資界的胡亂撒錢,而這些並不會立竿見影的帶來技術的突破。
在去年的大概這個時候,當我去北京西南部的亦庄參加一個機器人展覽時,我其實就只有一個簡單目的:找一個可以自主充電、幫我吸塵的機器,我並不敢奢望找一個疊衣服,洗碗做飯的機器人。記得當時,我問過很多展台的接待人員同一個問題,有什麼事是你的機器人能做,而iPhone或者智能音響不能做的?沒有一個回答能讓我感到滿意。
直到今天,我略有驚訝地看到,作為專家,Rolf Pfeifer也有和我這樣的普通用戶一樣的感受,很多的機器人不管外形多麼美,多麼酷,多麼可愛,都不過是裝了輪子的iPhone——它們既不會主動的感知,也不會與真實的物理世界發生交互。它們連剛出生幾個月大的嬰兒都比不過。唯一的區別是,iPhone可以裝在口袋裡,這些卻帶不走,也許只會在一陣喧囂和熱鬧的Show過後,被人遺忘在某個蒙滿灰塵的角落。
參考文獻:
1. Adversarial Attacks on Face Detectors using Neural Net based Constrained Optimization, Avishek Bose and Parham Aarabi, arXiv:1805.12302v1, May 31, 2018
2. Why do deep convolutional networks generalize so poorly to small image transformations? Aharon Azulay and Yair Weiss, arXiv:1805.12177v1, May 30, 2018
製版編輯 | 黃玉瑩
本頁刊發內容未經書面許可禁止轉載及使用
公眾號、報刊等轉載請聯繫授權
copyright@zhishifenzi.com
知識分子為更好的智趣生活 ID:The-Intellectual
TAG:知識分子 |