谷歌雲首席科學家李飛飛:一堂人工智慧公開課
GIF2017
李飛飛,1976 年出生於北京,成長於四川,16 歲隨父母移居美國新澤西州。現為斯坦福大學計算機系終身教授,Google Cloud 首席科學家,是全球人工智慧領域最具影響力的科學家之一。
2017 年 1 月 3 日,李飛飛教授正式入職 Google Cloud,宣布自己從學術研究的實驗室走到了產業界。她除了依然是「美國斯坦福大學計算機科學系終身教授、斯坦福大學人工智慧實驗室主任」之外,又多了一個新的身份——「谷歌雲首席科學家」。
談及自己為何願意加入 Google,李飛飛表示,「我並沒有離開斯坦福。我希望看到越來越多的趨勢,就是產業界和學術界比較密切的結合,(我想)要跟企業之間建立融合、建立一種探索的新方式。」
人工智慧已經到了可以真正走進工業、產業界,為人類服務的階段,人工智慧發展了 60 多年,這是第一次有這樣的機會。
而雲,則是一個讓人工智慧走進各個行業的最好平台,「我覺得,沒有一個比雲平台更大的平台,能實現人工智慧的普適價值。因為雲上面有各個業界,從金融、到健康醫療、電商、交通、再到製造業、農業。各個行業在這種大數據、人工智慧的推動下,它的轉型,都需要雲平台的幫助。」
回首過去,2007 年,李飛飛與普林斯頓大學教授李凱發起的 ImageNet(圖片網路),目前已經成為全球最大的圖像識別資料庫,對計算機圖像識別的研究起到了顛覆性的推動作用,是本世紀人工智慧領域最大的進展之一。
加入 Google Cloud,可能意味著李飛飛個人事業和人工智慧產業的一個嶄新開始。
在李飛飛看來,AI 這個領域已經發展了 60 年了,它的進一步發展,這是沒有懸念的。這是一個新興的行業,它的發展帶來諸多希望、期待和機會,但同時,也充滿不確定性。
在這樣的過程中,有人會認為「這裡面會有巨大的泡沫」,李飛飛認同,可能會有一些泡沫,「有一部分的泡沫是會破滅的,但是泡沫之後,這個行業絕對會給我們人類的生活,帶來一些顛覆性的影響。這一點,我也是確信不疑的。」
那麼,回到最最根源的問題,機器是如何看懂這個世界的?人工智慧過去的 60 年以及它的未來是什麼樣的?聽聽李飛飛教授在 GIF 2017 的大會上的完整演講。
我今天帶來的,是比較學術的演講。我想跟大家分享一下人工智慧,站在我自己的實驗室的角度,過去的發展的路徑,和我們最近在做的一些工作。
人工智慧到今天,已經帶來了一場革命的開始,不管是天上、地下、雲上、手機上,我們都會看到它給我們帶來的一些興奮的可能性。
其實,智能這個問題,從人類文明的最初期,有了人,就有了這個問題。人工智慧沒有那麼長的時間,人類的歷史有上千年的歷史,但人工智慧只有大概 60 年的歷史。人工智慧的早期,一個奠基性的人物是 Alan Turing ,大家都知道 Turing 是個數學家。大概在五六十年前,Turing 開始思考,怎麼去創造一個 Thinking Machine。他說:要建造一個智能的機器的話,可能最好的方法就是,通過最好的感官來提供給它,讓它能夠學會並且使用應用語言。
智能的 Machine,它需要兩個特別重要的元素:
1. 感知。我們可以看人最大的感知系統是視覺,人還有其他的感知系統,機器也可以有其它的感知系統,但視覺是一個最大的感知系統。
2. 對含義的理解和推斷。語言是人類最特別的一個能力,大多數人都會同意,動物是沒有這樣的能力的。
所以,Turing 遠遠沒有建立起人工智慧這個領域。但是,他帶來了最起初的一些重要的思想元素:我們要做一個會思考的機器,裡面需要包括:視覺、語言。
Turing 之後,有這麼一位科學家,他是計算機界的一位泰斗,是跟馬文·明斯基在 MIT 第一批讀人工智慧的博士生,後來他到斯坦福做教授,他的名字叫 Terry Winograd。
Terry 是人工智慧界,第一代把 Turing 的思想貫穿下去的人。他不光在人工智慧領域做了最重要的工作,而且他後來轉行去做人機交互,也把這個領域重新帶動了起來。
Terry 和李飛飛二人都是斯坦福教授,並且是鄰居。
Terry 帶來了什麼?Terry 把人工智慧應用在了怎麼去建造一個思考的機器上。他說一個人,或者一個機器,要去理解世界,需要去感知。感知以後,需要做的第一件事是對這個世界的結構進行理解。
這叫 Syntax Understanding。Syntax 在自然語言處理領域叫語法,在計算機視覺這個領域可能叫三維結構。Terry 說,Syntax 以後,我們需要理解 Semantics(語義)。Semantis 做的事情就是 Understanding Meaning(了解含義),語言有語言的含義,視覺有物體、有動作,有視覺的含義。
最後,當我們把 Semantics 和 Syntax 解決以後,智能的機器或者是人,主要解決的問題就是 Inference,Inference 就是統計推導、統計推理這個過程。
所以在 Terry 看來 ,要實現人工智慧,需要有這 3 個要素:Syntax、Semantics、Inference。
有了這樣的思想框架做引導,Terry 寫了一篇在人工智慧歷史上非常重要的博士畢業論文。這個論文給了我們一個 System,我不知道在座有沒有同行們聽說過這個 SHRDLU,它用一個像積木一樣的世界,用積木搭建了一個世界,在這個世界裡,讓我們來完成 Syntax(語法)、Semantics(語義)、Inference(推導)這樣的 loop(循環)。
這篇論文是 70 年代初寫的,從 70 年代初一直到 80 年代末 90 年代,其實,人工智慧貌似沒有太多的發展。為什麼呢?如果 70 年代就有一個計算機系統,可以理解人的指令。為什麼我們到 2016 年,才關注到人工智慧?2016 年,亞馬遜的 Echo 和 Alexa,也好像做的事情區別不大。
為什麼 60 年代、70 年代、80 年代的人工智慧, 沒有我們預期的做得那麼好,問題出在它的演進的過程。
在機器學習這個領域崛起之前,人工智慧的系統都是 hand-design rules,這個 rule 十分複雜,而且都完全是用手工,用科學家的聰明的腦袋,想出來的 rule。
這些 rule,會有什麼樣的問題?其實 Terry 這樣絕頂聰明的人,他能建立這個系統,這個 rule 肯定已經是包羅萬象了,但是這些 rule 還是有 3 個比較大的致命問題:
1. Scalable(可擴展的)。你不可能把天下所有的 rule,都寫進一個程序。
2. Adaptable(可適應的)。當你給系統設計這個 rule 的時候,你很難把它轉換到另外一個 rule。比如說,英文的語法、語義,我可以設計很多 rule。可是,我要把它放進中文,它的語法就完全不一樣了,我就得重新設計出來一套 rule。
3. 它是一個 Closed word。
所以說,Hand-design Rules 在 AI 這個領域發展的早期,給我們帶來了一些曙光,但是它並沒有把我們帶進真正的光明。到了 80 年代開始,一個重要的子領域在人工智慧領域開始發展,就是機器學習。
機器學習是什麼呢?機器學習和傳統學習最大的區別,我在這裡給大家畫出來了。你可以想像,傳統的學習,是用人認識這個知識,然後再灌輸給它,讓機器學習,這就像 Terry 他們做的事情一樣。
但是,機器學習不一樣,機器學習是把認知知識這一層給省掉了,可以直接把數據放進學習組件,讓這個學習組件去學習一個知識,這個知識可以發揮作用。
但最近一個特別重要的演算法,就是所謂的 Artificial Neural Network,從 80 年代開始,它叫神經網路。神經網路有很長的歷史,50 年代 Rosenbatt 就提出了 PERCEPTRON 這個概念,這個概念就是把這些細胞怎麼結合起來,然後一層一層地輸入數據,然後輸出結果(take layers of input and take output)。
到了 60 年代初,一個重要的神經生物學的發現,又推動了這個思路,這就是 Huble and Wiesel,在通過對貓的腦子做實驗的時候發現,哺乳動物視覺的感知,實際就有這種神經網路的概念,它是一層一層的細胞不斷的推進,從簡單的層面到複雜的層面。
到了 1980 年,70 年代末,一個重要的日本計算機科學家,叫 Fukushima,做出了第一個 Neocognnitron 的神經網路,可以識別數字和字母。
到了 90 年代末,通過 Geoffrey Hinton、Yan LeCun 進一步的把學習的 rules 更優化了以後,就出現了今天大家比較熟悉的卷積神經網路。
最近,給我們帶來最大的一次神經網路,或者叫深度學習衝擊的 work,是 2012 年 Alex Krizhevsky 和他的導師 Geoffrey Hinton,一塊寫的 AlexNet,其實 AlexNet 和 1998 年的 Convolutional Neural Networks 區別不大。但是,為什麼在 2012 年這個大致的歷史時期,深度學習和神經網路發生了一次井噴式的成長和革命呢?是因為 3 個重要的因素:
1. 這些演算法的不斷優化和成長。
2. 互聯網給我們帶來的海量數據,這也是我和我的學生們,在 9 年前做的一項工作 ImageNet。
3. 硬體的發展。
所以很多人就說,Deep Learning 的三個 Ingredients : Algorithms(演算法)Data(數據)和 Computation(運算)。它給我們帶來了一次革命性的飛躍。
有了這個深度學習和機器學習的崛起,我們其實可以重新回到 Turing 和 Terry 給我們搭建的 AI 大的思路和框架里,重新解決一些在沒有機器學習前完全解決不了的問題。
比如說,計算機視覺裡面 Syntax 這個問題,這個問題實際上就是三維場景的結構,視覺世界的結構。這個問題,在過去的二三十年,有了長足的發展,用了很多跟機器學習的方法。今天,為什麼無人車可以開始產業化,在演算法方面很大的原因要感謝 3D 視覺,這幾十年來的成就。這是其中一部分。
第二部分,我們說 Semantics 這個問題,在計算機視覺裡面它是物體分類、場景分類、物體切割這些。這個領域,也是在這幾年有蓬勃的發展,我們 Image Captioning 團隊一直在主持一個國際上的競賽。從 2010 年開始,一直到 2015 年、2016 年,機器的進步,已經基本上達到了,甚至它有時候超越了人的水平。你現在看到的這幅圖是機器的錯誤率,2010 年第一界 Image Captioning 的時候,錯誤率還在 28% 左右。到了去年 2015 年,這個錯誤率已經到了 3.6%,人也差不多就是這個水平。所以,這是一個非常長足的進步。
剛才,我給大家分享的是兩個單獨的元素:Syntax、Semantics。其實,就像 Terry 提出的一樣,要真正做好 AI,要把這些元素全部結合起來。我們一步一步來看,下一步要結合的是 Syntax、Semantics 在計算機視覺裡面它就是場景結構和語義,或者物體含義,一塊的融合。
這項工作,也有不少人做,前段時間斯坦福的另外一位計算機視覺教授搜沃塞維塞西,他們做了項比較重要的工作,就把這個 3D 的建模和物體場景的識別,結合起來了。
我們再往下推進一步,可以看出,我們現在在盡量完善這個圖片。我們現在把 Language 加進來,結合 Vision,這是 Turing 給我們提出來的人的智能終極目標之一。
所以,Language 和 Vision,是最近人工智慧界非常關注的點。
下面這個工作,主要結合的是 Syntax 和 Inference,它結合了 Semantics,這是我的實驗室最近和 Facebook 的一次合作。我們聯合發現了一個 Benchmark(基準),它的意義是什麼呢?我們跟 ImageNet 比較一下,ImageNet 主要在測試機器對 Semantics 的認知能力,就是物體分類。
這項工作,我們把它取名叫 CLEVR,它測試的是機器對 Language Vision 在 Syntax 和 Inference 方面能達到多好,它跟 ImageNet 基本上是反的。
具體是怎麼做呢?具體我們用了一個圖像引擎,去模仿很多很多的場景,又回到了更像積木一樣的世界。
在這些場景裡面,我們又自動生成了很多問題。比如說,這張圖裡有沒有和半球一樣大的積木?這些問題是在挑戰這個計算機系統對場景結構的理解,這個結構裡面包括物體的大小,或者物體的材料,包括數字計算,也包括比較的能力,也包括空間的關係,最後包括邏輯運算。所以,這在測試計算機好幾層的能力。
這個資料庫,組成了很多很多不同的場景,提出了很多不同的問題。然後,我們就可以通過用最好的深度學習模型,來測試計算機做的怎麼樣。其中最好的,比如用 CNN 和 LSTM, 沒有聽過也沒有關係,這是一種深度學習的模型。然後我們就會發現,計算機現在遠遠達不到人類的,比如數數能力,或者現在對材料的分析還不夠好。而且,我們也遠遠達不到比較的能力,人是很容易比較出一個東西比另外一個東西大,計算機現在還遠遠沒有達到。
這項工作還告訴我們,在 Syntaxt 和 Inference 方面,人工智慧其實還任重道遠,CLEVR 這個 Benchmark,就給我們指出了一些比較明確的方向。
最後一點,我們怎麼把 language、Syntax 和 Semantics 一塊融合進來?這是最近我們做的一系列關於看圖說話的工作。看圖說話就是,一個圖片進來,我希望這個計算機講出一個故事,比如一句話「兩個男人在玩飛盤」。這個模型,我們是用了一個圖片的模型,再加上一個語言的模型。
圖片的模型用的是卷機神經網路,語言的模型用的是一個 LSTM。
剛開始,這個計算機在還沒有足夠學習能力的時候,給出的語句是非常傻的,慢慢的它就開始學習這個圖片的內容了。到了最後,它可以說出其中的內容。
在我結束之前,跟大家分享一下,我們認為下一步計算機視覺和人工智慧,包括自然語言處理,還要往下怎麼走。
Terry 和 Turing 給我們指出了這個結合 Syntaxt,Inference 和 Semantics 的路徑,我們遠遠還沒有完成這個願景。比如說這幅圖,現在計算機視覺可以告訴我們,這個圖裡有一些人,甚至這幅圖的三維結構是什麼,或者給我們一句話或者給我們幾句話、N 句話,就像剛才我們看的。
但是,我們人看到的遠遠不止這些,我們人看到的是一個非常有意思的故事,我們知道這裡面的人是誰,我們知道他們的關係是什麼,我們知道他們的情緒是什麼,我們知道這幅圖的幽默點在哪裡。它可以給我們帶來很多很多信息,這是計算機現在遠遠沒有達到的。
謝謝!(完)
TAG:軟體定義世界(SDX) |
※從洗衣妹到谷歌人工智慧首席科學家,這個華裔女科學家成全美偶像
※微軟人工智慧首席科學家鄧力宣布離職,新身份是一家對沖基金的人工智慧官
※微軟首席人工智慧科學家鄧力離職,或加盟華爾街對沖基金公司
※上海成立國內首個「首席科學家辦公室」,由人工智慧專家領銜
※通聯數據首席科學家蔣龍:如何用人工智慧發現投資機會?
※科學家施堯耘加入阿里,任阿里雲首席量子技術科學家
※深度學習大神!原百度首席科學家吳恩達宣布將創業:繼續發展人工智慧
※「世界知名量子科學家加盟阿里」施堯耘出任阿里雲量子技術首席科學家
※世界知名量子科學家加盟阿里:施堯耘出任阿里雲量子技術首席科學家
※「天眼」總工程師兼首席科學家南仁東逝世
※蝌蚪之夜:「太極計劃」首席科學家吳岳良開講
※密歇根大學終身教授劉向宏加盟滴滴,任智慧交通首席科學家
※百度人工智慧發力 首席科學家卻走了
※前IBM Watson首席科學家周伯文博士加盟京東擔綱人工智慧平台研發
※中國林科院森林生態學科發展論壇暨森環森保所首席專家報告會在京召開
※首席科學家的勞動節
※阿里AI lab首發天貓精靈,前南洋理工大學教授王剛出任首席科學家
※「突發」百度首席科學家吳恩達宣布辭職(公開信全文)
※《智泉流韻》首席作家王長偉原創:進拴和他的散文集《新城美韻》