李理：為什麼說人工智慧可以實現？

科技 06-09

作者 | Just

出品 | AI科技大本營（ID:rgznai100）

儘管市面上關於深度學習的書籍很多，環信 AI 負責人李理認為大部分只關注理論或只關注實踐。於是，基於他對深度學習多年的理解，自己著整理手寫了一本深度學習理論與實戰書籍。

目前，作者已經將《深度學習理論與實戰：提高篇》公開，讀者可以免費閱讀。這本開源書籍最大的特點是理論結合實戰和內容的廣度與深度，目標是使用通俗易懂的語言來介紹基礎理論和最新的進展，同時也介紹代碼實現，將理論知識用於指導實踐。

從其目錄就可以一目了然。

《深度學習理論與實戰：提高篇》閱讀鏈接：

https://fancyerii.github.io/2019/03/14/dl-book/

這本書中，作者在每介紹完一個模型都會介紹它的實現，讀者閱讀完一個模型的介紹之後就可以運行、閱讀和修改一下這些代碼，從而可以更加深刻的理解理論知識。

本書第二個比較大的特點就是內容的廣度與深度，覆蓋聽覺、視覺、語言和強化學習四大領域，並涵蓋深度學習的大部分常見應用方向。

以視覺和語言為例，不同於市面上大部分只限於介紹 CNN 用於簡單的圖像分類或者 RNN、seq2seq 模型在 NLP 中的應用介紹的書，《深度學習理論與實戰：提高篇》的視覺部分除了介紹 CNN 以及最新的 ResNet 和 Inception 模型之外，還介紹了用於目標檢測的 R-CNN、Fast R-CNN、Faster R-CNN 模型；用於實例分割的 Mask R-CNN 模型；用於人臉識別的FaceNet；還包括 Neural Style Transfer 和 GAN(包括 DCGAN 和 Cycle GAN)。語言部分除了很多書都有的 RNN/LSTM/GRU 等基礎模型，用於機器翻譯、chatbot 的 seq2seq 模型和 Attention 機制之外，還包括最新的 ELMo、OpenAI GPT 和 BERT 等模型。

此外，本書還介紹了 NLP 的很多經典任務，包括語言模型、詞性標註、成分句法分析、依存句法分析和機器翻譯。

《深度學習理論與實戰：提高篇》還用一章的篇幅介紹強化學習的基本概念，包括 MDP、動態規劃、蒙特卡羅方法、TD 學習和 Policy Gradient。接著還介紹了 DQN、基於深度學習的 Policy Gradient 演算法，最後是介紹 AlphaGo、AlphaGo Zero 和 Alpha Zero 演算法。

除了理論和實踐的通俗易懂描述外。作者還在本書的序言《深度 | 人工智慧究竟能否實現？》一文中還「大膽」表達了對於人工智慧的個人看法，這些觀點某種程度上都不同於主流觀點。

比如，對於人工智慧究竟能否實現這一讓很多人皺眉頭的問題，作者基於自己對人工智慧的認知和定義，給出了肯定的答案。基於此，AI科技大本營採訪了作者李理，跟他聊了聊為什麼篤定人工智慧可以實現，什麼時候實現，以及他對深度學習發展的看法。

以下為採訪內容，一如寫書的風格，他對每個問題都給出了詳實的回答。

AI科技大本營：您在書中指出理論上人工智慧可以實現，並從諸多角度做了解釋，比如情緒和情感機器也是可以有的，機器還能進行藝術「創作」，這些角度的解釋可能大多是違反人們現有認知的，有人可能會質疑這是為了給「實現人工智慧」這個目標，特意去找了一些牽強的「哲學性」論證，而且這些論據看上去全是實現人工智慧的必要條件，您對人工智慧的實現是否過於樂觀了？

李理：這其實可以說是我個人的一種信仰，就像在前言里提到的："在一本技術類的書籍里是否應該增加單獨一章來討論哲學問題，我猶豫了很久。這些內容很可能會被讀者認為毫無價值，讓讀者白花了冤枉錢。"因為當時寫這些內容時並沒有想到要把提高篇免費開放，所以我確實是猶豫了很久的。但是最後冒著被讀者抱怨和吐槽的風險，我還是決定"強行加塞"進去這一章的內容，因為這是我十多年來思考的一些東西，也是讓我一直在這個領域不斷學習的動力。(十多年前 AI 並不熱門，更不是"顯學"。)

這只是我的個人觀點，並沒有期望大家都能認同。但是這裡我只想提一點，那就是智能並沒有我們自認為的那麼與眾不同，因此從理論上並不能證明只有人才可以擁有這種能力，就像佛教認為的人人都可以成佛，成佛並不需要超高的智商、顯赫的家世，它只需要觀點的改變。同樣的，我們只需要認為人類沒有什麼特殊的，那麼創造和人類同等智能甚至比人類更智能的智能體就是完全有可能的。

當然這需要"捨棄"很多我們自認為值得驕傲，而別的生物不可能擁有的東西，比如情感、靈感和自由意志之類的東西。就像要成為覺悟者需要捨棄很多日常根深蒂固的觀點一樣，比如我們必須接受諸行無常和諸法無我這樣的觀點。

AI科技大本營：作為一個人工智慧的從業者來說，您希望人工智慧可以實現，甚至最終可以製造出和人一樣甚至比人更加智能的機器，如果讓您做一個大膽的預測，那麼真正的人工智慧什麼時候會實現？它的實現有哪些必備條件？

李理：做這樣的預測是很費力不討好的事情，雖然我認為人工智慧一定可以實現，但是我並不關心它是明天就能實現還是一百年後才能實現。你的問題里提到"真正的"人工智慧什麼時候實現，隱含的意思就是現在很多"假的"人工智慧，包括現在很多人也把人工智慧劃分為"強人工智慧"和"弱人工智慧"。我個人不是很認同這樣的觀點，這只是研究的不同方向，而不是"真的"或者"假的"智能、"強的"或者"弱的"智能。我並不認為用大腦下圍棋是比用手撿垃圾更"強"的智能。

即使一定要冒天下之大不韙來預測"人工智慧什麼時候會實現"，我們也需要先對怎麼樣叫"實現"了人工智慧達成一個共識。在大眾的觀點裡，實現科幻電影里的那種人形的機器人就是"實現"了人工智慧，當然它還需要足夠"智能"讓我們分辨不出它是真人還是機器人，因此它必須和人很像，有情感和慾望，比如史蒂文·斯皮爾伯格導演的電影《人工智慧》里的機器人。

如果是這個目標的話，我覺得短期內很難實現。不過難實現的原因是和技術無關的，而是我們不可能讓它出現。這是什麼意思呢？我們先拋開能否實現的問題，自己問一下如果這樣的機器人做出來了我們怎麼對待它們？

對於大部分人來說，機器人就是一種更加智能的工具而已。從石器時代、鐵器時代、蒸汽時代、電氣時代再到現在的信息時代，我們使用更加先進便捷的工具來改變生產和生活。工具的目的是延伸和拓展人類的能力。我們跑得不快，但可以藉助騎馬和開車日行千里；我們跳得不高，更不會飛，但是藉助飛機火箭上天入地。

工具總體來看可以分為兩類：拓展人類體力能力的工具和拓展人類腦力能力的工具。現在很多機械的腦力勞動都可以由計算機完成，但傳統的計算機程序只能幫我們擴充記憶和完成簡單機械的計算。我們有容量更大速度更快的存儲器，可以編製財務軟體來進行財務核算，但卻無法實現需要「智能」才能來完成的事情。

如果是從這個角度來看，實現智能的工具已經成為現實了。比如工廠里以前需要人類靈巧的手才能做出來的東西現在很多都可以用機器來替代，我們家裡的洗衣機、洗碗機和掃地機器人幫我們做了很多家務。

但是我們並不需要它們有情感，否則換位思考一下：它們為什麼願意甘願當牛做馬像"奴隸"一樣伺候我們呢？它會不會在給我們開車的時候威脅我們呢，甚至偷偷按下美國總統的核按鈕呢？這也是很多人擔心人工智慧會帶來災難的原因，打個不恰當的比喻就是奴隸主會擔心奴隸們造反。

這裡就不討論人工智慧的這種風險了，因為我本人對這個問題並不感興趣，或者說我根本不擔心這個問題。

下面這段假想的對話來說明我為什麼不擔心。青年問禪師："如果所有人都去當和尚，人類不就滅亡了？"禪師笑這說："這和"請不在這裡的同學舉一下手"一樣可笑。"

什麼樣的人就會做出什麼樣的"人工智慧"，它只是我們智能和世界觀的延伸而已。因此我覺得短期內，那種具有人類情感的機器人是不可能出現的。

至於說實現需要的條件，也許哪天人類可以"接受"這種"人造"的智能體，那麼就有可能實現吧。我覺得那個時代人類的世界觀和宇宙觀應該經過了一次很大的變化和突破。

AI科技大本營：您在書中還提到了一個有意思的觀點：「研究基礎的行動能力(Robotics)比研究高層的語義更有意義，因為常識來源於此。」您的意思應該是我們對語言的研究的還是表層，這有點像是研究人工智慧時應用層要有成果，最重要的是基礎技術層有所突破，但看上去研究基礎的行動能力並不容易，現在甚至可能都不知道具體從何著手？

李理：我的專業和現在從事的方向都是 NLP，但做得越久我覺得越沮喪。雖然目前的深度學習使得 NLP 更加簡單，在很多任務上的指標也越來越高，但是我個人覺得目前的這些方法都不能真正的解決問題。

拿現在最先進的 BERT 模型來說，它的關鍵是從未標註的語料里學習一個句子的語義表示。它能夠從海量的文本中通過詞之間的共現關係學習到某種程度的"語義"關係，從而能夠把一個句子編碼成一個向量。但它的問題是沒有一個堅實的"根基"。

什麼叫"理解"了一句話？這是一個很難定義的問題。比如有人跟我們說「今天晚上八點會下雨"，那麼我們"理解"了什麼東西呢？

首先，我們需要有時間的概念。由於生物鐘，我們能夠感受時間，並且對於現代社會的人，我們對於時間有一個更細粒度的劃分，有今天、晚上和八點這樣的時間概念。古人可能不能理解"八點"，但他們有類似「戌時」的概念。

其次，這裡隱含了空間的概念，默認就是我們說話所在的這片區域。另外我們還要能夠理解下雨是什麼意思，它可能會淋濕我們的身體。但什麼叫淋濕？是液態的水附著在生物體的皮膚上從而導致這個生物體感覺寒冷和不舒服。什麼叫寒冷？動物在接觸到比它體溫低的物體時產生的一種感覺……這樣的問題可以不斷重複下去，如果用人類的字典或者百科全書來解釋的話最終就會形成循環解釋。

不管人類的知識多麼複雜，但歸根結底都是人類的基本感受。無論最終的概念多麼抽象，比如微積分的概念，它都是一系列其它抽象概念組合起來的，而其它抽象概念又是由另外一些概念組合起來。最終它一定會和我們最基本的某種感受建立起聯繫，也許最下層的聯繫和微積分這個概念需要經過成千上萬個其它概念的連接。

因此從這個角度來說，如果要讓機器"真正理解"語言，我們必須先實現基礎的"人"的能力，比如行走、跳遠等對身體的基本平衡和控制能力。現在的AI只是在研究"大腦"，這當然是人區別動物最重要的特徵之一，但是如果我們連一個基本的動物的能力都實現不了，那麼肯定是不能實現我們期待的人工智慧的。一個人的"大腦"是不能脫離他的身體而存在的，大腦的驕傲或者自卑、高興與悲傷都和整個身體的狀態密切相關。

AI科技大本營：最近，業界已經有深度學習技術的潛力已經抵達天花板？結合您在業界的實踐經驗，你對深度學習技術的未來發展如何看？

李理：我覺得深度學習的技術一直都在穩步的發展，只不過以前大家並不太關注這個領域，所以等到某些突破性的應用如 AlphaGo 或者無人駕駛出現在大家面前時大家會覺得是非常大的突破。

但是如果我們閱讀關於 AlphaGo 以及圍棋的發展過程就會發現它其實也是一點點的進步然後到底某個臨界值，所謂量變引起質變的過程。現在大家關注的多了，就會覺得沒有那麼大的突破。另外一些人為了某些目的過分誇大計算的進展，從而讓大家產生很多不切實際的期望，這也會讓大家覺得現在的發展可能變慢了。

深度學習技術肯定會不斷的發展，我們很多現在使用的方法會被更新更好的方法替代。但是有一點我覺得是不變的，那就是深度學習或者說神經網路它的基本世界觀——聯結主義。

聯結主義認為智能是由簡單單元的聯結和形成的。具體來說，人類的大腦的功能就是由大量簡單的神經元的聯結而實現的。（人工）神經網路最初就是借鑒人類大腦提出的計算模型。神經網路領軍人物之一 Geoffrey Hinton 本人就是研究認知心理學(cognitive psychologist)的，很多網路結構比如卷積神經網路(CNN)，循環神經網路(RNN)都部分的借鑒了人腦的工作原理。不過人工神經網路更多的是從宏觀層面的角度來借鑒人腦，但具體的實現層面更加簡化和關注實用性。它的一個基本觀點其實就是：人腦並不特殊，我們可以從原理上實現和它同等功能的機器，雖然人腦是基於化學的生物的而目前的計算機是基於電子的。

AI科技大本營：《深度學習理論與實戰：提高篇》的謀篇布局是為什麼是按照聽覺、視覺、語言和強化學習四個部分劃分來寫的？

李理：這樣劃分有如下一些原因。

第一，和本書的姊妹篇《深度學習理論與實戰：基礎篇》不同，基礎篇更多的是介紹深度學習的基礎知識，因此是從演算法的角度組織內容，比如有單獨介紹全連接網路、卷積神經網路和循環神經網路的章節。這些演算法雖然各有側重，但在很多具體的領域都有應用，比如卷積神經網路不但是計算機視覺的核心演算法，在語音識別、自然語言處理和強化學習里可以應用。而提高篇會更加深入的研究這些領域怎麼使用深度學習的演算法來達到 state of the art 的效果，因此它的內容是根據聽覺、視覺、語言和強化學習這個四大方向來組織的。

第二，我認為這是智能的層次結構。我們的智能首先體現在感知層面，而人類最重要的感知能力就是視覺和聽覺。視覺和聽覺都是對底層信號的感知，但是相對來說聽覺更"高層"一些(注意是高層而不是高級，我一直不認為智能有什麼高下只分，要想實現真正的智能，必須要底層到高層的統一的智能體)。我這裡說的"高層"指的是聽覺和語言的關係更加密切一些，當然視覺其實也是有很多"語義"的，只不過目前的研究還是在比較淺層的內容。

比如我們現在的演算法能夠識別這是一隻貓，甚至能夠標註出一個像素是不是一個貓的一部分。但是我們還不能識別這種貓的表情——它是高興還是憤怒、它是在爬牆還是在躺著。當然也可以用現在的演算法來做——我們標註數據訓練模型就可以了。但是這樣的表情太多了，標註成本太高，而且人類似乎也不是這樣來了解其它動物(包括其他人)的表情。這裡的"表情"其實也是某種"語言"，這是我們人類給貓的表情打的標籤，我們認為貓很萌，但是在老鼠看來可不是這樣。

視覺和聽覺作為人類與外界溝通最主要的兩種感覺，經歷了長期的進化。大部分動物都有發達的視覺與聽覺系統，很多都比人類更加發達。拿視覺來說，老鷹的視力就比人類發達的多，而且很多動物夜間也有很強的視力，這是人類無法比擬的。但是人類的視覺應該有更多高層概念上的東西，因為人類大腦的概念很多，因此視覺系統也能處理更多概念。比如人類能利用鋼鐵，對汽車有細微的視覺感受，但是對於一條狗來說可能這些東西都是 Other 類別，它們可能只關注食物、異性、天敵等。

聽覺系統也是如此，很多動物的聽覺範圍和精度都比人類高得多。但它們關注的內容也很少，大部分是獵物或者天敵的聲音。人類與大部分動物最大的區別就是社會性，社會性需要溝通，因此語言就非常重要。一些動物群落比如狼群或者猴群也有一定的社會性，像狼群狩獵是也有配合，猴群有嚴格的等級制度，但是相對於人類社會來說就簡單得多。一個人能力相當有限，但是一個人類社會就非常強大，這其實就跟一個螞蟻非常簡單，但是整個蟻群非常智能類似。

作為溝通，人類至少有視覺和聽覺兩種主要的方式，但最終主要的溝通方式語言卻是構建在聽覺的基礎上的。為什麼進化沒有選擇視覺呢？當然有偶然的因素，但是我們可以分析（或者猜測）一下可能的原因。

你也許會說聲音可以通過不同的發音來表示更多的概念，而且聲音是時序信號，可以用更長的聲音表示更複雜的概念。

但這是說不通的，人類能比動物發出更多不同種類的聲音，這也是進化的結果。用臉部或者四肢也能表達很多不同的概念，就像殘疾人的手語或者唇語，或者科幻小說《三體》里的面部表情交流。如果進化，面部肌肉肯定會更加發達從而能夠表示更多表情。

至於時序就更沒有什麼了，手語也是時序的。

當然聲音相對於視覺還是有不少優勢的：

聲音通過聲波的衍射能繞過障礙物，這是光無法辦到的（至少人類可見的光波是不行的）

衍射的結果就是聲音比光傳播得遠

晚上聲音可以工作，視覺不行（其實夜視能力也是進化出來的）

聲音是四面八方的，視覺必須直面（當然有些動物的視角能到 360 度），背對你的人你是看不到他的表情的。

可以做很多分析，但不管怎麼樣，歷史沒法重新選擇，事實就是人類的進化選擇了聲音，因此 Speech 就成了 Language 的一部分了。當然還有一些聽覺的內容，比如 Music，我們可以認為是另外一種語言，它最終的目的還是用於溝通人類的情感，否則即使天籟之音也是毫無意義的。

強化學習和視覺、聽覺和語言其實不是一個層面上的東西，它更多的是和監督學習、非監督學習並行的一類學習機制(演算法)，但是我認為強化學習是非常重要的一種學習機制。

監督學習的特點是有一個「老師」來「監督」我們，告訴我們正確的結果是什麼。在我們在小的時候，會有老師來教我們，本質上監督學習是一種知識的傳遞，但不能發現新的知識。對於人類整體而言，真正（甚至唯一）的知識來源是實踐——也就是強化學習。比如神農嘗百草，最早人類並不知道哪些草能治病，但是通過嘗試，就能學到新的知識。學到的這些知識通過語言文字記錄下來，一代一代的流傳下來，從而人類社會作為整體能夠不斷的進步。

和監督學習不同，沒有一個「老師」會「監督「我們。比如下圍棋，不會有人告訴我們當前局面最好的走法是什麼，只有到遊戲結束的時候我們才知道最終的勝負，我們需要自己復盤（學習）哪一步是好棋哪一步是臭棋。自然界也是一樣，它不會告訴我們是否應該和別人合作，但是通過優勝劣汰，最終」告訴」我們互相協助的社會會更有競爭力。和前面的監督非監督學習相比有一個很大的不同點：在強化學習的 Agent 是可以通過 Action 影響環境的——我們的每走一步棋都會改變局面，有可能變好也有可能變壞。

它要解決的核心問題是給定一個狀態，我們需要判斷它的價值(Value)。價值和獎勵(Reward)是強化學習最基本的兩個概念。對於一個 Agent（強化學習的主體）來說，Reward 是立刻獲得的，內在的甚至與生俱來的。比如處於飢餓狀態下，吃飯會有 Reward。而 Value 是延遲的，需要計算和慎重考慮的。比如飢餓狀態下去偷東西吃可以有 Reward，但是從 Value(價值觀)的角度這(可能)並不是一個好的 Action。

為什麼不好？雖然人類的監督學習，比如先賢告訴我們這是不符合道德規範的，不是好的行為。但是我們之前說了，人類最終的知識來源是強化學習，先賢是從哪裡知道的呢？有人認為來自上帝或者就是來自人的天性，比如「人之初性本善」。如果從進化論的角度來解釋，人類其實在玩一場」生存」遊戲，有遵循道德的人群和有不遵循的人群，大自然會通過優勝劣汰」告訴」我們最終的結果，最終我們的先賢「學到」了(其實是被選擇了)這些道德規範，並且把這些規範通過教育(監督學習)一代代流傳下來。

鑒於其重要性，我決定把強化學習作為一個單獨的部分來介紹。其實我覺得強化學習更重要的用處是在更底層的運動控制上，比如怎麼靈活的控制機械手抓取物體——要實現這個三歲小孩能夠完成的任務其實並不簡單。本來我是想在這裡加入一些 Robotics 的內容，但是由於時間和水平的限制，這一部分內容我還在學習過程中，本著避免不懂裝懂誤人子弟的原則，本書不會加入任何我自己還不理解的內容。但是我覺得這個方向也是人工智慧非常非常重要的部分，而且目前這個方向使用的還是比較傳統的方法，深度學習應該會能發揮更加重要的作用。

AI科技大本營：介紹一下即將出版《深度學習理論與實戰：基礎篇》是一本什麼樣的書（包括內容涵蓋情況，面向的讀者群）？

李理：基礎篇已經在編輯出版中，預計年中可以和讀者見面。

基礎篇的內容不僅包含人工智慧、機器學習及深度學習的基礎知識，如卷積神經網路、循環神經網路、生成對抗網路等，而且也囊括了學會使用 TensorFlow、PyTorch 和 Keras 這三個主流的深度學習框架的最小知識量；不僅有針對相關理論的深入解釋，而且也有實用的技巧，包括常見的優化技巧、使用多 GPU 訓練、調試程序及將模型上線到生產系統中。

本書希望同時兼顧理論和實戰，使讀者既能深入理解理論知識，又能把理論知識用於實戰，因此本書每介紹完一個模型都會介紹其實現，讀者閱讀完一個模型的介紹之後就可以運行、閱讀和修改相關代碼，從而可以更加深刻地理解理論知識。

回顧人工智慧幾十年經歷過的起起落落，希望對人工智慧及深度學習感興趣的讀者通過本書的學習能夠更加理性地看待這個行業，理解人工智慧尤其是深度學習的原理並應用，根據當前的技術現狀合理地應用深度學習去改變人們的工作、生活和學習。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI科技大本營 的精彩文章:

※美亞排名超高的Docker入門書，不止簡單易懂
※推薦系統遇上深度學習，9篇阿里推薦論文匯總！

TAG:AI科技大本營 |