清華大學鄧志東:「特徵提取 推理」的小數據學習才是AI崛起的關鍵
人類是可以進行推理的,只需要從小數據、小樣本中學習,然後用特徵+推理的方法就可以進行可靠的判別,這就是人類舉一反三的能力。
鄧志東
清華大學計算機系教授,博士生導師
2017年7月,北京,清華大學。
天氣一如既往的熱,彷彿要把你的五臟六腑烤乾。
當然,跟氣溫一樣火熱的,還有當下的人工智慧。
在辦公室見到鄧志東教授,也算是踩著點了。因為他剛剛從一個大會上回來,據說為了這次採訪,教授特意要求把自己的發言順序調到了第一個......
鄧教授是一個非常直爽的人。整個採訪過程,熱情周到、快言快語、妙語連珠,完全沒有一絲科學家的「標準」形象。不過,他頭上的光環卻絕對是標準的科學范兒:中國自動化學會智能自動化專業委員會主任、中國自動化學會智能製造專業委員會副主任、中國人工智慧產業創新聯盟專家委主任委員......
本文整體思路脈絡:
▉人工智慧:三起兩落的傳奇
1、感知機和它的致命缺陷
2、人工智慧的第二次高潮和不切實際的幻想
3、現在,正是人工智慧最好的時期
4、從弱人工智慧到超人工智慧,我們還有漫長的路要走
▉任何AI技術,只要達到或超過人的水平,它就具備商業價值
1、支撐無人超市的技術已趨成熟,但商業模式尚未明確
2、至少5大領域已經成熟,但落地之前需要極大的付出
▉ 人類基於「特徵提取+推理」的小樣本、小數據學習
1、下一次的技術突破或爆發,應該具備哪些條件?
2、卷積神經網路的缺陷和解決方案
▉ 代碼開源,反映出AI之下,核心商業思路和模式的全新變革
正文:
人工智慧:三起兩落的傳奇
1956年,以麥卡錫、明斯基、香農和羅切斯特等為首的一批年輕科學家在一起聚會,共同研究和探討用機器模擬智能的一系列有關問題,並首次提出了「人工智慧」這一術語,由此標誌著「人工智慧」這門新興學科的正式誕生。
感知機和它的致命缺陷
「之後的1957年,美國認知心理學家Rosenblatt等首次提出了一種稱之為『感知機』(Perceptron)的人工神經網路模型。主要是基於1943年由美國心理學家麥卡洛克和數理邏輯學家皮特斯提出的MP人工神經元模型進行構建的前饋網路,旨在發展出一種模擬生物系統感知外界信息的簡化模型。『感知機』主要用於分類任務,由此開創了神經網路的第一次熱潮。
「不過當時的感知機是單層的,只有輸出層沒有隱含層。但單層的感知機,有一個先天性的致命缺陷:解決不了線性不可分的兩類樣本的分類問題。而要是加了隱層以後,卻找不到相應的學習演算法。」1969年明斯基等發表了書名為「感知機」的專著,指出了單層感知機的這一局限。
「當時大家都認為感知機沒有什麼前途。」
自此以後,由於明斯基在人工智慧領域的權威性,人工智慧遭遇了第一個低潮,這種低潮幾乎貫穿了整個70年代。
人工智慧的第二次高潮和不切實際的幻想
「到了80年代,美國認知心理學家Rumelhart等提出了BP網路,為帶隱層的多層感知機找到了一種有效的學習演算法,即誤差的反向傳播演算法,也就是我們現在在卷積神經網路中使用的監督學習演算法。其實就是使用Sigmoid函數與雙曲正切函數對經典的MP人工神經元模型進行了改進,但正是這個看似很小的一個突破,卻解決了感知機不能進行學習的致命缺陷。
「再加上1982年美國物理學家Hopfiled提出的反饋神經網路,於是乎,整個80年代,人工智慧又一次迎來了高潮,跟現在真的很像,大家又都一窩蜂的開始搞神經網路。
「此外,當時很多人都在想,如果把人的專家級經驗通過規則的形式總結出來,建立大規模規則庫,然後將規則作為知識進行推理,不就可以解決很多問題了嗎?這樣的前景簡直太美好了!它可以挑選出正確的分子結構,模擬老中醫看病(例如研發中醫診療專家系統),可以模擬專家找石油、找天然氣、找礦石......,總之就是無所不能,可以完全替代人類從事許多工作。典型的代表就是斯坦福大學的費根鮑姆教授,曾因知識工程的倡導和專家系統的實踐,獲得1994年度圖靈獎。」
但問題是:首先,規則很難被總結和歸納,因為人的規則通常是「只可意會不可言傳」。
「就說車輛駕駛吧,開了幾十萬公里的老司機,是不是可以用專家系統來模擬他?用計算機來替代他?顯然不可能。
「人類的駕駛行為,輸入主要是雙眼看到的圖像序列,輸出主要有三個模擬量:方向盤轉角、油門踏板開度和剎車踏板進程,這是一個利用訓練和學習獲得的非線性映射。人在開車行駛過程中看到路況之後,本能就有三個模擬量的自然反應,而這種自然反應是首先通過駕校的監督學習,然後利用試錯式的自我強化學習構建的。要想把其中的規則總結出來,例如對什麼樣的路況輸入,就應該有什麼樣的輸出,說起來容易,實際很難總結出來。而設計出來的規則可能無法真實地反映實際的非線性映射。」
人或機器的學習方法包括監督學習、強化學習和無監督學習。對人來說,在學校里叫監督學習,進入社會就是強化學習,即通過不斷的試錯,成功了有獎勵、失敗了受懲罰,其結果就是每進行一個決策,都是為了使結局成功的概率最大化,由此積累決策或選擇的社會經驗。
「當時,機器推理所依賴的規則都是人為設計的,但是剛才我們也分析到了,其實規則是很難被總結和設計的。人類感知智能中的『規則』都是通過學習構建和精進的,不是人為設計的。因此這個階段的人工智慧,靠設計而非學習獲得規則,前提就錯了。」
其次,當時的人工智慧並沒有解決好數據層到語義層的所謂語義鴻溝問題。
比如我們利用動物的屬性定義根據一系列條件去推斷或識別大象。
「你看,教科書里大象是有定義的,可以用描述性的方法來表示。我們可以通過外形、體重、象腿、象牙、象鼻等特徵描述,用推理的方法就知道這是一頭大象,而不是別的東西。因為人是有這樣的推理能力的,知道象腿是什麼、象鼻是什麼......,這種視覺感知或模式識別能力,對人而言,輕而易舉,但對機器而言,如何進行這種『部件級別』的分割、識別與理解,這在當時幾乎是不可能的,實際也被人為地忽略。
「這樣的事情,實際上機器做不了,它無法感知。它甚至都不知道你說的象牙是什麼、象鼻是什麼,又怎麼可能知道這個是大象呢?
「它沒有識別能力,符號主義的基於規則的知識工程懸浮在『空中』,這是走不下去的。感知問題沒解決,再加上規則本身是人工設計且無學習能力,這是兩個致命缺陷。」
當時全世界都對人工智慧的發展抱以極高的憧憬,認為它可以在很多方面取代人類,也出現了許多瘋狂的計劃。例如當時經濟繁榮的日本甚至搞了一個雄心勃勃的智能計算機國家計劃,即所謂的第五代計算機計劃,立志要研究出世界上最先進的模糊推理計算機,突破「馮·諾依曼瓶頸」,確立信息領域的「全球領導地位」。該計劃雖歷時10年,總耗資8億多美元,但最終還是以失敗而告終。
第二次人工智慧熱潮持續10餘年,只是BP網路和Hopfield網路能力有限,利用規則作為知識進行的推理,卻並沒有感知智能的支撐,最終成為空中樓閣。因此,到2000年左右,人工智慧又進入了一個寒冬。理想和現實的巨大差異,讓人們認識到,當時的人工智慧其實做不了多少事情的。
現在,正是人工智慧最好的時期
「人工智慧的第三次高潮,發端於2006年。
「深度學習的概念由加拿大多倫多大學的Hinton教授等人於2006年提出,主要包括深度卷積神經網路、深度信念網路和深度自動編碼器。尤其是在2012年,Hinton教授與他的兩位博士生在參加ImageNet比賽時,把深度卷積神經網路與大數據、GPU結合了起來。我覺得這是一種歷史的巧合,但最主要的是時代的進步。我們有了移動互聯網,有了雲平台,每天都湧現出海量的大數據。同時也得益於摩爾定律的長期持續作用,尤其是視頻遊戲的超常發展,推動了GPU的快速進步。這三者的結合,似乎產生了一種化學反應。
「從2010年開始,每年都會舉辦一場全球範圍內的機器視覺識別比賽,也就是上面所說的ImageNet比賽。ImageNet 2012分類數據集包括了1,000個物體類別,128萬張訓練圖片,5萬張驗證圖片,10萬張測試圖片,每張圖片上的物體都做了類別標籤。之後用128萬圖片去訓練機器,結束以後讓它去識別沒有參加過訓練的10萬張測試圖片,看它是否還可以識別出來。
「結果,機器不僅辨認出來了,而且比原來的傳統計算機視覺方法準確率提高了10.9%!這麼一個顯著的性能提升和驚人的識別效果,一下子引起了產業界的極大關注。」
在前兩次人工智慧熱潮中,基本上是學術界在玩,而從2013年開始,跨國科技巨頭紛紛開始高強度的介入,產業界逐漸成為全球人工智慧的研究重心,主導並加速了人工智慧技術的商業化落地。例如谷歌提出「人工智慧優先」,藉以重塑企業,而百度也宣稱自己已經是一家人工智慧企業了,等等。
「目前,人工智慧在各方面所取得的驚人效果,都是前所未有的。僅以人臉識別為例,現在的人臉識別準確率已經達到了99.82%,在LFW數據集上超過了人類水平不少,這在以前是難以想像的。
「始自2012年的這次人工智慧新高潮,是一個實實在在的進步,最具代表性的成果就是深度卷積神經網路和深度強化學習等兩個方面。」
強化學習,也稱再勵學習或增強學習。1995年,IBM的Tesauro利用強化學習, 通過150萬局的自弈擊敗了西洋陸戰棋的人類冠軍,儘管這是一個非常簡單的棋類。現在谷歌的DeepMind開發的阿爾法狗,通過將強化學習和深度卷積神經網路有機結合起來,已達到了一個超人類的水平。
這樣的話,它的商業價值就體現出來了,相信隨著越來越多類似技術的發展,AI的商業化之路也會越走越落地。
「包括深度卷積神經網路和深度強化學習在內的弱人工智慧技術,以及它們面向特定細分領域的產業應用,在大數據和大計算的支撐下都是可預期的,起碼在未來5-10年之內都會成為人工智慧產品研發與產業發展的熱點,必將深刻地改變人們的生產生活方式。」
從弱人工智慧到超人工智慧,我們還有漫長的路要走
「但是它們也有自己的缺陷,尤其是深度卷積神經網路。我們為什麼把現在的人工智慧階段稱之為弱人工智慧呢?因為它只能解決一個點的問題,或者只能在一個垂直細分領域應用,才能獲得人類水平。
「因為它需要大數據,只有在一個點上積累足夠多的帶標籤的完備大數據,才能有針對性地獲得成功。就像阿爾法狗一樣,目前只能下圍棋,不能下國際象棋或中國象棋,也不會說話互動(語音識別與合成),也不會談心(情感交流)。目前人工智慧的最大缺陷之一就是能力單一,不能進行多任務的學習。
事實上,利用深度強化學習的阿爾法狗是在進行最優博弈類決策。而決策屬於認知智能,而且它還不依賴於完備的大數據。
「現在的弱人工智慧甚至還不能用同一個模型做兩件事情,而要想讓它具有多任務的學習能力,即把一個垂直的細分領域變寬,這就是所謂的通用人工智慧問題。就像阿爾法狗,如果讓它不僅會下圍棋,還會下象棋,甚至是其他的所有棋類,還會打撲克牌、打遊戲,另外還會語音識別、行為識別、表情識別和情感分析等等,什麼都可以干,那它就真的很厲害了。
如果上述能力都具備的話,也就進入了更高一級的通用人工智慧階段。它的最鮮明特徵就是,利用同一個模型可以實現多任務的學習。
「當通用人工智慧來到之後,也就是說打遊戲、情感分析、股票預測等所有人類的技能都學會了;進一步地,人類的全方位能力通用人工智慧都具有了,那我們就認為,奇點到來了,也就是我們進入到了所謂的強人工智慧階段。
「進入強人工智慧階段之後,機器的智能將會呈指數增長, 智商 遠超人類,這就到了所謂超人工智慧階段。此時人類或會面臨兩個迥異的結局,即要麼永生,要麼滅絕。」
人們有理由擔心,以愛因斯坦146的智商才能提出廣義相對論和狹義相對論,而等到了超人工智慧階段,假如機器的智商達到2000以上的話,這些豈不全變成小兒科了?
其實,阿爾法狗在下圍棋擊敗李世石之前,DeepMind曾讓它通過深度強化學習打視頻遊戲,其中49種視頻遊戲中有29種,經過訓練學習後DQN的水平達到或超過了人類職業玩家的水平,甚至有一種遊戲,DQN的水平是人類的2000多倍。但這並不是特別可怕,因為它只是弱人工智慧,只是在這種遊戲上超過人類很多。
「現在看起來,說對人工智慧的擔憂、恐怖或對人類的威脅還為時尚早。原因是我們目前甚至連通用人工智慧這個階段都還沒達到,只有等到我們跨越弱人工智慧階段之後,那時再來探討這個問題吧。」
任何AI技術,只要達到或超過人的水平它就具備商業價值
支撐無人超市的技術已趨成熟,但商業模式尚待明確
既然是關於人工智慧的採訪,我們也不可避免地提到了當下很多大火的技術和熱點事件。其中,無人超市這個當紅事件肯定不可錯過。
「無人超市裡一個很重要的技術就是計算機視覺識別技術與語音識別技術,從計算能力上來講,是不存在問題的,主要還是演算法選擇上的問題。它現在採用的是身份認證,認證你的身份之後,你買了什麼商品,都給你記錄下來,然後進行移動支付。而移動支付是沒有問題的,早就商業落地了。
「最核心的身份認證,目前最可靠的是多模態的生物特徵識別。不光是人臉識別,還有其他特徵比如指紋、虹膜、行為、掌脈、聲紋等聯合起來。同時進行身份綁定與跟蹤,包括從進店到離店的整個過程。
「總體來看,支撐無人超市的關鍵技術(認證、識別、跟蹤、RFID與支付等)是沒有大問題的,問題只是在於開店方的資源整合能力和商業模式問題。」
中國人工智慧的商業落地速度很快,國外剛有的(例如亞馬遜的無人零售便宜店Amazon Go),我們很快就能實現商業化落地,而且應用場景和市場規模都會做得很大。這一方面得益於政府對「雙創」的大力支持,另一方面也反映了人工智慧應用落地的加速發展。
「不過,中國發展人工智慧的短板也很明顯。一個是原創能力不夠,更多是在進行模仿與跟蹤,涉及前沿探索、基礎模型、關鍵技術甚至是商業模式等大多來自國外,特別是美國、加拿大;另一個是巨頭型的領軍企業較少,較缺乏前瞻性布局、定力和大手筆動作。」
5大垂直應用領域已成為主流,但落地之前需要極大的付出
深度卷積神經網路和深度強化學習,就特定應用場景而言,在完備大數據和超強計算能力的支撐下,這兩種演算法都已經是人類水平了,它們在弱人工智慧產品開發和產業化發展方面,無疑具有極大的商業價值。其中計算機視覺、語音識別、自然語言處理、自動駕駛、大數據分析等至少這5個垂直應用領域,都可以進行細分再細分,並在這些細分領域獲得人類水平的商業落地實踐。
人工智慧產品真正要實現商業落地的話,是需要付出極大代價的。主要體現在如何選擇特定的應用場景以及如何進行大數據的採集、分析與處理上面。大數據的清洗和標籤是需要花費大精力和大價錢的,尤其是對很多細分領域,例如金融科技和人工智慧醫療,那是必須要有該領域或行業頂級專家水平的大數據處理,人工智慧要想超過人類專家,那就必須先要有人類專家水平的完備大數據,也就是必須站在巨人的肩膀上。
就像金庸武俠小說里的大俠一樣,要想成為絕世武功高手,不僅須要有頂尖大師手把手的「監督訓練」,而且還要有之後的自修苦練或左右互博等等「強化學習」,最後才能集大成而縱橫江湖。
人類基於「特徵提取+推理」的小樣本、小數據學習
人類的科技發展史反覆告訴我們,並不是你有多大雄心、投入多少人力物力,就一定會取得多大的技術突破和成功,有時候其實只是一種歷史的偶然和巧合。當然這種偶然也是建立在大量準備基礎之上的必然。
這就是我們常說的,必然中的偶然、偶然中的必然。
下一次的技術突破或爆發,應該具備哪些條件?
「我個人認為,最主要的還是在演算法上面的創新性突破,例如特徵提取+推理的小數據學習演算法。
「深度卷積神經網路,嚴重依賴於大數據(必須是完備的大數據,包括極端與緊急情況下的大數據,否則就不能達到人類水平的泛化能力)。而人類則是可以進行推理的,只需要從小數據、小樣本中學習,然後用特徵+推理的方法就可以進行可靠的判別,也就是人類具有舉一反三的能力。
「比如說辨別飛機。人工智慧要識別出飛機,就必須把全世界所有的飛機照片,各種型號、各種位姿、各種光照、各種背景、各種遮擋等各種情況下的飛機圖片全部給它進行監督訓練,才能依靠分級分層特徵的自動提取精確地識別出飛機來。但問題是,僅僅是搜集全世界全部飛機圖片這一項,就幾乎是一件根本不可能完成的任務。
「但是對人類來說,我們只需要預先看少量的照片或實物,就可以很容易地推斷出其他飛機,並不需要太多太大的數據。這就是人類獨有的能力,即基於特徵提取+推理的小樣本、小數據的學習能力。」
卷積神經網路的缺陷和解決方案
「要解決特徵提取和推理相結合的問題,首先需要明確的是,規則和推理必須是通過學習得到的,同時是建立在已有感知智能突破的基礎之上的,我們不能再走傳統知識工程的老路了。從隱含特徵的學習,到隱含規則的學習,我們需要這麼一個特徵提取+推理的創新性演算法,以便針對小數據學習也能獲得強大的泛化能力。
「首先,現在的深度卷積神經網路,它只能夠做分割與識別,如果有垂直細分領域的完備大數據的話,它甚至可以達到或超越人類的水平。但是它卻沒有語義理解的能力,它只是把對象看成是一個向量。
「比如我們看到一個杯子,我們能知道它就是杯子,也能理解它的內涵和外延,如這個杯子和其他杯子有什麼區別,與其他物體又有什麼不同等等。但是深度卷積神經網路目前無法實現語義的理解,它僅僅是把杯子看成是一個向量或一個符號,所以它沒有太大的感知可靠性。
「同樣,為什麼現在的語音識別還做不到人類的水平?就是因為深度卷積神經網路還沒有語義理解的能力,它只能看清、聽清,而不能看懂、聽懂。」
其次,雖然從理論上講,只要有完備的大數據,弱人工智慧在特定的應用場景就有可能達到甚至超過人類的水平,但要取得完備的大數據,對大多數開放的應用場景,本身就是幾乎不可能完成的任務。這也大大制約了大數據人工智慧的應用和相關行業的發展。另外,拿到大數據之後,還要對它進行清洗、脫敏和做標籤,這同時也是一項巨大的工程,如需要頂級行業專家的高度參與。
很多特定行業的大數據,比如金融大數據、醫療大數據,它的數據來源與處理還必須是專家級別的,並不是隨便一個普通的人就可以給出。這本身是一個需要極大投入的事情。
「第三,深度卷積神經網路是一個全局逼近網路。也就是說,當輸入任何一個樣本時,它的所有連接權都會通過反向傳播發生改變。換句話說,網路任何一個連接權發生變化,都會造成模型的輸出發生變化。實際上這個是不對的,用一句形象的話來比喻就是:結識新朋友,就忘記了老朋友。
「而我們人類就不是這樣的,人類神經元的突觸變化是局部的,不會因為感知一個新的樣本輸入,而改變對一個事物或目標的原有感覺。在這一點上,人類做到了結識新朋友,不忘老朋友。」
其實,除以上說的三點之外,深度卷積神經網路還有其他問題,比如說它是黑箱式的。不管是連接權也好,還是網路結構也好、超參數也好,都是沒有多大物理意義的,是不可解釋的。
通過深度卷積神經網路這四個缺陷的深入分析,就可以大致知道,未來人工智慧的前沿探索應該往哪些方向突破?哪些是值得我們特別關注的?
1)關於大數據依賴的問題。應該發展小樣本或半監督、無監督的學習方法。
2)關於語義理解的問題。要與知識圖譜相結合,與符號主義的知識推理相結合,發展特徵提取+推理的創新性模型。
3)關於局部逼近網路的問題。不能因為一個新的樣本輸入而改變整個網路的連接權,要防止把以前的特徵全部沖刷掉。
4)關於神經網路的黑箱問題。應發展可解釋的深度學習模型。
代碼開源,反映出AI之下
核心商業思路和模式的全新變革
「在人工智慧的一些基礎演算法上,很多企業都已經開源開放,並藉以形成了自己的研發與產業生態。
「像谷歌的TensorFlow、Facebook的 Torch、微軟的CNTK、加州伯克利的Caffe、亞馬遜的MXNet、百度的 PaddlePaddle等,很多深度學習的代碼框架都已經免費向開發者開放。從這個角度來講的話,人工智慧產品開發的技術門檻反而是降低了。很多底層基礎性代碼不用你編了,你只需要在這個開源代碼框架基礎之上,調整相應的網路結構和超參數就行了。
「初創企業不宜去做PR性質的單一基礎性工作,例如單純的演算法刷分等,要專註及深耕細分領域大數據的應用價值,快速找到能夠變現的商業模式!人工智慧晶元創業公司也有類似的情況,應避免與晶元巨頭的正面交鋒。
「大公司軟硬體資源開源開放,雖然犧牲了一部分利益,但是他拿到了你的大數據。他得到了你對他代碼的優化修改或用戶的反饋信息等,而這些對於產品的迭代非常重要,這是花錢都買不到的。這些大數據資源無疑將幫助他們縮短產品的成熟期,從而實現產品性能的快速迭代。」
從以前藏著掖著的商業機密、知識產權,到現在的開源開放,雖然對創業公司而言未必是好事一樁,但這也反映出了在人工智慧的加速發展中,核心商業思路和模式的全新變革。
點擊展開全文
※軟銀董事長孫正義:人工智慧進入了所有產業的中心,未來我們將與機器人共生
※拓撲學與物理學結合,量子計算機正在成為現實
※美國政府否認「口頭批准」超級高鐵,然而馬斯克沒有任何損失
※車企掛名背後,百度通過Apollo拿到自動駕駛數據恐非易事
※當Uber焦頭爛額的時候,它的老對頭Lyft宣布成立無人駕駛部門
TAG:鎂客網 |
※天數智芯斬獲斯坦福大學DAWNBench深度學習推理榜單冠軍
※最新DAWNBench深度學習訓練及推理榜單發布:華為雲和阿里雲分獲冠軍
※紐約大學聯合谷歌大腦提出「COG」數據集,可提高系統的「視覺推理」能力
※紐約大學聯合谷歌大腦提出COG數據集,可提高系統的視覺推理能力
※RM班底劉在石、李光洙全新推理綜藝,加上EXO世勛陣容超華麗
※RM班底劉在石、李光洙全新推理綜藝,加上EXO世勛陣容超華麗!
※《明星大偵探》VS韓綜《犯人就是你》國民主持的隔空推理PK 何炅VS劉在石
※日本昭和時代的「文學良心」松本清張:用推理小說刻畫歷史
※我喜歡的推理小說——東野圭吾篇
※3本邏輯推理性特彆強的推理小說
※劉在石、李光洙出演全新推理綜藝《Busted》,加上EXO世勛陣容超華麗!
※《明星大偵探》VS韓綜《犯人就是你》國民MC何炅劉在石隔空PK推理
※陳舜臣:歷史小說是推理和虛構的混血兒
※中國偵探推理文學在路上
※高智商邏輯推理遊戲:馴犬師的高明手段
※呼延云:科學與邏輯,才是推理小說的核心精神|地壇讀書會
※數學是一門非常特殊的學科,它最核心的學習方法只有兩個字:推理
※普華永道最新圖形推理題
※《推理的女王2》權相佑,崔江姬,寒流中的最強推理組合
※賀小胖的推理小說《靈》