科大訊飛執行總裁胡郁:AI賦能,智贏未來
主講人:胡郁 | 科大訊飛執行總裁
整理:張康 俞晶翔
量子位 出品 | 公眾號 QbitAI
4月11日周三晚,北京大學「人工智慧前沿與產業趨勢」第七講,本期科大訊飛執行總裁胡郁的授課主題為「AI賦能,智贏未來」,分享了人工智慧的發展歷史、如何實現人工智慧以及人工智慧的應用落地等相關內容。
講解內容深入淺出,量子位作為獨家合作媒體,為大家帶來詳細課程筆記一份。
課程導師:雷鳴,天使投資人,百度創始七劍客之一,酷我音樂創始人,北京大學信科人工智慧創新中心主任,2000年獲得北京大學計算機碩士學位,2005年獲得斯坦福商學院MBA學位,同時也是「千人計劃」特聘專家。
主講嘉賓:胡郁,科大訊飛執行總裁、消費者事業群總裁、核心研發平台總裁。中國科學技術大學信號與信息處理專業工學博士,教授級高工;國務院特殊津貼專家。自1997年以來一直從事智能語音及人工智慧核心技術研究工作,作為主要完成人參與多項國家863、自然科學基金、省部級等層面重大科研攻關項目,分別榮獲國家信息產業重大技術發明獎、國家科學技術進步二等獎各兩次,並多次榮獲省部級科技獎勵,其在國內外核心期刊和重要國際會議上發表60餘篇學術論文,申請發明專利68項,成果鑒定6項。
人工智慧的發展趨勢
人工智慧是一個歷史很悠久的學科,先講一下把人工智慧的發展趨勢。
內容分為五大部分:what、where、when、how和who,也就是人工智慧的定義、發展、怎樣實現,會怎樣改變生活,以及應該學習什麼樣的技能融入到人工智慧的熱潮中來。
人工智慧的定義
這是一個最基本的問題。
首先,人的智能是怎麼發展的。人在地球上智能的發展經歷了一個漫長的過程:人類從猿人出現在地球上至今大概是兩百到三百萬年,人類具有在以往所有的地球生物的基礎上不斷演變出來的特殊的大腦。
人工智慧也是一樣,人工智慧之前人類已經經歷過很多的時代,比如蒸汽時代,瓦特發明蒸汽機,電力時代,在這個基礎上我們才看到人工智慧的爆發。
再從另外一個角度比較一下人的智能和人工智慧。人類出現的時間是很漫長的,如果你把地球的歷史看做一天,人類的出現時間是在晚上23點59分以後。
人工智慧的發展速度怎麼樣呢?在1946年,美國陸軍研發出世界上第一台數字計算機,這台計算機的出現開闢了一個新的空間,我們稱之為數字宇宙。從產生到今天也只有72年時間,期間人工智慧經歷了多次繁衍,並且現在都已經到了考慮人工智慧會不會替代人類這樣的地步。
人工智慧的發展浪潮
人工智慧到底是由哪些人來推動發展的呢?前幾年有一本書,叫《獨立的大教堂》,揭示了最早出現數字計算機時一些重要的奠基人和他們討論的問題。那個時候人工智慧就已經被提出來。在這本書里,詳細介紹了普林斯頓大學裡有一幫計算機科學家,他們如何建立了第一台民用的數字計算機。這台計算機出來以後,他們把這台計算機的所有技術全部公開,使得當時世界各地包括中國都在仿製計算機。
在這個過程中,有一些人做了突出貢獻:數學家哥德爾,證明了計算的工具能夠完成人類的很多工作;圖靈證明了這個圖靈機的設置,可以通過輸入輸出,怎麼樣執行程序,怎麼樣來進行數學計算;馮諾依曼提出來了馮諾依曼架構,也就是現在講的數據指令和操作指令是分流的;現在的計算機都有CPU有GPU有硬碟,狄德羅作為計算機的祖父,把這第一台計算機給搭出來了(第一台計算機:ENIAC艾尼阿克)。
圖靈和馮諾依曼去世之後,後面的歷史就好像斷片了。
後來在1956年的時候,Dartmouth會議上第一次提出人工智慧的概念,在達茅斯會議中,有一些年輕的研究員,在討論兩個問題:在計算機裡面實現智能化的控制,到底用一個什麼詞來表示?當時有兩個詞備選:一個是人工智慧,另一個是控制論,後來選擇了人工智慧這個詞。
2006年有一張合照,可以看到這裡面所有人都已經是耄耋老人了,裡面有西門子,香農,明斯基等,他們中間有四點陣圖靈獎得主,一位諾貝爾獎得主。
這60年中,人工智慧是怎麼發展的呢?人工智慧不是一次波峰波谷之後就走向實用,它是經歷了兩到三次的時間。
第一次在1950年之後,人們認為人工智慧能夠解決非常非常大的問題,但是實際上,大家非常失望,包括當時的神經網路,當時的神經網路是不能夠解決異或問題的。很快在1980年人工智慧就陷入了一個谷底。
到了1980之後,個人電腦,蘋果公司和微軟公司出現,人工智慧在個人電腦的領域給大家帶來了一種期望。這裡有一個有名的小例子:1984年,喬布斯發布了第一個作品:麥金托什,並在現場講了三分鐘的語音合成技術,讓機器自己說話,當時引起了全場的轟動,但是事實上在後面的幾十年里都沒有投入使用,這說明技術還是沒有成熟。
現在人工智慧那麼熱,而那個時候做人工智慧的都很慘。科大訊飛恰恰是那個時候成立的,並且一直堅持著做了下來。中國在這波浪潮中具備了和美日歐俄這些國家競爭的力量,奠定了這些方面的技術儲備,為中國在第三波浪潮奠定了基礎。
為什麼第二波人工智慧浪潮也失敗了呢?個人電腦雖然更加強大,但是因為沒有網路化,收集不到數據;因為沒有超級計算能力,我們不能用現在正在用的深度神經網路演算法。
隨著互聯網的發展,2000年以後,有一個標誌性事件:將深度神經網路演算法用在語音識別上,取得了比其他任何演算法都要好的效果。在大概2007-2010的時候,又繼續用在圖像識別上。在2006年以後,這樣的一個演算法,配合大數據,產生了意想不到的效果。
對於人工智慧,很多不同人對它的印象不同。工業界和研究界的觀點是:同樣的一個機制和演算法,經過不同的訓練可以做不同的事情,但是在現在這樣一個計算機領域,我們完成不了這樣的事情。
對人工智慧的觀點分歧
我們把像人腦一樣強有力的人工智慧叫做強人工智慧,也叫通用人工智慧。而我們現在研發的人工智慧的程序,不是為了像人類一樣思考,叫做弱人工智慧或者專用人工智慧。人怎麼思考我們到現在都沒研究清楚,我們只是想讓演算法做的事情看起來就像人做的一樣。
比如:人可以把語音轉成文字;訊飛輸入法,也可以做到語音轉成文字。但是,人是可以理解這段話的含義的,但是機器根本不知道這段話什麼意思,只是機器做出來的結果,看起來好像和人做出來的結果一樣。
類似的事情,比如自動駕駛,做數學題,翻譯,每一個都需要一個專用的演算法,而且這個演算法是人想出來的,和人腦的思考方法沒有太大的關係。所以說這樣的智能我們稱為專用人工智慧。我們科學家也還在研究通用人工智慧如何實現。
在社會上就出現了觀點的分歧。很多人說,我們要警惕人工智慧會毀滅我們人類,比如,霍金,埃隆馬斯克,比爾蓋茨,他們說我們人類要非常擔心這一點,不要去放出來潘多拉的魔盒;但是真正的做人工智慧的人,我們都認為現在的人工智慧沒有那麼強,距離通用人工智慧還有一段距離,這時候擔心人工智慧會不會毀滅人類,有些杞人憂天。
還有一個非常重要的問題:是不是人工智慧超過人類就能毀滅人類呢?智能和意識之間是什麼關係呢?如果一個智能沒有意識,他還會做出毀滅人類的事么?
我們一直沒有仔細考慮過這個問題,對於人腦的智能和意識的關係,不管是研究哲學的,心理學的腦科學的,神經科學的,都沒搞清楚人的大腦是如何產生智能和意識的。但是我們知道,在地球上,如果一個東西他的智能越高,他的自我意識就越高。人類是智能和自我意識是最強的,但是在數字宇宙裡面,難道就一定和自然宇宙一樣么?一個人工智慧越強,自我意識就越強么?
先介紹一個人——尤瓦爾赫拉利,著有《人類簡史》《未來簡史》。他的《未來簡史》里有一個觀點:我們將來一定在數字宇宙裡面產生一種東西,它有高級的智能但是不會有自我意識,我們是可以把智能和意識分開的。
比如:打掃家務,這是一件非常痛苦的事情,這是一個意識,那想不想有個東西能夠干所有的家務活,但是又不尥蹶子發脾氣,所以我們希望的其實是有智能,沒有意識,可能會更好。
機器人和人工智慧
還有一個基本性的問題:機器人和人工智慧是什麼樣的關係?機器人是20世紀20年代產生的一個辭彙,當時是機械革命的時候,機械大行其道,大家都開始做機器。但是國家863計劃有一次會議,有位學者提出機器人和機器的關係,和人工智慧的關係。
機器人的定義,是像人一樣能夠感知決策執行的人造的設備或者是程序,人工智慧定義也一樣,沒有什麼區別。
但是他們兩個最大的區別是:機器人是在自然宇宙,現實世界中運作的產品,而人工智慧是在數字宇宙和虛擬世界工作的產品。一個是通過虛擬世界,數字世界中實現,另外一個是在真實世界中實際操作。
人工智慧的現狀
第二個方面講我們比較關心的,人工智慧的現狀如何,到底發展到什麼階段了。
特別是前一段時間,因為AlphaGo戰勝了李世石和柯潔,很多人就發出了這樣的見解說人工智慧全面超越人類。但這種說法是錯的。
下圍棋是一種用運算智能就能解決的問題。所有的棋類,其實就是一種枚舉,如果你把它所有的演算法,所有的做法,所有的計算情況全部都計算清楚,那麼這個棋就不用下了。
人類能記錄下來的所有棋局是多少盤?16萬盤。而戰勝李世石的時候,人工智慧生成了3000萬盤,並且自己記下來,到柯潔的時候它生成了3億盤,它把這3億盤的中間結果以某種形式保存下來。基本上,下過的所有的可能性它都下過一遍,並從中間總結出規律,而且記得住,算得多。所以說在下棋上,人工智慧戰勝人類沒有懸念,懸念是什麼時間能夠戰勝人類。
我們下面看看其他人類的智能,比如說我們人類和動物都有感知智能:我們能夠看到感覺到觸摸到聞到,我們周圍的環境。還有運動智能,雖然我們不知道籃球從空中過來的軌跡,但是人類能用手配合眼睛抓到它。機器人在這兩個方面,雖然還有距離但是正在趕上,並且有一些方面正在趕超。
認知智能
從原始人類開始,不同地區人類發展的差異主要在是否掌握語言。語言有個好處:傳遞信息更方便。
另外一個是八卦,八卦對人類社會的產生是非常非常重要的。要是不能張家長李家短的來聊天議論,人類就會像猩猩一樣。(笑)
還有一個非常重要的能力就是:虛擬的概念,有宗教,有公司這樣虛擬的概念。
我們總結一下,認知智能,就是通過語言語義理解,到最終複雜的決策。科學家也把人類發生在智人身上的這一場重要的革命叫做認知革命。
我們可以從這張圖上看出,機器天生的就在運算智能上比人和動物要先進,而感知智能和運動智能,機器和人類都有,但人類具有獨有的基於語言的認知智能。
小時候有一篇課文,《烏鴉喝水》——烏鴉把小石子填到杯子里,就能喝到裡面的水了。還有更聰明的,烏鴉喜歡吃核桃,然而自己又開不了核桃所以很痛苦。但是烏鴉發現,汽車能把核桃壓開,然後烏鴉就知道把核桃扔到路中間讓汽車去壓然後去吃。但是烏鴉很快又發現如果奮不顧身去吃就會被汽車壓死,然後又發現,要把核桃扔在紅綠燈前面,而且要等紅燈亮的時候才能去吃。
這個例子說明烏鴉很聰明,但是如此聰明的烏鴉,也無法明白人和其它生物做的這些的目的,以及人造物體裡面的屬性,也不知道天上月亮是一個運行的天體。因此,在認知上動物只有簡單的認知能力,沒有人類那麼高級,計算機的AI就卡在這個認知能力上面。
人工智慧如何實現
我們知道人工智慧的定義,發展的階段以及目標,但是人工智慧該怎麼實現呢?在第三次人工智慧浪潮的時候,我們發現有幾百種演算法,但當前最有效的只有一個演算法:深度神經網路。
深度神經網路
深度神經網路是目前工業界實現人工智慧所用的最廣泛的演算法之一。在圖像識別、語音識別、自然語言處理,還有很多其它方面,都發揮很大作用。
但是這種深度神經網路的運行方式,和我們大腦裡面的神經網路沒有一點關係。人類可以通過少量樣本學習到很多知識,而深度學習要識別某一個物體,比如挖土機,就需要幾十萬甚至幾百萬挖土機不同方向的照片。
深度神經網路的這個性質運用了現代計算機的運算智能。憑藉算得快存得多,給計算機看大量的照片,這個網路就能記下來。比如為了實現語音的智能,我們需要10^11個語音樣本去更新模型裡面10^7個參數,而且需要迭代10^9次,這需要超強的運算能力。所以現在的深度神經網路,人們正在不斷深入的推廣到圖像,語音,自然語言理解等更多的方面,希望它能解決更多的問題。
全腦模擬
另外一個實現人工智慧的途徑是全腦模擬。例如,美國在奧巴馬時期「大腦活動圖譜計劃」,歐盟的「人類大腦項目」,以及中國正在醞釀啟動的「中國腦計劃」。
有人提出設想,能否使能模擬天氣和核聚變的超算,來模擬愛因斯坦的大腦861個神經元的鏈接和拓撲結構,通過光成像或大腦冷凍起來切片技術記錄下來,同時用功能性核磁共振(FMIR)和正電子CT(PET/CT)將大腦活動時的血液和交流模擬出來。
用超級計算機模擬一個大腦的東西,這樣不久可以得到一個人工智慧嗎?如果模擬的足夠像,不就是愛因斯坦的大腦嗎?這種方式,我們既得到了智能也得到了情感。
最近在這個領域有一本書,叫《連接組》,裡面提出了一種假說,如果把人類腦袋裡面所有神經網路復現出來,就能造出另一個你,這就像「電子永生」,拋棄肉體,將思想保存在數字宇宙中去。
但如果僅僅做到這點是無法超越人腦的,因為這種方式也會複製人腦的缺點,比如人腦的體量限制,神經元間連接的限制。於是我們提出了第三種實現人工智慧的方案,智能動力學。
智能動力學
在我們人腦的研究中,是否需要去模仿一個全部的人腦,我們有沒有可能找到人腦中間的小樣本學習,遷移學習,聯合學習的方法,從而製造出超越人腦的超腦,而這正是我們研究組現在的研究內容。
還有一點,人腦和大腦是不一樣的。有一本書《On Intelligentce》中提及一個例子,人腦的工作,人腦分為概念層,比如貓的概念會和很多感知層的概念混合在一起,提及貓,你的腦海裡面就會映射出關於貓的外形,叫聲和柔軟的毛,這是一種綜合的映射。但是我們現在關於圖像,語音,觸覺的研究是分開的,並沒有整合在一起,這一點說明人工智慧在智能動力學方面還有很大的提升。
三大弱人工智慧法寶
在工業界,有三大弱人工智慧法寶:深度神經網路,大數據和漣漪效應。
其中,漣漪效應是什麼呢?首先提一個悖論:人工智慧需要不斷的學習,這樣才能變得足夠好使得能夠被大家使用。這裡面有一個問題,我們傳統中使用一個產品,這個產品如果不好用,就沒人會去用,這就意味著收集不到數據,而數據是優化的關鍵,系統不優化就導致性能得不到改善,如此產生惡性循環。
而漣漪效應就是可以建立一個良性循環,首先將一個產品在小範圍內擴散時進行優化,邊優化邊擴散,等擴散到更大範圍的時候,系統的性能也就提升不錯的程度了。
訊飛的語音識別
在2010年,訊飛將實驗室使用的語音識別搬到了手機上,做了一個免費的手機輸入法——訊飛語音輸入法。這個輸入法一開始的語音識別率是55%,經過一些用戶的深度地使用,使得這些使用過程中產生的數據回到實驗室,借這些數據進行系統的自我學習和改進,等到了有3000萬用戶的時候,我們的識別率已經有了87%,有一個億用戶的時候是93%,現在我們已經有了4到5億的用戶,識別率是98%。我們就採用了這種漣漪效應的方法。
目前現在碰到的一些困難,我們在感知學習中用到了機器學習的方法跑的比在認知智能上快。
最近語音和圖像識別中的研究進展很快,但自然語言理解現在還沒有本質的突破。我們也想藉助大數據來理解人類的話,但是發現一個尷尬的事實:人學習語言,是不需要識字的,人類不會用文字去描述常識,但是對機器來說沒有「常識」這個概念。
這些常識是沒有用文字語言表達出來的,這樣機器就無法藉助大數據學習到。人獲取常識是藉助於一次又一次的實踐,而機器可能要綜合視覺、聽覺、觸覺才可能學到這種常識。這是一個挑戰,也是我們正在努力攻克的難點。
關於常識的獲取上,我們要實現機器學習的認知革命。2014年,提出了一個「訊飛超腦」的計劃:用現在大數據人工智慧的方法去實現認知智能的突破,讓機器能聽,會說,能理解,會思考。其架構就是有Neural Thinking Machine, Neural Expressing Machine 的認知智能和有 Neural Viewing Machine, Neural Reading Machine, Neural Listening Machine的感知智能。
通過這個架構,我們在2016年參加的語言識別方面最高級別的比賽CHiME中獲得第一,比上次比賽中整體提高了100%。在國際上語音合成最高賽事Blizzard Challenge中,我們從2006年開始,已經連續12年保持冠軍。
這充分證明,中國在這麼多年的積累後在人工智慧方面取得了不錯的成績。在知識圖譜競賽中,我們打敗了由美國國防技術規劃局(DARPA)資助的隊伍,獲得了第一名。在由斯坦福大學發起的閱讀理解(SQuAD)大賽中也獲得了第一名,成為中國本土研究機構首次獲得該賽事的榜首。與此同時在圖像識別這塊,有個醫療影像的資料庫LUNA,是關於肺部肺結節的資料庫,在這個資料庫上,我們達到了94%的正確率,現在也是處於最高的水平,這種檢測技術,可以提高醫院檢測肺結節的準確率。
AI+
第四個方面講關於AI+。人工智慧只做兩件事,一是與人交互的能力,二是專家系統。
從交互的角度來講,人與機器的交互一開始是打孔,隨後有了鍵盤和字元的顯示DOS界面,接著是滑鼠和圖形界面,再後來是觸摸界面,更進一步的發展最有可能是語音交互,因為人類的輸出信息90%靠語音。
反過來,機器輸出信息的主要方式是顯示屏,而人獲取消息的主要方式是眼睛,所以人能理解顯示器裡面的消息,那麼機器接受消息最便捷的方式是什麼呢?以前是鍵盤,現在是機器剛剛能聽懂我們的語音,這就構成了一個工程上的閉環:機器有顯示屏,人類可以獲取顯示屏承載的信息,人類用語音輸出,機器用語音接收。
這種閉環,我們稱之為基於視覺呈現的語音交互,所以在人工智慧時代下,我們推出了基於視覺呈現的語音交互的AIUI。一開始就支持全雙工,方言識別,遠場降噪,有主動式對話,語種自適應,多模態交互,個性化識別等能力。
2010年建立了一個訊飛開放平台,現在有60多萬開發者,同時也做出了一系列產品,例如訊飛語音輸入法,靈犀,配音閣,訊飛翻譯機等等。
從專家系統的角度來講,智能學習顛覆了行業發展,行業裡面最寶貴的是專家,由專家製作出來的大數據,和人工智慧演算法是最重要的。
人們常說互聯網和人工智慧都是比較重要的,其中互聯網,雲計算,大數據,人工智慧共同解決了我們在需求側和供給側的問題。比如在北京有一個老專家,有了互聯網,即便不去北京,我們也在通過互聯網在外地進行看病,但看病人數有限,而人工智慧可以學習到老專家的技能後,就可以解除看病人數的限制,這解決了看病的需求供給問題。
中國就是憑藉專家系統製作了自動語音評測系統,從而可以進行普通話和英語口語考試的系統,還有智慧公檢法,公共安全,智慧城市領域都佔有一席之地。在將來,機器人將逐步替代人類的普通技能,人工智慧讓機器人獲得頂尖專家的知識,從而達到一流專家的水平,這對行業是有很大衝擊的,那些技能簡單的行業一定會消失,而那些需要創造性的行業將會進行逐步擴大。
Q&A
你對中美的人工智慧發展趨勢上你持什麼觀點?
以前有人問,中美的差距在4-5年,你怎麼看?我說誰說中美的差距在4-5年,我們沒有說過。在這裡想引用阿里巴巴王堅的說法:中美在技術上的差距,可以說3個月,也可以說有30年。為什麼呢?只要斯坦福、哈佛、MIT把技術創新做出來,3個月之內,中國的教授肯定能做出來;但是只要美國人不做,30年之內,中國都沒法做出來。
所以其實中美之間的差距在於原創性、自主性,這跟我們的教育有關係。但是中國在落地的方面,解決實際問題的方面,有自己獨到的東西,在應用創新上中國很強。
AI時代,To B 和To C上,會有什麼聯繫,未來會怎樣?會不會有很多企業從To B可以逐漸轉型成To C?
公司業務是To B 還是 To C,是很重要的。資金在消費者這裡,距離消費者越遠,錢會越少,但是,直接To C的公司,不一定能做得很大。為什麼一些To B的廠商會比較大,是因為錢是從消費者這邊流出來的,但是錢被很多家To C 的企業分,那麼錢就會流到後面的To B 的廠家。
但是不同的生態系統不同,人工智慧是一個新的生態,會產生什麼新的情況我們也還在研究中。
下期預告
4/18下周三晚18:40,北京大學「人工智慧前沿與產業趨勢」第八講,將由今日頭條人工智慧實驗室主任李航為大家授課。
感興趣的小夥伴可以添加量子位小助手6:qbitbot6,備註「北大」,通過後可進入課程活動群,獲取每期課程信息,與其他小夥伴互動交流。
祝大家聽課愉快~
—完—
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
※與神經網路相比,你對P圖一無所知
※史上規模最大的無人車道德研究:人們更傾向犧牲乘客而非行人
TAG:量子位 |