科大訊飛李世鵬:答AI技術的當下戰局,給AI創業者的九條建議 | CCF-GAIR 2019
雷鋒網按:7月12日-7月14日,2019第四屆全球人工智慧與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智慧與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智慧和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智慧領域極具實力的跨界交流合作平台。
人工智慧發展至今,已經開始走入各類行業,諸如AI+教育、AI+醫療、AI+交通等在當下備受關注。而在人工智慧技術體系中,文本、語音、視覺是當下最火的三大關鍵技術,大數據、物聯網、雲計算又是當下三大關鍵技術體系,各類行業應用也都是基於這些技術進行的應用。
儘管如此,隨著AI越來越深入行業,對算力、演算法的要求越來越高,對計算架構的精準性、穩定性、並發性等關鍵性能要求越來越高,AI究竟會走向何處?
在CCF-GAIR 2019的「中國人工智慧四十年專場」論壇上,科大訊飛集團副總裁兼訊飛研究院聯席院長李世鵬博士發表了《人工智慧技術大規模應用的挑戰和機遇》的主題演講,介紹了當下人工智慧的技術應用和行業布局的機遇和挑戰,並就人工智慧該如何走下去給出了自己的看法。
以下為李世鵬博士的演講全文,雷鋒網進行了不改變原意的編輯:
李世鵬博士,現任科大訊飛集團副總裁兼訊飛研究院聯席院長。他曾是微軟亞洲研究院創始成員並曾任副院長。現任《IEEE電路與系統視頻技術學報》總編輯,在多媒體、物聯網及人工智慧等領域極具影響力,擁有199項美國專利,並發表了330多篇被引用了21020多次的論文(H指數:74)。他培養出四位MIT TR35創新獎的獲得者。李博士擁有中國科大學士和碩士學位、Lehigh大學博士學位,同時也是IEEE Fellow。李博士是(科技部)新一代人工智慧產業技術創新戰略聯盟發起人之一及聯合秘書長,同時兼任深圳市人工智慧和機器人研究院(AIRS)執行院長。
人工智慧的六層分布從數據的角度來看,我們如何將人工智慧分層,我這裡大概分了6層:通知、算知、感知、認知、預知、決知。
其中每向上一層都代表一個更高一個層級的智能,不同層級的智能與大數據的依賴關係有所不同,我們看到其中有知識庫、環境數據、用戶個人數據,這些數據與相應層級間形成一個反饋,在這些數據的基礎上就能達到不同層次的應用。
具體不同層次的人工智慧需要哪些數據如下圖所示。圖中實心綠點表示確實需要這個數據,空心點表示可能會用到的數據。從底層的人工智慧到高層的人工智慧,代表所需要的數據種類和數據量上的跳躍。
今天的人工智慧究竟達到了什麼程度?
下圖中有三條線,綠線是10年以前的人工智慧發展情況,橙色的線是今天人工智慧的發展現狀,到感知智能這一層,我們基本上已經做到可以好用了。
什麼屬於感知智能?具體而言,感知智能包括語音識別、人臉識別、圖象識別,甚至我們把機器翻譯也作為感知智能的一部分。感知智能在我的定義中,它是不提供新的信息的,它只是把信息從一類表達方式轉換成另外一類表達方式。例如,語音識別是把一個語音信號轉換成為一個文本信號,翻譯是把信息從一類語言的表達轉換成為另外一類語言的表達,今天感知智能已經到了從可以使用轉向好用的階段。
認知智能還很遙遠,儘管現在我們在閱讀理解中,在很多其他場景中也會看到認知智能的應用,但是離真正好用還差很遠。預計大概再過10年,真正的認知智能才能達到今天感知智能的技術水平。
從智能到群智:技術融合是關鍵整個AI體系中有很多概念,包括人工智慧、機器人、IoT,以及人和環境。它們相互之間是什麼關係呢?
具體這幾個元素之間的相互作用關係如上圖所示,AI需要機器人或IoT來感測一些現實中的信號,反饋給它,AI處理完後,反過來影響和控制現實生活中的機器人或者其它的設備。人與機器之間的交互通過人機交互界面實現,人與AI之間的交互則是通過人機耦合實現。
每一個部分本身也會形成一個群體。人與人之間的關係形成人類社會;機器人與機器人之間的關係形成機器社會,這還是一個沒被充分挖掘的領域;把所有人工智慧技術融合在一起,就是類人智能。人與機器人聯繫在一起,就形成了物理世界的智能;人與AI聯繫在一起,就形成虛擬世界的智能;AI和機器連接在一起,就形成了機器的智能。
科大訊飛的AI部署:感知智能到認知智能感知智能現在的應用有很多,在實際生活中也已經在發揮作用。以科大訊飛的應用為例,向大家介紹一下現在人工智慧的發展程度。
科大訊飛成名的技術是語音技術,語音技術包括很多方面,包括語音合成、語音識別,訊飛現在的語音識別技術上居於第一梯隊。科大訊飛做語音技術已經有20多年,積累了很多特有的數據。儘管如此,語音技術中要做的工作仍有很多,包括在一些細分領域,例如在人工智慧和機器人領域,要想將這個領域中所有的專業名詞識別得很好的話,本身就是一個很有挑戰性的工作,再加上很多方言、口音。科大訊飛現在至少支持22種以上中國各地方言。我特別自豪的是,我們將中國那些一輩子不講標準普通話的老人的世界打開了,他們今天可以用自己的方言去擁抱最先進的IT技術。
在翻譯領域方面,訊飛的翻譯技術已經可以達到英語六級,今年年底我們將可以達到英語八級。
此外,訊飛在計算機視覺方面也有技術布局,包括OCR技術、人臉識別技術、場景識別技術,甚至在醫學領域的圖象識別,我們已經走在世界前列。
認知智能方面,訊飛在斯坦福的SQuAD競賽中,在很多方面在世界上第一次超過人類的閱讀理解。2017年底訊飛的AI機器人第一次通過了國家醫生資格考試,滿分是600分,360分及格,我們的機器人拿到了456分,超過了96.3%的人類考生。也就是說它如果是一個人類醫生,它是Top 5%的優秀學生。這些都是科大訊飛在技術上進展。
語音合成方面,今天的語音合成不止可以做到自然的聲音合成,還可以做到圖象合成,我們可以把聲音與畫面同步結合起來,這樣就可以有多種應用,例如現在很多地方電視台或網站有用到訊飛的虛擬主播技術,通過自然的表現方式向用戶傳達新聞信息。
下圖是最近幾年科大訊飛在多次人工智慧競賽中取得的一些桂冠。
訊飛技術應用一:語音類產品、硬體技術是一方面,如果我們沒有切實的應用,它就只能停留在技術層面。
科大訊飛在語音和語言處理方面做了很多工作,也把它實實在在落地了,它打破了人與機器之間的交互障礙,也打破了人與人之間通訊的障礙,科大訊飛也注重文化保護、語言保護,世界上很多國家只有語言,沒有文字,包括中國的一些少數民族,他們同樣也沒有文字,也許將來人類沒有人能再聽懂他們講的話,如果機器能夠聽懂,並且會說,這是對文化保護的一個巨大的貢獻。
在人機交互界面方面,今天的人機交互界面不單純停留在人與機器交互的你問我答,還在於它有一定的智能。
科大訊飛的人工智慧技術目前已經應用於客服及其他多種產品服務中,科大訊飛前不久剛剛發布了翻譯機3.0。這款翻譯機可以支持58種語言,同時還支持5種中國方言,支持7種不同的英語口音,包括英國音、美國音、澳大利亞音、印度音等。
很多國家的英語口音很難聽懂,但是機器能聽懂。
此外,科大訊飛還有諸如「聽見」系統(實時轉錄和翻譯)、智能錄音筆、智能辦公本等產品。
此外,科大訊飛現在也在行業領域不斷進行探索。
訊飛技術應用二:AI+教育第一個領域是AI+教育。從古到今,大家最習慣的就是老師在上面講,學生在下面聽,由於老師的資源缺乏,一位老師不可能有那麼多精力給每位學生因材施教。今天我們通過人工智慧的技術,可以做到因材施教。具體人工智慧技術工作流程如下圖:
簡言之,具體分為以下幾步:
首先,我們會採集學生在做作業、做習題、考試過程中的所有數據,我們用掃描的方法將它掃描到計算機中;
同時,我們用到前面提到的科大訊飛的OCR技術,將這些內容數字化;
然後再通過分析系統對題目進行分析,並分析學生在哪一步出了錯,哪個概念不熟悉;
將這些分析結果再反饋到我們為每個學科專門做的知識圖譜中,並在這個圖譜上標記出每位學生對這個學科的哪些知識點是熟悉的,哪些知識點是薄弱的,哪些知識點還依賴於前面某個該學生不熟悉的知識點。
我們為每位學生定製了這樣一個知識圖譜,老師按一個鍵就可以對每位學生實現下發定製化的教學內容,同時可以做個性化的家庭作業。這樣,每位學生就可以只做自己不熟悉的作業,而那些他熟悉的作業就不需要再重複做了。這樣可以為學生省去很多時間,據科大訊飛粗略統計,預計能省去30%的時間,這些時間可以用來學習其它的知識,或者探索其它領域,這就是科大訊飛能夠提供的個性化教育。
訊飛技術應用三:AI+醫療我們知道科大訊飛的語音識別、OCR技術可以很容易把醫生與病人的問診記錄,以及一些過去的醫療記錄轉成文本,數字化,然後通過我們的醫療機器人或智醫助理對這些數據進行分析。
傳統的一個沒有經驗的醫生在為病人看病時,會出現誤診或是第一印象覺得是某個病,就按那個病來治療。我們的醫療機器人不僅可以給出你患某種病的百分比,還可以將這個癥狀的所有可能的病症都為你列出來,並且為醫生提供一些建議,告訴他可能要做怎樣的檢查,引導醫生進行正確的診斷。訊飛的智醫助理已經在安徽落地,成為全國首個智慧醫院中的AI系統。
以上這些是AI在行業中的具體應用,具體AI技術當下面臨怎樣的挑戰?
AI技術當下挑戰:無止境的算力、未知應用場景人工智慧經歷了三個高潮和低谷,到今天進入以大數據驅動的深度神經網路階段,今天很多技術已經可以成熟到放在一個實際應用產品或場景中。
現在有好消息,也有壞消息。
好消息是:基於深度學習的AI在某些領域已經超過了人類,大家在用AI提高工作效率、工作有效性、準確度等方面都很有效。此外,整個工業界也知道AI的好處,現在也有很多Open AI的計算框架,讓不懂AI的人可以用已有的數據做應用和服務。
壞消息是:為什麼AI的發展有高峰、有低谷?有高峰是因為大家對AI的期待太高,今天的AI還不是一個真正意義的智能,它所有的智能仍是基於大數據。如果你從來沒有給它某個方向、某個場景的數據,它永遠無法正確處理此類數據。所以這就造成了在很多關鍵應用領域,例如自動駕駛中的普適安全問題。其實我對這件事情一直很擔心,總有一天它會在遇到一個從來沒見過的場景時無法處理,那時就可能會出事故。
因為我們今天太依賴數據,所以數據成為我們的瓶頸,這在工業界尤其明顯。我們現在特別怕定製一些人工智慧服務,因為你要定製的話,就意味著你要為那個應用去收集、標註很多數據,這個工作量消耗的資源是巨大的。
現在的AI還需要很強的計算能力,多少算力才足夠?沒有人知道。
所以我們最後還是需要有一個新的AI框架,也許我們可以從人的認知過程中吸取一些經驗。
我們可以用一個開放的框架來解決部分問題,科大訊飛應該是中國最早把自己的語音識別的服務開放出來給開發者的廠商,同時今天也有很多開放的軟體、用戶界面、雲服務、用戶數據。新一代人工智慧產業技術創新戰略聯盟一個重要的職責就是促進中國在開放平台方面的建設。
此外,在用戶數據的保護方面,我們需要標準和法律,這是條很漫長的道路。
寫給AI創業者的九條建議作為一個創業者,在人工智慧領域可以做哪些呢?
第一,人才培養和教育,這也許是人工智慧發展過程中的一個很重要的產業;
第二,數據,以前所有的工作都靠手工去做,今天我們可以引入一些AI工具,讓機器來幫助我們做大多容易做的事情,最後剩很少的數據放給人來標註;
第三,算力,到底計算應該放在端上,還是放在雲上,還是一個雲端邊緣計算的優化?AI晶元也許還有很多的機會。
今天大家都在布局AI晶元,但是一個巨大的挑戰是AI的最終框架是什麼,誰也不知道。所以也許今天你做了AI晶元,為某個框架去優化,也許再過兩年就會改變。我們還沒有像英特爾X86這樣的架構能做所有的事情。
第四,人機的有效融合,和諧發展。
現在的大數據、人工智慧還有一些解決不了的問題,在一些關鍵領域,我們如何能讓機器告訴人類,前面我遇到一個很複雜的場景,我沒法處理了,人類是否應該快速介入。由此衍生出一個很有意思的課題,在機器為你推薦的時候,是不是也要給你一個可信度,這樣在可信度低的情況下,人類就把它接過來,避免很多無謂的事故,或者一些大的問題。
第五,政治正確性,很多統計上有意義的事情,也許在政治上並不正確。
第六,系統,我們為什麼解決問題要靠一個單一的信號源?其實把多個數據融合在一起也許是未來之路;即使做語音識別,為什麼只停留在語音信號,為什麼不能把你的口型、體態放進去,把我們的位置信息、時間信息都放進去,把我們知道的更高層次的數據放進去,也許對人工智慧發展有更多的好處。
第七,細節,人工智慧為什麼越做越怕?因為最後都是在細節上,沒有關於某方面的一些細緻的數據,永遠做不到極致。
第八,知識圖譜和大數據,在今天大家都在講知識圖譜和大數據,其實還沒有特別好的框架把這兩者有機結合起來,我們看到很多領域大家已經在嘗試這方面的工作。
第九,AI應用商店,我們知道中美之間很多不一樣的地方在於美國掌握了很多應用生態,例如蘋果應用商店、安卓的應用商店,在今天AI領域中,我們要不要建立一套屬於我們能控制的應用生態?
例如,今天很多人在做智慧醫療,智慧醫療涉及的病種非常多,每家公司不可能全都做到,有沒有一個醫療的統一的框架,大家把自己的能力、技能都放到裡面去,組合在一起,會形成一個更大或者更好、更全面的系統。因而,這也是值得大家關注的一個領域。
「AI投研邦」將在近期上線CCF GAIR 2019峰會完整視頻與各大主題專場白皮書,包括機器人前沿專場、智能交通專場、智慧城市專場、AI晶元專場、AI金融專場、AI醫療專場、智慧教育專場等。「AI投研邦」會員們可免費觀看全年峰會視頻與研報內容,掃碼進入會員頁面了解更多,或私信助教小慕(微信:moocmm)諮詢。
※易控智駕獲6000萬天使輪融資,興韜投資獨家投資
※CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割
TAG:雷鋒網 |