聯想CTO芮勇:我們在人工智慧上是如何轉型和布局的?
雷鋒網 AI 科技評論按:芮勇博士在 2016 年 11 月正式從微軟亞洲研究院卸任常務副院長職務,擔任聯想集團首席技術官、高級副總裁,負責聯想集團技術戰略和研發方向的規劃和制定,並領導聯想研究院的工作。2017 年年底,芮勇博士憑藉對圖像、視頻和多媒體分析、理解和檢索的貢獻當選 ACM Fellow。
在任職聯想 CTO 的一年多時間內,如芮勇博士所言,聯想正在進行「from device/infrastructure only to device + cloud and infrastructure + cloud powered by AI」的轉型。目前聯想研究院在人工智慧的發展上存在哪些優勢,芮勇博士所擅長的多媒體計算領域又將如何與聯想的產品與業務相結合?
雷鋒網 AI 科技評論近期與芮勇博士進行了一次專訪,結合國際計算機學會(ACM)對芮勇博士進行的採訪內容整理成文,並做了不改動原意的編輯和刪減。
您是怎樣進入多媒體計算研究領域的?
在我讀本科和碩士的時候,我的方向是控制理論和大規模系統優化。這些專業知識對我後來在多媒體領域的研究工作,比如「相關性反饋 (relevance feedback)」,神經網路和深度學習等,都發揮了重要的作用。
在伊利諾伊大學厄巴納-香檳分校讀博期間,我開始從事多媒體分析和檢索的研究。那時,互聯網還處於幼年時期,Web 瀏覽器剛剛出現,而搜索引擎還沒有誕生。在那個時代,圖像搜索的概念相當超前。
當時我遇到了一個很好的機會。美國國家自然科學基金會設立並資助了「數字圖書館」項目。我有幸參與其中。我把控制理論,信息檢索和計算機視覺這三個領域融合起來,進行了深入的跨學科研究,最終,我成為第一批基於相關性反饋實現圖像搜索的研究者,為圖像搜索創造了一種全新的模式。「相關性反饋」是一種通過用戶先前的搜索結果和行為模式分析而優化搜索結果的方法。
獲得博士學位後,我開始了在微軟 18 年的職業生涯。在那裡,我繼續從事多媒體分析、理解和檢索,機器學習,計算機視覺和模式識別等領域的研究工作。
現在,作為聯想的首席技術官和聯想研究院的領導者,我將繼續帶領團隊推進多媒體計算的發展,並將最前沿的多媒體研究成果融入到聯想的產品和服務中去。
在人工智慧的研究上,聯想目前取得了哪些進展和應用?有哪些難點和挑戰?
聯想研究院目前已建立了公司級別的人工智慧平台,支持計算機視覺,語音,自然語言理解等領域的研究。
在計算機視覺領域,我們已經取得了顯著進展。比如我們在 2017 聯想 Tech World 上展示了 E-Health。E-Health 是應用於醫學領域的智能醫療圖像輔助診斷解決方案。它集成了前沿的深度學習演算法,依託於擁有強大計算能力的聯想雲平台,凝聚了眾多醫學專家全方位的診療經驗。它一方面在減輕醫生工作量的同時,也可以避免由於醫生疲勞等因素而產生的誤診情況;另一方面能夠智能分析醫療圖像自動為醫生提供輔助診斷的意見。
在 2017 全球肝臟腫瘤醫療圖像分割大賽 (Liver Tumor Segmentation Challenge) 中,E-Health 團隊力壓群雄,奪得冠軍。
我們還研發出融合了先進 slam 技術和計算機視覺技術的聯想第一代晨星 AR 眼鏡和 AR 平台,致力於將 AR 與工業維護、教育、培訓等垂直行業結合。
在自然語言理解方面,聯想發布了旗下首款智能音箱,它可通過語音交互實現選歌播放,天氣查詢,電台收聽等操作,其中的自然語言理解以及會話引擎就是來自聯想研究院的研究成果。研究院為智能音箱提供了多輪、多子域、上下文相關的會話引擎,其交互體驗和準確率均達到了國內領先水準。
在人機交互方向,聯想研究院研發的自動語音識別平台能夠使用戶通過語音完成手機上打電話等基本操作,以及查詢天氣,叫車等基於互聯網的服務。目前該平台已應用在了 Moto 手機的智能語音助手、應用商店等預裝服務中。
還有,我們研發的聯想小樂智能客服解決方案,有機結合人工智慧客服機器人和人工客服代表,實現任何時間、任何地點、以客戶喜歡的多媒體方式(文字,圖片,語音)為客戶提供服務。
從 ACM MM 17 的論文錄用情況來看,視覺依然是多媒體領域的一個重要研究方向。而近年來,計算機視覺與 NLP 之間的結合也越來越豐富。面對這種研究領域間的交叉融合,相較其它企業,聯想具有哪些研發優勢?
是的,計算機視覺與自然語言理解之間的結合越來越豐富。聯想研究院在這方面也取得了不少成果,比如剛才提到的、我們在 2017 聯想 Tech World 上展示的 E-Health。它可以智能分析醫療圖像,並自動為醫生提供輔助診斷的意見。
從技術的角度來說,以深度學習為代表的人工智慧演算法正在並將繼續促進多媒體研究,尤其近期深度學習較好構建了基於多模態 (multi-modality) 的演算法框架,使得跨領域的多媒體數據的有效融合、利用/檢索成為可能。
比如圖像和視頻的描述 (captioning)。幾年前,描述能做的只是給圖像或視頻自動打上標籤 (tag)。而深度學習建立了計算機視覺和自然語言處理之間的連接,可以將零散的標籤變成一句基於視覺內容並且通順連貫的自然語言描述。這是交叉領域的典型應用,不僅需要理解視覺,也要知道如何對自然語言進行建模。
隨著相關領域和硬體設備的進一步發展,圖像/視頻描述甚至將支持一段(多句)關於內容的自然語言描述,也將支持更自然的用戶交互系統;支持的模態 (modality) 也會超越計算機視覺和自然語言處理的範圍,例如,可以導入語音特徵 (voice features), 空間深度信息 (depth feature), 文本特徵 (text features) 等。
聯想在人工智慧的演算法方面有很多投入。聯想研究院人工智慧實驗室研究人員已增加到 100 多位,吸引了全球的頂尖選手加入。
除了演算法,在發展人工智慧方面,不論是大數據、計算力,還是從端到雲,聯想都有很多優勢。
大數據:聯想在大數據上也有非常多的投入。我們是國內最大的製造企業數據集群,擁有超過 12 個 PB+的數據,並且每天還新增 30 個 TB 的數據,處理超過 150 億條的信息。
計算力:聯想擁有強大的運算能力。全球前 500 個超級計算機中有 87 個是聯想的。聯想連續第四次取得 HPC TOP 500 榜單中國第一,全球第二的成績,並以 17% 的增長率成為全球增速最快的 HPC 廠商。目前全球 500 強企業超算系統中,有 87 家採用了聯想的 HPC。
聯想其實對垂直行業非常了解。一個演算法再好,也必須要和垂直行業相結合,這一點也是聯想的優勢。
此外,我們還有從端到雲的獨特優勢。聯想擁有設備入口,能讓設備和服務更好結合。後端又有雲,通過雲,利用人工智慧技術,我們可以更好地了解用戶的需求,從而會把服務做得更好,更貼心,更加個性化。設備、服務、雲三個元素有機結合起來,從而形成一個相互放大的、正反饋的循環。
在研發團隊方面,我們正在大力建設我們的創新軍團。去年底,憑藉在圖像、視頻和多媒體分析、理解和檢索領域的貢獻,我當選了含金量非常高的國際計算機學會(ACM)Fellow,而且是中國大陸首位來自企業的 ACM Fellow。此外,聯想研究院 AI Lab 負責人是原德國人工智慧研究中心徐飛玉博士,歐洲科學院院士漢斯·烏思克爾特博士是我們的首席 AI 顧問。我相信,在眾多優秀人才的努力下,聯想的創新能力將得到極大提升。
您於 2016 年 11 月加入聯想擔任 CTO,在您的推動下,人工智慧在一年多的時間裡成為聯想「設備+雲」、「基礎設施+雲」戰略轉型的重要支撐點。從研發的角度來看,目前聯想重點攻關的人工智慧技術是什麼?有哪些方針與規劃?
技術研發方面,目前,聯想研究院正在計算機視覺、語音、自然語言理解、情景感知、知識圖譜等人工智慧重點技術領域加大研發。
布局方面,聯想和聯想研究院將發力智能設備、智能雲平台和智能服務三個方向。
聯想是非常強大的設備公司,我們將不斷研發新型的智能設備,不僅是傳統意義上的設備,還包括一些能夠跟人緊密相連,能夠拿在手裡,穿在身上的設備。
我們還將大力發展軟體定義數據中心和跨平台的智能雲管理平台,構建更加智能化的數據中心。
此外,我們也建立了公司級別的人工智慧平台,通過這個平台,連接設備和服務,打造垂直領域解決方案,比如剛才提到的智慧醫療,為行業轉型和發展賦能。
聯想目前有三個大的業務結構,一個是 PC、一個是手機,還有一個是數據中心集團。除了將 PC 與手機作為設備入口,數據作為多媒體內容相關演算法的基礎外,從您的角度來看,還能有哪些創新與可能性,以帶動多媒體內容在業務間的應用和落地?
首先,未來的 PC 和手機都會發生變化,在 5G 迅猛發展的今天,我們正在著眼於下一代 PC 和手機的研究,我相信,它們會支持更豐富的多媒體內容和體驗。
此外,聯想研究院一直致力於未來新型智能設備的研發,包括可穿戴設備、AR 設備等。在這些新型智能設備上,我們會融合多媒體技術。比如在 2017 年聯想 Tech World 上展示的 SmartCast+,它是聯想推出的、全球首款擁有物體識別能力、實現 AR 體驗的智能音箱原型。它讓人工智慧從聲音層面擴展到圖像、交互,以及識別的更高層面,極大地豐富了用戶的實際體驗。
說到 AR,現在也迎來了大發展的時期。未來 AR 的形態可能會更加豐富多彩,比如可能有 transparent display overlay, projected display 以及更多的 augmented senses 等。
此外,多媒體內容在垂直行業也會擁有廣闊的應用前景。比如剛才我提到的聯想晨星 AR,在工業維護維修、教育等行業都大有用武之地。
從技術的角度而言,後台訓練平台是提升多媒體內容訓練效率的關鍵。比如我們搭建的聯想公司級別的人工智慧平台,是一個分散式深度學習平台,支持多種開源框架,可實現分散式任務調度,通過多節點並行加速實驗、演算法研究和模型迭代的過程,能夠面向多個 AI 應用。它擁有足夠充分和有效的訓練數據,既包含業內公開的資料庫,也使用了聯想自己積累的大數據。
智能手機是人們消費多媒體內容的主要渠道之一,聯想也是智能手機製造商。根據現有研究和產品開發的進展,您認為未來的智能手機會是怎樣的?
從技術的角度來看,未來,像人工智慧、VR/AR, 5G, 實時翻譯,新電池技術以及全息技術的發展,將深刻改變智能手機和用戶的體驗。
具體而言,無邊框屏 (infinity screen),神經網路處理器 (NPU),以及更多的感測器可能會出現在智能手機上。在感測器方面,手機將會融合生物特徵感測器、深度攝像頭,多攝像頭以及更好的計算機視覺技術。此外,5G 的發展將為智能手機用戶帶來 10 倍帶寬和零延遲。
智能手機的形態也可能會發生大的變化。其中一個可能性是可摺疊手機。比如,2016 年,聯想研究院研發出業界第一個真正的可摺疊手機原型 CPlus 和 Folio。CPlus 可以在手機和腕錶之間轉換形態,而 Folio 則可以在平板和手機之間隨意切換。
聯想正在進軍 AR/VR 領域,比如聯想 VR Classroom 以及迪斯尼和聯想合作推出的《星球大戰:絕地挑戰》AR 設備 Lenovo Mirage。AR/VR 技術已存在了幾十年,為什麼現在這些技術正在走向主流?
是的,AR/VR 技術已經存在了幾十年。但近年來的技術突破,比如光學鏡頭,計算機視覺以及 slam(simultaneous localization and mapping, 即時定位與地圖構建),讓 AR/VR 技術開始加速發展,巨大潛力開始顯現。另外,AR/VR 可以幫助解決很多行業上的痛點問題,也能夠給用戶帶來全新的娛樂體驗。
我個人認為,與 VR 相比,未來 AR 很可能會成為一個更大的、更有前景的平台。尤其是當 AR 與垂直行業結合時,比如教育,培訓以及工業維護等。在聯想 2017Tech World 上,我們展示了聯想研究院研發的晨星 AR(daystAR) 眼鏡原型以及我們的 AR 平台。一位工程師在現場展示了如何利用這些 AR 設備和平台維修出現故障的飛機發動機,生動地詮釋了 AR 技術在垂直領域的廣闊應用前景。
雷鋒網AI科技評論報道。
※除了白皮書和大會刷臉,2018年ICO的七大新趨勢
※通用大踏步前進,2019年推無方向盤自動駕駛服務
TAG:雷鋒網 |