當前位置:
首頁 > 新聞 > 阿里AI Labs王剛:谷歌一個模型解決所有問題是不現實的

阿里AI Labs王剛:谷歌一個模型解決所有問題是不現實的

王剛 CVPR 三篇論文解讀。

新智元專訪

編輯:張易

【新智元導讀】阿里巴巴人工智慧實驗室和它的傑出科學家王剛,一直保持著幾分神秘感。我們專程到杭州對王剛博士進行了專訪。王剛博士認為,谷歌的「一個模型解決所有的問題」是不現實的。他表示人工智慧新硬體和降低智能終端成本、生物認知啟發、量子力學和量子計算機與深度學習的結合是個人感興趣的方向,除了最後一項,其他都是實驗室目前正在研發的。他談到了學術界和工業界研發過程的區別,並介紹了阿里的 AI 人才計劃。為了進一步了解王剛和阿里人工智慧實驗室正在做的事情,我們介紹了 CVPR 2017 上阿里人工智慧實驗室入選的三篇論文,每一篇都有王剛博士的深度參與。

GIF/38K

在德州撲克的賽場上,當有人 All in 時,其實你只有兩個選擇:跟,或者棄。

在國內人工智慧布局的賽道上,沒有誰會選擇「棄」。於是,已經低調成立一年的阿里人工智慧實驗室,在有人宣布 All in的同一天,高調亮相。

這一天出現在大家面前的,除了一台聲線甜美的智能音箱,一位長相甜美的負責人,還有一位年輕的傑出科學家。當你以為這位科學家是其中最不性感的一環時,他卻如此描述自己從南洋理工大學加盟阿里人工智慧實驗室的原因:

「做 C 端的產品,更性感一些。」

王剛,2017年3月加入阿里巴巴人工智慧實驗室,擔任傑出科學家,負責機器學習、計算機視覺和自然語言理解的研發工作。他此前曾是南洋理工大學的終身教授,同時也是人工智慧領域最頂尖雜誌IEEETransactions on Pattern Analysis and Machine Intelligence的編委(Associate Editor),曾多次受邀成為人工智慧頂級學術會議如InternationalConference on Computer Vision的領域主席,在深度學習演算法領域具有深厚的研究積累和國際權威。2016年,他還因在深度神經網路設計上的卓越貢獻,成為當年《麻省理工技術評論雜誌》評選出的10名亞洲區35歲以下青年創新獎得主之一。2005年,王剛本科畢業於哈爾濱工業大學,2010年在伊利諾伊大學香檳分校獲博士學位。

在阿里人工智慧實驗室所在的杭州,王剛博士接受了新智元的專訪。剛見到王剛博士時,我懷著這樣一種想法:既希望他成為我們理解阿里人工智慧實驗室的鑰匙,也希望阿里人工智慧實驗室成為我們理解他的鑰匙。

專訪綜述:一個模型解決所有的問題是不現實的

作為深度學習演算法的專家,王剛博士在計算機視覺和自然語言理解兩大應用領域都做了很多工作。在採訪中,他一方面強調了語音和視覺的結合對於人機交互的意義,認為「語音+ 視覺」是人機交互的未來,並表示實驗室目前也很關注「視覺+文字」這樣的多模態訓練研究熱點;而另一方面,他也明確指出,自己並不認同谷歌提出的「一個模型解決所有問題」,認為在每一個單獨的領域,模型仍然是需要定製化的。

對於深度學習的發展,王剛博士談了幾個他感興趣的方向,由此也能看到阿里人工智慧實驗室的一些研發方向。王剛博士談到了人工智慧新硬體和降低智能終端成本,生物認知啟發,量子力學、量子計算機和深度學習的結合等。王剛博士說,除了最後一項,其他都是實驗室目前正在研發的。

對於從大學教授到企業科學家的身份轉換,王剛博士最大的感覺是興奮和充實,因為他「喜歡落地或者商業化這樣的東西」,而在學校進行這方面的研究「離市場和消費者太遠了」。當然,他也坦言,作為已經在南洋理工大學拿到終身教職的他,目前的工作強度比在學校還是要大一些。

而談到研究環境的差異時,王剛博士指出了兩點:一是學術界的研究由政府投資,肩負著探索知識前沿的使命,需要探索 5 年後可能的技術方向,起到引領的作用,風險同時也不可避免,而工業界需要面臨複雜的、千奇百怪的情況,在落地過程中需要對演算法等進行大量的優化;二是學術界在做研究時首先需要將問題定義清楚,而有一些任務,其實並不容易定義,如計算機視覺的「理解」。工業界更關心的則是做出具體的產品,因此可能更有動力進行相關研發。

在王剛博士談到加入阿里人工智慧實驗室的理由時,我們發現,這確實和阿里人工智慧實驗室將自己定位為提供消費級 AI 產品緊密相關。王剛博士此前在南洋理工大學就領導團隊研發過時裝搜索系統、輔助駕駛系統等密切結合應用場景的系統,且都成功商業化。來到阿里,「發現離消費者這麼近,非常開心、興奮、充實」、「做 C 端的產品,更性感一些」。他表示,自己的夢想和阿里人工智慧實驗室的夢想一樣,都是希望「讓具有人工智慧能力的產品走進千家萬戶,給大眾的生活帶來便利。」

最後,王剛博士透露了阿里人工智慧實驗室的招聘計劃。他表示,從2017年夏季開始,阿里將推出一項 AI 人才的校招計劃,主要面向博士生群體,將涉及到計算機視覺、機器學習、NLP、圖形圖像、語音交互等技術方向。

一人斬獲三篇 CVPR 論文

為了進一步了解王剛和阿里人工智慧實驗室正在做的事情,讓我們首先介紹 CVPR 2017 上阿里人工智慧實驗室入選的三篇論文,每一篇都有王剛博士的深度參與。三項研究分別針對深度學習和計算機視覺所涉及的上下文模擬、場景分割、行為理解等問題提出了解決辦法。王剛表示:「這三篇論文都來自於深度學習中的應用場景,未來或將通過人工智慧實驗室進行落地,例如運用到家庭安全監測場景中」。

Deep Level Sets for Salient Object Detection

結合深度網路的水平集方法在顯著性目標檢測中的應用

簡介:

如圖,a是輸入圖像,b是對應saliency區域的groundtruth,c、d對應使用BCEloss訓練的深度網路和使用水平集方法的效果,e對應論文的方法;可以看到e在分割細節方面和ground truth最為接近,效果更好,在細節方面提升明顯。

顯著性目標檢測能夠幫助計算機發現圖片中最吸引人注意的區域,有效的圖像分割和圖像的語意屬性對顯著性目標檢測非常重要。由南洋理工大學和阿里巴巴人工智慧實驗室合作,共同提出了一種結合深度網路的水平集方法,將分割信息和語意信息進行結合,獲得了很好的效果。水平集方法是處理封閉運動界面隨時間演化過程中幾何拓撲變化的有效的計算工具,後來被用到圖像分割演算法當中。深度學習能夠很好的建模顯著性目標的語意屬性,進而進行顯著性目標檢測,但更多的語意屬性信息導致分割邊界的低層信息不準確。論文巧妙的結合了深度網路和水平集方法(DeepLevel Sets),同時利用圖片低層的邊界信息以及高層的語意信息,在顯著性目標檢測領域獲得了state-of-art的效果。

2. Global Context-Aware Attention LSTM Networks for 3D Action Recognition

將全局上下文注意力機制引入長短時記憶網路的3D動作識別

簡介:

如圖,3D動作識別能夠幫助計算及更好的理解人體動作(最左側的文字),未來可以作為人機交互的一種補充。

3D動作識別能夠幫助計算機更好的分析人的動作以及為多樣化的人機交互提供更多的選擇。一個好的3D動作識別系統需要很好的處理動作在時間(動作需要一定時延)、空間(結構)上的信息。LSTM(長短時記憶網路)能夠很好的建模動態的、相互依賴的時間序列數據(如人的3D動作序列),注意力機制能夠更有效的獲取數據中的結構信息,並排除掉雜訊的干擾。由南洋理工大學、北京大學、阿里巴巴人工智慧實驗室合作,論文結合LSTM和上下文注意力機制,提出了一種新的LSTM網路:GCA-LSTM(Global Context-Aware Attention LSTM);用來建模動作序列中有效的全局上下文信息(時間信息+空間信息),進而進行3D動作識別。同時,論文為GCA-LSTM網路提出了一種循環注意力機制來迭代提升注意力模型的效果。論文方法在3個主流的3D動作識別數據集上都達到了state-of-art的效果。

3. Episodic CAMN: Contextual Attention-based Memory Networks With Iterative Feedback For Scene Labeling

引入迭代反饋的上下文注意力機制記憶網路在場景分割中的應用

簡介:

如圖,這是場景分隔在自動駕駛中的應用,通過對路面場景進行分割,可以幫助無人車分析那部分區域是可行駛區域(如圖粉紅色部分)。

場景分割有著廣闊的應用前景,比如自動駕駛汽車通過場景分割獲取可行駛區域,比如室內機器人通過場景分割獲知室內物體的分布。場景分割對待分割區域周圍的區域以及全局信息有較強的依賴關係,但這種依賴關係是動態變化的(即使同一區域在不同的場景中對周圍信息的依賴是不同的),因此動態的獲知不同區域的依賴關係以及圖像全局上下文特徵的使用至關重要。由南洋理工大學,伊利諾伊大學厄巴納-香檳分校,阿里巴巴人工智慧實驗室合作,論文通過一個可學習的注意力機制網路來刻畫不同區域之間的依賴關係,並獲取包含上下文信息的特徵。進一步,論文通過引入迭代反饋的方式對注意力機制網路的輸出進行調節,以獲得更好的包含上下文的特徵。上述方法在場景分隔任務中獲得了和當前state-of-art演算法相當的效果。

以下是新智元對王剛博士的專訪。

語音加視覺是交互的未來

新智元:王剛博士,咱們的話題不妨從本月初發布的天貓精靈 X1開始。這個項目中哪部分您參與的比較多?

王剛:我 3 月份加入 AI Labs ,很快就深度參與了這個項目。主要是跟演算法團隊一起實現天貓精靈演算法的落地,所以演算法上參與比較多。

新智元:阿里人工智慧實驗室的英文是 AI Labs,為什麼 Lab 用的是複數形式?

王剛:因為 Labs 裡面有演算法 Lab,也有終端的 Lab,等等,阿里人工智慧實驗室是一個航空母艦。

新智元:您認為語音會是下一代人機交互最重要的入口嗎?

王剛:這要看人機交互的發展,我覺得近幾年人機交互應該像人和人的交互一樣,是往這個點去逼近的。人跟人之間的交互,主要是靠語言,再加上視覺,比如去閱讀對方的表情或者各種情緒。我覺得語音肯定是下一代人機交互一個非常主要的部分,同時視覺加上語音會讓這個交互更加高效。所以我認為語音加視覺是交互的未來

從識別到理解,還缺少基礎的一環

新智元:但是對於各種語音助理,有時用戶體驗並不好。這一方面可能有用戶使用習慣的問題——因為語音助理會說話,用戶就願意去問它各種各樣的問題,而目前場景限制其實是必要的。您認為除了這一點之外,智能語音助理想要帶來更好的用戶體驗,技術上還需要哪些突破?

王剛:這是一個很好的問題。我們可以看到,天貓精靈 X1 在很多問題上還是做的比較好的,能夠滿足用戶的很多需求。自然語言理解目前仍然是非常有挑戰的任務。我這裡指的是,對自然語言的理解有時是超出語言範疇的。比如說像網上有一個段子,說有兩種人不能談戀愛,一種是誰也看不上的人,另外一種是誰也看不上的人。如果讓機器理解這兩句話的區別,它首先需要知道這兩種人到底有什麼樣的特徵,這需要多維度的信息。但這樣多維度的信息,目前還沒有被很好的輸入到機器裡面。所以從技術上來講,我覺得一個要做的事情是,怎麼能夠把世界知識以更好的方式表達出來,並且能夠讓機器去理解,去吸收這些知識,並且跟深度學習這樣的技術融合在一起。因為深度學習主要解決的是模式識別的問題。我們以前不能夠很好的表達這個信號,必須要人工去設計特徵來表達,比如像語音、文字或者是圖象的特徵。那麼深度學習要解決的問題,就是能夠讓機器去學習出這種特徵,能夠把這個信號映射到我們預先定義好的一個類上面,標記 Semantic Label,但是從 Label 到理解,我認為缺少「世界知識」這樣一個基礎。人是基於這個知識,然後再基於我們看到的東西,來進行推理和理解的。這一環目前仍然是缺失的,我覺得這是一個技術需要投資的地方。

新智元:您認為世界知識應該主要是由機器學習還是人工來實現呢? 人工的規則在這裡有沒有用武之地呢?

王剛:我覺得兩者都是要有的,因為機器學習現在的主要長處還是在於Supervised Learning。像這種世界知識,我們很難給它提供這麼多的 Label,所以它需要可能一些 Unsupervised Learning、Semi-supervisedLearning 的方式,同時也需要人工去參與。就像小孩一樣,也需要別人把書編好讓他們去閱讀。編好書的過程就是一個知識傳承的過程,是一個世界知識表達的過程,但現在機器是缺少這一塊的。

新智元:我曾接觸過這種語言知識庫填寫的工作。為語言設計一套符號體現,然後通過為詞語(因為詞語是有限的)填寫符號,來表達特定的知識。比如「結婚」一詞,它的符號就會展現出這個行為的「主語」是兩個人,一般是一男一女,在具體的語境中,這個符號也展現出了對於主語的預期。現在較少聽到類似的工作了。這樣基於人工規則和符號系統的方法還會回來嗎?

王剛:我想這樣的任務或者需求肯定會回來的。因為現在學術界關注於剛才所講的識別問題或者映射問題。像 ImageNet 這樣的資料庫比較容易建,把 Label 標好之後比較容易建好,並且大家用著也很方便,學術界就更有可能去做。

但在性能逐漸提升以後,並且工業界也有了更高智能的需求,那麼要更智能的東西,肯定就需要知識表達,所以我覺得這樣的任務或領域肯定會回來,但是它的方法是不是要經過迭代?我覺得是肯定的。因為現在的機器學習,我們是經過了多輪迭代的,所以它是螺旋型上升的。我認為知識表達也會是這樣。

一個模型解決所有問題並不現實,各個領域的模型需要定製化

新智元:作為深度學習演算法領域的專家,您之前的工作既涉及到視覺理解,也涉及到語義理解。現在谷歌提出了「一個模型解決所有問題」的方法,在一定程度上也引起了學界的爭論。您覺得這樣的方法現實嗎?

王剛:我們來看看深度學習最開始提出來的 Motivation 是什麼。它主要針對用人工方法很難去理解信號裡面那麼複雜的東西,你靠人工去設計這個特徵,去表達這個信號,是不太靠譜的。所以我們需要端到端的這樣一個深度學習網路,它能夠從信號裡面自己去發現特徵,讓任務做的更好。它的Motivation 就是這樣的,因此深度學習很大程度上削弱了先驗知識和領域知識的重要性,它更多強調的是Data Driven。

所以我覺得 One Model 的設計可能在各個任務上都能取得還不錯的結果,至於說是不是能夠解決所有的任務呢?我是不認同的。MachineLearning 中有一個理論,是說一個 General Model 肯定不能在每一個單獨的領域上超過為這個領域自己設計的定製的Model,深度學習網路也是如此。比如說我們以前在做計算機視覺的不同任務時,就發現針對不同任務,如果考慮到先驗知識,利用它去更好的設計網路結構,也就是讓網路結構能夠更適應這個任務的特點,那麼它學出來的東西其實會更有效。更不要提語音、文本、圖象,它們之間的差異化要大得多。因此我認為這種模型的設計還是要定製化的。

關於「理解」,將問題定義清楚,是學術研究的前提

新智元:我們會說,在自然語言理解領域,會發生從識別到理解的進化。在計算機視覺領域,會發生從識別到理解的變化嗎?

王剛:你講的理解是指什麼?

新智元:比如說在一個視頻中,能夠迅速檢測到目標,這是識別;判斷幾個檢測目標的關係,這是理解。

王剛:這一塊跟我講的自然語言理解的難點還是有相通之處的,比如我們看到一幅畫:一個公交車站,一個人坐在凳子上,其實人是能夠想像出這個人是在等車,但如果你讓計算機去「看」,他只能做識別。從識別到理解,也是缺了知識的表達,再加上推理。這兩個部分現在是缺的,這是為什麼沒有真正的「理解」或者智能的原因。

這個問題會不會在學術界引起重視呢?我認為大家知道現在缺這樣一個東西,但是會不會去做?我不太確定。因為這個東西確實很難定義。學術界做的東西首先還是要能夠定義清楚的,我們大家去PK 就行了。但是這樣一個更廣泛的任務,很難去定義。而工業界在做具體產品的時候,反而可能更有動力去做。我希望學術界有人能把這個問題定義好,引導這個潮流。

新智元:是的,這個問題我剛才描述的都不是太清楚,確實很難定義。

王剛:對的。而且計算機視覺的「理解」,有很多是跟任務相關的。比如說剛才我講的等車,可能在我的眼睛裡,這個人是在等車;而從警察的眼睛裡看,可能要判斷的是他是不是一個犯罪分子。只有我們先定義好任務是做什麼,才能進行下一步研究。比如我定義這是一個家用機器人,讓它去看這個世界,它的理解就會跟它的任務相關。所以我想,可能還是要在機器人這類東西興起之後,這樣的任務才會受到更廣泛的重視。

新智元:您剛才說到了語言理解+視覺理解。在訓練機器人的時候,是否也可以讓語言的訓練和視覺的訓練同時進行呢?

王剛我覺得正應該這麼做,就像人學習的時候,也是通過多模態來進行學習。語言、圖象還有包括觸摸、氣味等輸入,都是一起進行的,這樣學習會更高效。所以在學術界,我們也看到,今年有很多視覺和文字一起結合進行學習的文章,大家也非常關注這個問題,並且這樣一個浪潮或者熱點會持續下去。

新智元:這也是人工智慧實驗室特別關注的一個部分嗎?

王剛:對技術前沿的東西,我們會持續關注。

感興趣的方向:端上的人工智慧、生物認知啟發、量子計算

新智元:關於深度學習的發展,請您談一下您在哪些方面感興趣吧。

王剛:因為我現在是在人工智慧實驗室做端上的人工智慧。我們希望打造像天貓精靈這樣的人工智慧新硬體。對於我來講,我希望能夠看到神經網路更輕、更快,在端上能夠更好地跑起來。因為兩三年前,大家做深度學習,都要在雲上,基於大量的GPU 來做,提供的也多是雲上的人工智慧產品。現在我們要讓人工智慧走到端。最近兩三年有很多工作,都是致力於讓神經網路的速度更快,從而有可能在端上順暢進行。我還是希望端上能更快一些,畢竟端上的成本還是比較敏感。

另外從研究的角度講,我個人比較期望的還有神經生物領域的一些進展,能夠進一步啟發計算神經網路。我們看歷史上的神經網路,像最初的 CNN,還有最近的 Attention 、Memory,其實都是受生物認知的啟發。這兩樣東西是完全不一樣的,一個是人腦,一個是電腦,但仍然很有啟發性,這就好像說飛機和鳥兒都是有空氣動力學的。所以生物認知上的一些東西還是可以挖掘的,應該能夠進一步啟發我們設計更高效的網路。這是第二點

另外一點,我也比較關注量子力學、量子計算機和神經網路的結合,和深度學習的結合。其實現在已經有一些相關的全新的探索發出來,我也希望看到今年能有更大的進展,因為這樣我們訓練深度學習就會更快,能夠在最短的時間內訓練完。

新智元:阿里人工智慧實驗室會有這幾方面的研究嗎?

王剛:在量子力學方面,還是需要一些設備,但是前面兩項我們實驗室都在研究,在研發。

新智元:終端和雲端有一個協作的問題,如果想提高終端計算能力的話,阿里人工智慧實驗室會不會有自己的智能晶元的研發計劃?

王剛:因為神經網路或者說模型的效果在慢慢收斂,所以我覺得智能晶元未來肯定會越來越流行。但是至於說我們是不是在研發,可能還不太方便披露,現在我們先保留一個懸念吧。

新智元:您以前提到,在南洋理工,你曾經建了一個標準的資料庫,這個資料庫學術界和工業界都在用。結合阿里的優勢,現在實驗室有類似的研究計劃嗎?

王剛:我們有資料庫建設的計劃,我覺得這個資料庫建設肯定是非常有意義的。在阿里,我也在考慮,是不是在一些恰當的問題上,也做一些這樣的資料庫建設。我們在建資料庫的時候,肯定都是只用一些外界都能拿到的數據來建這樣一個資料庫。

消費級 AI 產品,既是個人興趣,也是實驗室的研發方向

新智元:您覺得來到阿里人工智慧實驗室以後,狀態跟之前在大學裡面有什麼不一樣?

王剛:我覺得還是挺興奮的,因為在學校期間,其實我也非常喜歡跟商業化相關的事情。我覺得技術最終還是要轉化成產品才更有意義,因為每個人的興趣愛好不一樣,蘿蔔青菜各有所愛。我比較喜歡落地或者商業化這方面的東西。而在學校裡面有一個問題,就是離市場太遠了,也不知道大家需要什麼,也沒有產品等各方面的相關人士去配合工作。所以到阿里來之後,發現離消費者這麼近,既有天貓精靈 X1 這樣的消費級產品,也有優秀的硬體、產品方面的同事,所以覺得非常興奮,非常開心,很充實。

新智元:那麼工作節奏上呢?

王剛:工作節奏還是要比學校快一些,因為在學校,尤其是拿到終身教職之後,相對而言強度不是那麼大,在公司強度會高一些,因為我們要發產品,產品要打磨,要用很多心思,不過覺得很充實。

新智元:您在這個崗位上有什麼新的夢想?

王剛:我的夢想跟整個實驗室的夢想差不多,都是希望能用人工智慧去 Enable 這些硬體,讓具有人工智慧能力的產品走進千家萬戶,能夠為大眾和消費者都使用,給他們的生活帶來便利,這也是我個人的夢想,希望能夠看到這一天由我們阿里人工智慧實驗室來實現。

新智元:是不是有這樣一種情況,一些學術界可能已經不會太關注的問題,但是在工業界仍然還是難點。比如OCR,學術界已經不再做它了。但實際上在很多場景下仍是個難題。您是否會有類似的感覺?

王剛:是有這樣問題的,學術界和工業界的任務和使命不太一樣。學術界更關注的是探索知識的前沿,創造新的知識。它要解決的問題,應該說是在5 年以後會發生的事情,相當於是引領,需要去探索。它具有風險性,是政府投資的,它要探索 5 年之後哪一個技術方向是可能的,或者哪一個技術方向不可能,它有這樣的任務。工業界界實際上應該在學術界之後,在學術界探索出某種技術,比如 OCR,是可能的。這個東西有可能實現,工業界就去實現落地,在落地和方向之間,肯定有是 Gap 的。比如說學術界最開始做這個題目時,可能做了一個比較 Toy 的 DataSet,他可能沒有考慮到工業界需要面臨的非常複雜的情況。因為它是學者建立的,比如說做 OCR 的研究,他可能會找到一本書,感覺印刷不是特別好,就拿過來掃描一下,作為資料庫。但是在工業界應用的時候,我們就發現會有光照、遮擋等等千奇百怪的情況,這些學者在辦公室裡面是考慮不到的。所以我們在落地的時候不可避免的會遇到這樣的困難,需要花很多時間把演算法進一步優化。大的方向是確定的,但在這個基礎上還要進行很多的優化,讓它落地。

新智元:阿里人工智慧實驗室定位於消費級 AI 產品的研發。這一點和您選擇加入阿里有關係嗎?

王剛:對,我覺得關係挺大的。我剛才講過,以前的人工智慧產品主要在雲上實現,這一塊已經發展比較長的時間了。不管是阿里雲還是亞馬遜雲,上面都有很多人工智慧的解決方案,比如人臉識別、語言識別方面的。但是在端上,還是一個相對空白的市場,並且端上可能會更難一些,因為這個端可以放在不同的環境裡面,不同的場景裡面,並且還要考慮到計算等各方面的制約,所以說挑戰也會更大一些。那麼做C端的產品,其實也更性感一些,所以我覺得這是非常好的、非常有意思的一個機會,也跟我的興趣非常一致。

新智元:消費級 AI 產品,在整個阿里人工智慧戰略裡面的定位是怎樣的?相關的技術是否會開放呢?

王剛:打造下一代的人機交互產品是阿里AI戰略里非常重要的部分。我們的天貓精靈讓消費者覺得用語音交互居然可以做這麼多的事情,很有意思。我們也希望有更多用戶體驗不同的產品形態,來享受這個新技。所以同時我們也是開放的,天貓精靈裡面使用了AliGenie這個第一代中文人機交互系統,它能夠精確的理解用戶的語言,智能的對話,個性化提供用戶需要的服務。我們AI Labs把AliGenie開放給開發者、硬體廠商所使用。我們希望我們的AliGenie能去 Enable 所有的硬體,我們希望讓更多具有人工智慧能力的產品,能夠快速的落地,被消費者所使用。

阿里的 AI 人才計劃

新智元:阿里人工智慧實驗室目前最需要哪方面的人才?

王剛:阿里巴巴目前正在向全球廣泛招募人工智慧方面的人才,從2017年夏季開始,阿里將推出一項AI人才的校招計劃,主要面向博士生群體,,將涉及到計算機視覺、機器學習、NLP、圖形圖像、語音交互等技術方向。

新智元:在人工智慧技術方面,阿里的人才計劃是怎樣的?

王剛:今年3月,阿里巴巴正式啟動代號「NASA」的計劃,面向未來20年組建強大的獨立研發部門,建立新的機制體制,覆蓋人工智慧、機器學習、晶元、IoT、操作系統、生物識別這些核心技術領域。

在人工智慧領域,阿里很多業務都早已實現應用,比如以圖搜圖、活體檢測、阿里小蜜(語音處理),ET醫療大腦、ET工業大腦、無人商店、天貓精靈等均是和人工智慧緊密相關的應用場景,且這些應用的諸多技術均來自於iDST(Institute of Data Science & Technologies)和阿里人工智慧實驗室。

今天的阿里巴巴,處在一個技術創新的臨界點,從工程技術到核心科技的臨界點。阿里擁有十分複雜的業務場景,金融支付、電子商務、物流、新製造、新零售等,必然會存在世界級技術挑戰,而若解決這些世界級難題,必須依靠世界級優秀人才。

基於這樣的背景,阿里今年一方面公布了AIR( Alibaba Innovative Research)計劃,此計劃的重點是推進計算機科學和技術領域內具有前瞻性和開創性的基礎研究工作。同時,致力於推動學術和產業合作,在技術應用上取得實質性突破,建立技術生態系統。「AIR計劃」的目標是讓全世界的科技人才在追逐世界的同時,用科技創造新的未來。

新智元:王剛博士,感謝您接受新智元的專訪。

王剛:謝謝新智元。

【號外】新智元正在進行新一輪招聘,飛往智能宇宙的最美飛船,還有N個座位

點擊閱讀原文可查看職位詳情,期待你的加入~


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

DeepMind最新ICML論文:價值分布方法超越所有傳統強化學習
「爭議」外媒質疑中國人臉識別定罪犯,三項研究看人臉識別技術漏洞
「新智元百人會」七高手縱論人機交互與終端智慧化現狀與痛點

TAG:新智元 |

您可能感興趣

如何使用Hex-Rays API有效解決問題
iPhone改變了我們的生活,但是現在蘋果需要解決一個最大的問題
UNC&Adobe提出模塊化注意力模型MAttNet,解決指示表達的理解問題
蘋果可能會解決MacBook最煩人的問題
UNC&Adobe提出模塊化注意力模型,解決指示表達的理解問題
DIY解決一切 讓你的NoteBook重生
Tripio CEO 沈巍:訂酒店被殺熟 區塊鏈恰好能解決這個問題現狀
經驗:解決Inno Setup 和一些應用程序在Windows 中不能訪問UNC路徑的問題
也許解決了這個問題 iPhoneX就不會放棄屏下指紋解鎖
如何解決Facebook數據泄露問題?靠AI還是靠人?
MSI:RNG暴露出來的五個問題,唯獨這個問題再不解決就該回家了!
Leap Motion 的虛擬穿戴技術,能解決 VR/AR 的硬體問題嗎?
Typora 的一小步,解決了 Markdown 上手不適症的一大步!
SteamVR正在解決低端顯卡支持VR的問題
我用4年時間解決了Python GIL的一個bug……
Google CEO皮查伊給所有人的公開信:用AI 為每個人解決問題
Belle&Sebastian:如何解決人類的問題?
解決碎片化路漫漫,谷歌 Project Treble 目前僅支持這些機型
iPod之父:蘋果應該解決玩iPhone上癮的問題
AlfredoChen:如何看待用經濟、市場原理來解決優質內容的發現問題 一