英特爾宋繼強:谷歌華為都砸錢做AI晶元說明機會很大
20萬,這是新智元今天達到的用戶總數。在飛向智能宇宙的旅程中,感謝每一位和新智元同行的朋友。您的關注和支持是「新智元號」星艦永不枯竭的燃料。
20 萬,每一位乘客對我們來說都彌足珍貴。我們希望加深對每一位乘客的了解,懇請您對這份問題不多、且不涉及任何隱私的調查問卷給出寶貴的反饋。
新智元正在舉行評論贈書活動,點擊閱讀原文投票,並留下你對新智元公眾號的建議,贏取《深度學習》免費贈書。
新智元原創
作者:胡祥傑
【新智元導讀】提到英特爾,你還認為只是一家晶元公司嗎? 英特爾現在認為自己更多的是一家數據公司,位於北京的英特爾中國研究院的使命就是處理數據爆炸的問題。令人頗感意外的是,這是一隻以計算機視覺技術見長的團隊,已有10幾年的研究積累。他們另外兩個重要的方向是:機器人技術(無人駕駛和養老機器人)和基礎設施(通訊和存儲)。這三個方向也是英特爾賭注的未來大方向。
在本文中,你將看到:
1. 英特爾中國研究院院長宋繼強講解做AI晶元的「XPU」公司需要具備什麼素質;
2. 英特爾中國研究院院長宋繼強獨家透露英特爾招聘晶元人才標準;
3. 英特爾中國研究院院長宋繼強深度解讀AI時代ASIC、神經元晶元、FPGA這三類根據需求多樣化應運而生的晶元;
4. 英特爾中國研究院認知計算實驗室的主任陳玉榮介紹在計算機視覺上的研究成果和前沿方向;
還有更多……
GIF/38K
在這篇文章裡面,我們將會看到一個與平時出現在公眾眼中不太一樣的英特爾。
2017年7月28日,新智元「AI 盛夏,星艦啟航」閉門論壇在位於融科資訊中心的英特爾中國研究院會議室舉行。本次閉門論壇在新智元創始人楊靜的主持下召開,融科資訊中心的楊海峰總經理、英特爾中國研究院院長宋繼強、英特爾中國研究院認知計算實驗室總監陳玉榮博士、高瓴智成人工智慧產業基金董事總經理魏珂、地平線創始人兼 CEO 余凱、深鑒科技聯合創始人兼 CEO 姚頌、寒武紀科技董事長兼總裁陳天石以及助理來也CEO汪冠春等出席並作分享。
整場活動的主題圍繞「AI晶元」展開,但是我們在英特爾中國研究院的地盤上,看到了晶元以外一個新的英特爾。
英特爾中國研究院其實是計算機視覺的一支老牌勁旅
宋繼強演講的第一句話就是,「今天給大家爆個料,英特爾已經不是一家晶元公司了,我們是一家數據公司。」 但是,對於許多人來說,當天會議現場一個更大的料是,英特爾中國研究院其實是一隻以計算機視覺見長的團隊。
作為英特爾中國研究院的院長,宋繼強告訴新智元,英特爾在軟體演算法上也有非常深厚的積累。具體到人工智慧這一塊以視覺為主。
「我們中國研究院其實做三件事:一個是人工智慧比較通用的演算法,陳玉榮博士他就帶領這個方向。而這條路線又是以視覺計算為主,因為我們強項在這兒,做了十幾年了。具體來說,視覺和人臉技術就是從識別、跟蹤,到表情分析,物體檢測,場景理解等等,怎麼樣去把它們對應到我們的一些硬體形態上,比如說對應到Movidius 上面去,對應到 FPGA 上面去」,宋繼強對新智元說。
英特爾中國研究院認知計算實驗室總監陳玉榮在演講中也提到,研究院主要是做人臉分析,精準識別,物體檢測,DNN的壓縮,以及視頻描述相關的一些工作,這一塊做得還是比較好的。他們與清華大學合作的研究成果RON: Reverse Connection with Objectness Prior Networks for Object Detection 被今年的CVPR接收。研究者包括孔濤、孫富春、Anbang Yao、劉華平、Ming Lu 和陳玉榮。
英特爾中國研究院在做的第二件事是智能機器人技術:一個是硬體系統,採用異構的系統架構,CPU+FPGA再加上一些Asic這些方式,做一個硬體的平台,然後在上面搭建軟體的層次。
宋繼強在接受新智元專訪時表示,機器人技術是人工智慧的集大成者,可以認為是人工智慧「皇冠上的明珠」。他引用 MIT 著名學者羅德尼·布魯克斯的話說,人工智慧領域不要老是糾結於某一個具體的演算法,一定要把它綜合起來看,這個能做成一個什麼樣的系統,能夠產生什麼樣的價值。最近這一波人工智慧浪潮,最有可能產生價值的是兩個點,第一時間點就是五年左右,也就是智能駕駛汽車;第二個點是十年左右,就是做智能養老的機器人。
第三件事是做基礎設施,所有的基礎設施其實是兩樣:一是通訊,一是智能存儲。
不過正如大家所熟知的那樣,英特爾中國研究院還是以「研究」為主要任務,關注3-5年內可以產品化的技術。與在中國擁有3000多人的英特爾研發團隊相比,研究院的人數只有60-70人。5年之外的技術布局,他們會讓大學去做, 尋找合作渠道可以把一些技術轉化成產品。
華為都在做AI晶元,說明有很多機會
宋繼強對新智元說,英特爾在AI晶元上最大的特色是提供端到端的解決方案。他說:「我們提供AI晶元不是說只提供某一個點上的,比如只訓練或者只推理,而是訓練和推導都要兼顧的。因為前端價格便宜,體積小,但是它的量非常大,而且它最大的好處是可以通過前端的很多小的智能設備,把數據帶進來。」
具體來說,他看好FPGA,因為現在很多網路並沒有定型,而是需要經常換,在換的過程中你並不清楚底下有什麼樣的硬體方式最合適,所以在大家紛紛嘗試的時候 ,FPGA 反而在硬體的層面代價比較小,因為不需要等一個完全定義的ASIC出來。我們還屬於這一波人工智慧當中的早期階段,還沒有完全定型,所以你要提供多樣性的解決方案,給多種不同的使用人群去使用。
對於做專用晶元的公司,宋繼強認為要具備三種能力:1.考慮工具鏈怎麼做;2. 有預測能力,因為晶元的產出是一個長期的事;3. 要了解這個專用領域它的一些特殊要求,比如要擁有演算法專家、視頻解碼專家等等。
隨著蘋果、谷歌和微軟,甚至華為都宣布自己在AI晶元上的戰略。英特爾感覺如何?
宋繼強說,現在這些自己做AI的,自己做這些行業的巨頭他都敢於去砸錢做晶元,這就意味著這個行業真的是很有前景。谷歌肯定一般不會看錯,他知道這個演算法很有用,知道這個值得去做晶元。華為也是英特爾很重要的合作夥伴,如果華為確定這個東西值得做,那就說明其實這個我行業其實已經有非常多的機會,不能缺失。
他說:「巨頭砸錢去做專用AI晶元,意味著這個行業很有機會。對英特爾會有一定影響,但是整個市場是變得越來越大了,所以不必擔心。」
院長說,怎樣才算是真正的晶元人才
採訪中,新智元與宋院長聊到了一個很有意思的話題。在招聘晶元研發人員的時候有哪些標準?或者說一個好的晶元研發應該具備哪些能力?
宋院長說,站在英特爾角度來講,其實做晶元研發的人員,要具備晶元設計領域比較長時間的從業經驗,要實際去走過幾次流程:從早期的產品說明、定義到中間的模擬器,然後到模擬平台,再去做測試樣片到調試,並且是要得調試過出問題的晶元才行,然後再跟軟體做適配,最後就是做過量產晶元。
他說:「高水平的晶元研發人員,現在其實國內真的是不多。我剛才為什麼講這麼長的流程,而且這個流程通常走一遍還不行,要兩三輪才算是一個資深的晶元的設計人員。因為晶元有前端設計還有後端設計,前端設計跟功能有關,後端設計跟具體的工藝,跨界有關,甚至是跟你選擇在哪個廠生產有關,所以就是說這些必須是有經驗的人走過之後,他腦子裡整個過程的問題他才知道。如果說是比較年輕的,比如只做前端設計,他可能認為做個晶元就像編的程序一樣,把這些邏輯搞通就行了,但實際上不是的,你放在不同的後端去做,他會產生不同的晶元的問題。這對後面調試這些晶元也會有很大的影響,這些經驗不是說一出學校就有的,而是一定要經過真正做過兩輪以上的這種晶元研發,你才會碰到一些這樣的問題。」
他說,晶元這個行業不是說跳進來就能做的。為什麼中國最多的就是那種做比較簡單的SOC晶元,但是做這種複雜度很高的晶元的公司都在美國。就是美國有這樣的環境讓他去走好多遍,你比如英特爾、英偉達,還有其他這些大公司,他是真的有量產的晶元去反覆的走,每一年都在滾,所以這種工程師他進去以後他就會參與到,他就會學到,研發人員就會學到。如果說是在一個環境裡面這個機會很少,比如說你很少有機會去參與到大規模量產的晶元,那你從哪兒去學這個經驗?
除了在採訪中充滿洞見的分享外,閉門論壇現場,宋繼強院長還進行了長達1小時的演講分享, 他在演講中具體介紹了AI晶元的多種選擇。詳細對比了ASIC、神經元晶元、FPGA等多種形態的晶元優缺點。以下是演講實錄和PPT:
宋繼強:「未來終端數據是石油」,晶元巨頭在轉舵
數據是「未來的石油」未來的各種的技術,包括晶元也好、軟體也好,通訊技術也好,都是為了處理數據。
到2020年,保守估計,全世界會有500億設備互聯。500億設備從數量上看是人所使用設備的10倍,未來的數據來源於各種設備終端。不再靠我們人打電話、玩手機、發郵件這些數據。無人車、智能家居,攝像頭等都在產生數據。我們需要用技術去處理數據這些使其對客戶產生價值。在這個過程中無疑晶元是及其重要的。晶元除了內存在存儲之外,還有各種處理的晶元在去挖掘數據的價值。英特爾的芯處理有很多種類,這麼些晶元是為了幫助這些新的領域實現新的技術突破。
從工業界開始,比較傳統的數據較好去處理,數據來源明確。規格標註都相對來說比較容易獲取。
但是如果說繼續往c端走,去滲透到生活的方方面面對於人工智慧的概念就要放寬,數據的處理是非常多樣化的,除了雲端還有移動的邊緣計算,到我們所說的最後終端領域,其實都需要各種各樣的晶元去加速處理數據。
「ASIC、神經元晶元、FPGA」需求多樣化應運而生的三類晶元
ASIC應該來說是任何要去普遍應用場景裡面最後的選擇,一旦這個場景已經非常的確定,它的演算法也已經穩定下來,而且它的量又夠大,那就是ASIC的天下,比如說我們常見的視頻的編解碼,每一代最後反正都是ASIC。現在你會看到我們做人工智慧,在演算法還沒有完全穩定的情況下,其實我們也有一些ASIC在產生,因為這其實也是在解決能效比的問題。
還有一類是神經元晶元,不是通過傳統指令級的方式,去構建硬體實現某一特定功能。它只是模擬人腦的神經元互相組織,連接的機制,又有計算,又有存儲,存儲裡面又會描述連接的關係,它只是構造了這個硬體的東西實現在這兒,裡面怎麼去慢慢形成不同的功能是要靠訓練出來的,要靠慢慢的訓練才會逐漸形成一塊一塊的,所以它的使用方法是不一樣的。
如果給它做一些比較,這個比較其實有很多種比較的方法,可以先看靈活性,它到底是多任務、多演算法的適應性是高還是低。如果像陳天石總不需要聽這個了,ASIC一旦說我定下來以後,我一般來講很難去改變它裡面有些功能,除非ASIC本身設計就很靈活,它是允許可編程序,否則通常來講ASIC的意思就是說這個晶元固定就是干這個的。FPGA比它要好那麼一些,它底下提供的一些基本的硬體電路,讓你通過一些編碼的方法去隨時可以改變上面的邏輯連接和這些電路底下到底構成的是存儲還是構成了計算,還是構成了IO通訊,所以它是具備可以在一定的現場時間裡面去改變它的功能的這種能力。
舉個例子,在數據中心的應用裡面其實還是挺有用的,淘寶或者京東,咱們玩雙十一什麼這些的時候,你會知道那個時候在接近交易的那種大量人去買單,那個時候對交易時候所必須要的很多的認證,加解密是非常多的需求,平時這個需求不多,平時大家一天24小時都可能需要。那這個高峰期的時候它就可以把原來很多做其他事的FPGA進行支持,就可以響應那麼多的需求,而這個高峰期過去可以把FPGA配上支持其他的功能。
像眾核處理器還有CPU都是偏向通用的,那都是通過指令級去提供硬體的支持功能,所以靈活度最高,幹什麼其實都可以,GPU還是相對來說更希望那些比較規整的數據,同時流過一個執行的步驟,所以它通常稱為多指令的方式去獲取。如果我們做的一個事情經常需要跳轉,經常需要判斷該做A還是該做B還是該做C,這個就不適合讓GPU去做。
從成本層面判斷,部署成本來講主要看雲,一個是成本價格,第二就是要看部署了以後要花多長時間去學習怎麼去用它,還有部署以後相關配套的整個系統的一些開銷,來構造它的IO,構造一些東西,然後還有用電的問題,這都是部署成本。部署成本來講像ASIC這種已經基本固化了一些功能,例如像編碼解碼,你只需要把數據留給它就行了,這邊你送進去編碼好的出來就是原始的圖像,所以這種是使用起來最簡單的。對於上面就是眾核,這個處理器,它的使用的成本其實都是稍微高一些。然後能效比你會看到越是紅的它其實做同樣的一個任務它要消耗的能量,比如說電就會越多,這也是做數據中心的人要考慮的一個指標。對於這幾個領域其實英特爾這種獨立的晶元有這麼幾種,ASIC我們有Movidius是在前端使用的,在數據中心可以用LAKE CREST,FPGA是兩個系列,眾核處理器是XEON PHI。
對於未來我們要去構造一個完整的做一件任務的解決方案的話,實際上來講我分析不外乎兩種情況,一種就是說先講數據處理需求比較傳統的情況,比如是很確定的小的設備,像無人機這種它只需要去檢測有沒有障礙,有沒有人臉,做人臉的拍照或者做人體的跟蹤,實際上它的任務是相對來說比較簡單確定的,它用一個小的CPU+ASIC就可以了。但是如果是複雜應用的例子,像無人駕駛,它有太多的任務要做,既要做外面環境的建模識別做避障,又要做車內人員信息的識別等功能。它肯定是一個異構的多種處理器混合在使用。像精準醫療也是一樣的,假如說我在一個醫院裡上一套系統支持這麼多的科室,又做實驗室數據採集的一些分析,還做基因測序,還要通過人工智慧演算法去自動的讀那些片,X光片,核磁共振片什麼的,那我其實也需要這樣的系統,使用起來的實時性可能就沒有無人駕駛那麼高。
這兩種情況我們就會看到實際上我們怎麼著都會需要異構的系統來去最合理的一個範圍。即使是異構的系統慢慢也會往更高層發展。最開始大家都是在原形階段在試,現在很多在做無人駕駛都是多模塊系統,就是多個板子先連起來把功能試試,這個板子是CPU,那個板子是FPGA,那個板子是ASIC什麼的,如果把它都做在一個半子上,這樣減少成本,也減少之間的開銷。如果再進一步其實就是能夠把它集成到一個晶元的封裝裡面,這樣效率是最高。
SIP也是一個比較高級的技術,在英特爾我們把++至強和FPGA++封裝到一個晶元裡面。兩個不同的功能,一個做多任務的靈活的控制,第二做硬體級別加速低功耗的方案。
人工智慧從技術突破早期階段到經濟正循環的產業升級
而且未來因為我們是說現在人工智慧還屬於早期階段,大家剛剛被技術進步的喜悅所鼓舞,實際上來講現在屬於一個技術主導的階段,在這個解的時候我們可能更多的關注是KPI,具體的技術點到底突破到了什麼程度。人臉識別可以做到多少準確度?表情識別什麼程度,物體檢測什麼程度,場景分析什麼程度,這是具體的一些技術點。學術指標上大家可能在拼,幾個點幾個點在慢慢拼,最後拼到95%以上的那個點就開始越來越強。
慢慢開始我們講要部署,最後你這些技術的升級一定要落到產業升級裡面去,才能變成一個正循環,到這一步的時候其實就是經濟因素在主導,如果差別只是一兩個點其實無所謂,要看整個系統是不是很完整的構造起來,要看系統的運營效率,這種情況下關注構造系統的價格,整體運營功耗,讓普通工程人員去學習,去使用和維護這樣的系統哪個容易,這些都是考慮的因素。
應用場景下的晶元,異構計算、軟硬協同是趨勢
所以在早期來講我們認為在技術因素主導的時候大家就是什麼方便用什麼,CPU、GPU這個連起來最方便,做學術研究最方便,但是真的到了市場因素來主導我去看怎麼樣部署最好的時候大家會去評估到底是怎麼樣一個異構的結合是最好。
為什麼有多種不同的應用場景,無人駕駛是全球大家非常看好的領域,這個領域升值是說會帶來千億級別的市場,所以汽車裡面本身它就要具備很多的硬功能,感測器的融合,建環境的模,並且能夠檢測到異常,所以它本身是一個很強的伺服器,所以以後每一台無人駕駛汽車都是一台伺服器,因為每台車每天會超過4000個GB的數據,這些數據都不可能通過5G來傳輸,所以一定很多數據是在本地處理和分析然後選擇性的往上走,本地你會使用很多技術,超越現代伺服器的技術。
計算你會用到像至強、FPGA這種技術,存儲會用到像 3D XPoint 這種非易失的晶元。做到前端的檢測可能用到Movidius做車內的情況,都有可能,這是一個完全的很綜合的系統。然後雲端,雲端是非常重要的,因為這些車本身它可能只能去發現某一些場景的情況,然後雲端可以幫他去綜合一些他發現的東西或者不是這個車發現的而是別的車重新發現的,在雲端重新升級這個模型,然後再把所有車更新,提高它的能力,所以雲端要不斷地做大量的訓練,去形成新的模型不斷改善前端的能力。
網路也很有用,因為網路側以後不光做數據傳輸,有一個詞叫移動的邊緣計算是5G裡面很重要的功能,就是在前端的接入網這個位置要加入計算能力和加入存儲能力。幹什麼?就是幫助這些連入網路的設備做快速的低延遲的計算和存儲。舉個簡單的例子就是說如果一個車開到一個場景裡面,它可能自己並沒有那個場景的高清地圖或者說附近周圍的車聯網的信息,或者說交通的信息,這些都可以從邊緣計算數據拿到。
所以你會看到這裡面除了我們要使用各種不同的晶元之外,很多情況下最後成功的關鍵是把軟體和硬體協同優化,硬體畢竟我們覺得在AI的這個時代還不太適合做視頻編解碼一樣完整的黑盒子給你,很多時候還要演算法的演進,所以即使定製加速硬體也留有讓軟體做編程式控制制的餘地,所以一流視覺演算法要配合合適的定製加速硬體,這樣才能最好的完成任務。
舉個例子,這個例子是在我們雲端做大規模的晶元和做大規模訓練的晶元,這就是LAKE CREST,它中間的這些是提供運算的,提供了很高的計算密度,同時為這些計算提供快速的內存的反應,這些高帶寬內存其實是另外的晶元,他們把這個封裝在一個技術,這樣他們才能以很高的速度和中間的計算單元通訊。同時你可能也注意到ICL有一堆,這12個ICL也是我們私有的一種協議,去把不同的LAKE CREST晶元可以直接互聯起來,形成12維的超網格,這樣可以很高速的互聯並且構造很大的網路去做訓練,所以它同時要解決計算密度加上高IO速度還有可擴展性的問題,同時到底裡面的演算法怎麼樣,性能什麼樣,是要靠軟體去調優的。也就是在這個上面運行的軟體還是由人工智慧演算法的高手去寫的,但是要能夠了解這樣的硬體能給你提供的加速的性能。因為這個裡面的設計是沒有cache的,這個內存的管理由程序人員或者演算法人員來管理。
還有一個例子,就是至強融合,它實際上是用很多X86的核放在一起,並且給它也加上了一些並行處理加速指令,每一個小的藍色塊實際上是這樣的,有兩個 core 都是X86內核,每個core還有支持矢量運算的VPU,組合在一起形成一個片,裡邊有64個或者72個這樣的片,所以它的可以同時去執行很多個不同的任務,可以把它切成四份,每份干一件事,也可以把它切成兩份,這是由軟體去控制配置的,同時它裡面採用了最新的連接,也可以讓它很容易的連接幾百個節點,而且通訊信息會保持增強。
最後講一個前端的,前段現在其實還蠻稀缺的,它裡面實際上是基於Movidius的晶元,這裡面做三維的查找表,這是做的固化。這些就不是固化,底下這12個是矢量的計算加工引擎,而且為了低功耗,每一個都有單獨的電域,如果你現在不需要這麼多可以關掉6個,純粹是為了前端設備能省電。而軟體上面還是需要做蠻多的工作去把演算法相應的做一些轉化,放到這個上面很好的去分配起來,哪些是用這種靈活的矢量的數據去做,我覺得這個也是一個非常典型的,就是軟硬體協同優化的,而且這種前端的設備是非常多的,我們知道未來真的部署AI的時候,後邊的雲和前邊的設備比可能是1:100設備以上的關係,所以前面的更需要低功耗有能力的晶元,而且這邊需要很多壓縮一些訓練好的神經網路的能力,網路壓縮技術,同時保持很好的識別的精度。
作為英特爾中國研究院認知計算實驗室的主任,陳玉榮也在會場上分享了英特爾在演算法層面,特別是計算機視覺上的研究:
陳玉榮:揭秘英特爾中國研究院在計算機視覺上的前沿研究
陳玉榮:我們先看一看數據,現在大家都知道手機可以拍照,基本上視覺的數據在雲端還有終端上都能計算。整個互聯網上,視頻流量佔據了所有消費者流量的80%以上,而且這個比例還在持續增加。留下一個問題就是,這麼多海量的數據人基本上看不過來,唯一的辦法就是用機器去看,機器看主要就是要採取一些視覺理解的一些技術。
為了解決視覺數據爆炸的問題,實際上我們成立了一個跨多個實驗室的研究規劃,它研究的內容基本包括了視覺理解的每一個方面,還包括一些基礎組件,包括視覺索引等等。
我們英特爾中國研究院在這個規划下面做一些前沿的視覺理解、視覺認知等等工作,目前我們主要涉及三個方面:人臉分析和情感識別;針對視覺識別高效的CNN視覺壓縮;視覺和語言和知識融合。這樣我們不光能夠做人臉檢測、識別物體,還能對物體的關係進行描述,把視覺識別一直到視覺理解對應起來。
下面我介紹一下我們的主要工作。我們對人臉的技術進行了長期的研究,從人臉的識別到性別、年齡、表情識別都有,實際上我們這些演算法上都是我們有自己IP的,然後我們用這些演算法和一些BU合作,來幫助英特爾的硬體、軟體、應用和一系列解決方案。像比如說人臉檢測,實際上它已經在英特爾的顯卡裡面有東西。另外軟體裡面我們有SDK。
另外就是情感識別,實際上情感識別是人工智慧很重要的一塊。對於我們人來說表情是我們表達情感最直接的方式,2015年我們就做了一個演算法,對人臉肌肉的運動和內在交互關係進行解碼。基於這個演算法我們參加了一個會議——有個比賽叫做自然環境下的情感識別比賽,我們獲得冠軍。
去年我們實際上也有開發了一個新的解決方案,採用了最新的設計,它對網路的低層、中層、高層結構進行了設計,最終在一百個團隊裡面獲得了第二名,
當時,我們的演算法是新的,因為第一名他們都是沒有太多的創新,所以我們這個工作實際上被選為最有影響的工作,我們的速度是其他團隊的200倍以上,因為我們本身是一個非常高效的模型,這個就滿足了很多適應性的需求,比如在機器人,在自動駕駛裡面,駕駛艙的乘客還有駕駛員都可以用。
今年的比賽實際上正在進行,我們也參加,它的截止日期應該是在下個月5號,我們也希望有新的技術出來,所以大家可以期待。
另外就是物體檢測這一塊,傳統方法都是基於大數據分析,實際上近年來基於機器學習演算法基本處於一個基本演算法。分兩類,一類是區域演算法,這裡面有一個演算法是我們做的HyperNet,這個工作實際上我們讓BU做了一個開源的代碼叫PVNet,它是基於HyperNet做的標準演算法。
另外一個演算法就是不需要區域的演算法,我們把兩類演算法的一個點結合在一起做了一個新的演算法叫RON,這個工作第一作者是我們英特爾,所有的IP都是使用我們的。
(註:該論文被今年的CVPR錄取。此前新智元曾做過報道:《CVPR清華大學研究,高效視覺目標檢測框架RON》)
RON它實際上是基於一個減速區域網路連接的偵查結構,解決了兩個問題,一個是採用連接的網路來使用在多層佔比目標定位,這樣就在CNN多個方面進行目標檢測。另外採用了接線網路的挖掘演算法,通過這兩個方式來提高它的精度和速度問題。這個是我們最新的一個工作。
當然我們還有別的新工作,目前像谷歌、Facebook都有很重要的網路,我們也有自己的網路,所以希望在這方面拼一把。另外,很重要的一點就是一般的檢測演算法都是基於一個模型去做檢測,我們最近有一個工作,不需要對model,只要有一個少量的標準就可以做一個模型,這個實際上對類別,物體檢測演算法會有一個全新的改變,就是說你可以定製自己的結構,不會依賴於找一個對稱的模型,這樣可以解決一些應用場景的需求。
另外很多網路都有IP的,雖然大家不說但是你在商用會涉及到IP問題,這個會避開IP的問題。
上面是基於我們的演算法做的一個模型,目標是在複雜場景裡面進行多類物品檢測,要實現實時性和準確性的要求。另外一個就是模型壓縮,大家知道深度學習它的精度很高,但是它的複雜性比較高,因為它的模型參數上百萬、上千萬、上億,這樣除了高效的網路結構設計另外就是對模型結構壓縮,這裡我們提出了深度壓縮的解決方案,它可以實現把一個DNS模型轉化成低精度的,實現近百倍的壓縮。
這個解決方案包括三個部分,一個是DNS,主要是優化對DNS的結構。中間是INQ,優化完結構要對它的位置進行壓縮,用二進位表示,這樣我們也是通過一些巧妙的設計,包括一些機制來保證它。最後一個是VLE,可以實現對機器學習的加速。
這個是一個簡單的對比,我們和目前最好的深度壓縮解決方案的比較,實際上它的所有位置都做了硬體。我們實現上百倍的稍微有點損失,但是也是基本上可以達到上百倍的壓縮,如果不損失精度的話差不多也是70倍的壓縮。
我們最後一個方向是做視覺相關的工作,我們在CVPR上面做的工作可以產生對一個短視頻的描述,簡單看一看它的一個例子。這個是一個簡單的視頻,在這個視頻上可以產生一個描述,分為三段:第一段就是穿紅衣服的女士在給孩子們拍照,下面這一段孩子們在接受採訪。另外還有一種方式就是說對於同一個視頻可以產生不同的視頻區域的序列,對於不同的區域序列可以用這個產生不同的描述。這就是我們今年的一個工作。
這個工作不光是在DVC,另外也在深度描述裡面獲得了最好的結果,我們看一看它的一個例子,這是一個Demo,下面的字母都是我們產生的,基本上你看它這個演算法差不多是30幀做一次,而且基本上符合效果。所以這個離我們的水平還差很遠,但是已經可以在一些視頻網站上做一些標註,所以這個還是很重要的設計。
所以簡單的總結一下,我們英特爾研究院實際上正在做一些智能識別和數據處理研究,以應對數據爆炸的挑戰。另外就是我們英特爾中國研究院主要是做人臉分析,精準識別,物體檢測,DNN的壓縮,以及視頻描述相關的一些工作,這一塊我們做得還是比較好的。有好的工作我們希望能夠跟工業界,跟學術界加強合作,能夠把識別率技術進一步發展的更快,幫助大家挖掘視覺信息的價值。謝謝大家!
【號外】新智元正在進行新一輪招聘,飛往智能宇宙的最美飛船,還有N個座位
點擊閱讀原文可查看職位詳情,期待你的加入~
※11 大編程語言薪資排行榜,再不學Python就晚了!
※ACL最佳論文:NLP數據成熱點,哈佛教授獲終身成就獎
※Kaggle實戰分享:谷歌YouTube8M視頻理解技術剖析
※「ACL 2017最佳論文解讀」NLP數據成熱點,哈佛教授獲終身成就獎
TAG:新智元 |
※凱爾特人十連勝,是否說明歐文的帶隊能力就強於詹姆斯呢?
※只是粉絲不喜歡劉憲華被叫大華?劉憲華這個表現說明他也不喜歡
※張雨綺宋慧喬撞臉?我說明明很大不同
※打包將帥?英超諸強中意若日尼奧 切爾西:我買說明書
※美人計|張雨綺宋慧喬撞臉?我說明明很大不同
※資訊:高達潛行者 吉姆III 光束大師板件及說明書
※古天樂宣傳香港電影節,站位說明地位,網友:打敗劉德華拿金像獎
※騎士今天輸球,說明凱爾特人很強,這個隊更強
※外媒:「最後通牒」說明,馬克龍在華盛頓影響力和蒼蠅翅膀一樣輕
※一數據說明凱爾特人防詹姆斯還不如猛龍,東決要涼?科比給出建議
※塔吉克:簡要說明
※《歌手》張韶涵就是跑調了!華晨宇袁婭維及一眾歌手錶情說明真相
※華為拋棄吳亦凡改簽胡歌,華為老公12字說明讓網友大讚
※爆笑趣圖段子:哈哈哈,中國文化博大精深,讓你不說明白哪個加油
※《駒哥傳》細節,馬仔喧囂影響尹媽媽,崩牙駒破口大罵,說明什麼
※只有杜鋒有廣東宏遠球員說明書,他會放棄國家隊主帥回宏遠替尤納斯東山再起嗎?
※趙麗穎一件禮物道就說明和謝娜的關係!謝娜估計也不會給寶寶帶
※英拉現身北京說明了什麼?
※沙漠中的朝聖者 饑荒聯機版蟻師介紹說明
※張藝興為什麼不退出EXO?烏克蘭的照片說明一切!網友:深謀遠慮