信通院AI白皮書:硬核乾貨一文打盡,從技術流派到應用趨勢
智東西(公眾號:zhidxcom)文 | 十四
自2016年AlphaGo擊敗李世石之後,人工智慧(AI)這個再度翻紅的科技熱詞已經在爭議聲中走過了兩年多。這兩年里,從一鍵美顏、刷臉開機,到編輯快訊、演唱會抓逃犯,人工智慧正在突破次元壁,落地現實。
人工智慧的戰略重要性不僅吸引了科技巨頭和資本的瘋狂投資,養活了一眾創企,更是得到了各國頂層支持。
我國繼去年7月發布了《新一代人工智慧發展規劃》,11月公布了首批國家人工智慧開放創新平台名單之後,工信部本周三又公示了2018年人工智慧與實體經濟深度融合創新項目名單(覆蓋106個項目)。
本期的智能內參,我們推薦來自中國信息通信研究院和中國人工智慧產業發展聯盟的人工智慧發展白皮書(技術架構篇),從產業發展的角度,分析技術現狀、問題以及趨勢,盤點智能語音、語義理解、計算機視覺等相關應用。如果想收藏本文的報告(信通院-人工智慧發展白皮書2018),可以在智東西公眾號回復關鍵詞「nc285」獲取。
以下為智能內參整理呈現的乾貨:
AI技術流派
讓機器實現人的智能,一直是人工智慧學者不斷追求的目標,不同學科背景或應用領域的學者,從不同角度,用不同的方法,沿著不同的途徑對智能進行了探索。其中,符號主義、連接主義和行為主義是人工智慧發展歷史上的三大技術流派。
符號主義
符號主義又稱為邏輯主義 ,在人工智慧早期一直佔據主導地位。
該學派認為人工智慧源於數學邏輯,其實質是模擬人的抽象邏輯思維,用符號描述人類的認知過程。早期的研究思路是通過基本的推斷步驟尋求完全解,出現了邏輯理論家和幾何定理證明器等。
上世紀 70 年代出現了大量的專家系統,結合了領域知識和邏輯推斷,使得人工智慧進入了工程應用。PC 機的出現以及專家系統高昂的成本,使符號學派在人工智慧領域的主導地位逐漸被連接主義取代。
連接主義
連接主義又稱為仿生學派 ,當前佔據主導地位。該學派認為人工智慧源於仿生學,應以工程技術手段模擬人腦神經系統的結構和功能。
連接主義最早可追溯到 1943 年麥卡洛克和皮茨創立的腦模型,由於受理論模型、生物原型和技術條件的限制,在 20 世紀 70 年代陷入低潮。
直到 1982 年霍普菲爾特提出的 Hopfield 神經網路模型和 1986年魯梅爾哈特等人提出的反向傳播演算法,使得神經網路的理論研究取得了突破。
2006 年,連接主義的領軍者 Hinton 提出了深度學習演算法,使神經網路的能力大大提高。2012 年,使用深度學習技術的 AlexNet模型在 ImageNet 競賽中獲得冠軍。
行為主義
行為主義又稱為進化主義,近年來隨著 AlphaGo 取得的突破而受到廣泛關注。
該學派認為人工智慧源於控制論,智能行為的基礎是「感知—行動」的反應機制,所以智能無需知識表示,無需推斷。智能只是在與環境交互作用中表現出來,需要具有不同的行為模塊與環境交互,以此來產生複雜的行為。
在人工智慧的發展過程中,符號主義、連接主義和行為主義等流派不僅先後在各自領域取得了成果,各學派也逐漸走向了相互借鑒和融合發展的道路。特別是在行為主義思想中引入連接主義的技術,從而誕生了深度強化學習技術,成為 AlphaGo 戰勝李世石背後最重要的技術手段。
深度學習一招翻紅
可以說,本輪人工智慧的發展,是在大數據環境和計算能力大幅提升的基礎上,由深度學習帶動的。
深度學習全稱深度神經網路,本質上是多層次的人工神經網路演算法,即從結構上模擬人腦的運行機制,從最基本的單元上模擬了人類大腦的運行機制。目前,深度學習已經在計算機視覺、語音識別、自然語言理解等領域取得了突破(詳情參考第209期智東西內參)。
深度學習已在多領域實現突破
深度學習分為訓練(training)和推斷(inference)兩個環節。訓練需要海量數據輸入,訓練出一個複雜的深度神經網路模型。推斷指利用訓練好的模型,使用待判斷的數據去「推斷」得出各種結論。
大數據時代的到來,圖形處理器(GPU)等各種更加強大的計算設備的發展,使得深度學習可以充分利用海量數據(標註數據、弱標註數據或無標註數據),自動地學習到抽象的知識表達,即把原始數據濃縮成某種知識。
基於深度學習的人工智慧技術架構
當前,基於深度學習的人工智慧演算法主要依託計算機技術體系架構實現,深度學習演算法通過封裝至軟體框架的方式供開發者使用。
軟體框架是整個技術體系的核心,實現對人工智慧演算法的封裝,數據的調用以及計算資源的調度使用 。為提升演算法實現的效率,其編譯器及底層硬體技術也進行了功能優化。
深度學習技術體系概述
人工智慧演算法的設計邏輯可以從「學什麼」(表徵所需完成任務的函數模型)、「怎麼學」(通過不斷縮小函數模型結果與真實結果誤差來達到學習目的)和「做什麼」(回歸、分類和聚類三類基本任務)三個維度進行概括。
人工智慧主要演算法分類
近年來,隨著AI演算法在多領域的突破,相關演算法的理論性研究持續加強,新演算法如膠囊網路、生成對抗網路、遷移學習等,也被不斷提出。
人工智慧新演算法
下文將概述圍繞深度學習的五方面技術現狀和發展趨勢。
大佬開源造生態
如前所述,軟體框架是整個技術體系的核心,是演算法的工程實現。當前,人工智慧基礎性演算法已經較為成熟,各大廠商紛紛發力建設演算法模型工具庫,並將其封裝為軟體框架,供開發者使用。
企業的軟體框架實現有閉源和開源兩種形式:蘋果公司等少數企業選擇閉源方式開發軟體框架,目的是打造技術壁壘;目前業內巨頭基本都是基於自身技術體系的訓練及推斷軟
件框架,將開源深度學習軟體框架作為打造開發及使用生態核心的核心。
人工智慧開源平台對比(援引招商證券)
總體來說開源軟體框架在模型庫建設及調用功能方面具有相當共性,但同時又各具特點。業界目前主要有深度學習訓練軟體框架(TensorFlow、MXNet等)和推斷軟體框架(Caffe2go等)兩大類別。
當前開源軟體框架的技術發展呈現出以下幾方面的特點:
1、谷歌與其他公司間持續競爭。巨頭公司在技術上將積極探尋包括模型互換,模型遷移等技術聯合,以對抗谷歌公司。例如臉書(Facebook)和微軟已經合作開發了一個可互換的人工智慧軟體框架解決方案。
2、開源軟體框架在向統一和標準化方向發展。隨著人工智慧應用的爆發,開發人員在不同平台上創建模型及部署模型的需求愈發強烈,在各類軟體框架間的模型遷移互換技術研發已經成為重點。
3、更高級的 API 逐漸佔據主導地位。以 Keras 為例,它是建立在TensorFlow、Theano、CNTK、MXNet 和 Gluon 上運行的高級開源神經網路庫,以其高級 API 易用性而得到了廣泛的使用。
4、模型的集群並發計算成為業界研究熱點。當前人工智慧網路對於單計算節點的算力要求過高,但當前主流開源軟體框架對於模型分割進行計算並沒有實現,而這個問題也將隨著應用場景的不斷豐富而不斷引起重視,成為開源軟體框架下一個核心競爭點。
編譯器解決適配問題
在實際工程應用中,人工智慧演算法可選擇多種軟體框架實現,訓練和開發人工智慧模型也可有多種硬體選項,這就開發者帶來了不小的挑戰。
原因一是可移植性問題,各個軟體框架的底層實現技術不同,導致在不同軟體框架下開發的模型之間相互轉換存在困難;二是適應性問題,軟體框架開發者和計算晶元廠商需要確保軟體框架和底層計算晶元之間良好的適配性。
編譯器解決軟硬體適配問題
解決以上兩個挑戰的關鍵技術之一就是深度神經網路模型編譯器,它在傳統編譯器功能基礎上,通過擴充面向深度學習網路模型計算的專屬功能,以解決深度學習模型部署到多種設備時可能存在的適應性和可移植性問題。
深度學習的兩大表示規範
深度學習網路模型的表示規範分為兩大陣營。
第一陣營是 Open Neural Network Exchange(ONNX,開放神經網路交換),是一個用於表示深度學習模型的標準,可使模型在不同軟體框架之間進行轉移。ONNX 由微軟和 Facebook 聯合發布,該系統支持的軟體框架目前主要包括 Caffe2,PyTorch,Cognitive Toolkit 和 MXNet,而谷歌的TensorFlow 並沒有被包含在內。
第二陣營是 Neural Network Exchange Format(NNEF,神經網路交換格式),是由 Khronos Group 主導的跨廠商神經網路文件格式,計劃支持包括 Torch, Caffe, TensorFlow, 等幾乎所有人工智慧軟體框架的模型格式轉換,目前已經有 30 多家計算晶元企業參與其中。
晶元提供算力保障
現有深度神經網路需要用更短的時間、更低功耗完成計算,這就給深度學習計算晶元提出了更高的要求:一是計算晶元和存儲間海量數據通信需求,包括緩存(Cache)和片上存儲(Memory)要大,計算單元和存儲之間的數據交互帶寬要大;二是專用計算能力的提升,解決對卷積、殘差網路、全連接等計算類型的大量計算需求,同時降低功耗。
總的來說,AI 計算晶元的發展過程可以總結為一直在圍繞如何有效解決存儲與計算單元的提升這兩個問題而展開,成本問題則作為一個舵手控制著最終的航向。
AI 計算晶元分類
在深度學習訓練環節,除了使用 CPU 或 GPU (深度學習訓練的首選)進行運算外,現場可編程門陣列(FPGA)以及專用集成電路(ASIC)也發揮了重大作用;而用於終端推斷的計算晶元主要以 ASIC 為主(詳情可參考第208期智東西內參)。
典型AI晶元商一覽
數據:人工智慧的基礎資源
基於深度學習的人工智慧技術,核心在於通過計算找尋數據中的規律,運用該規律對具體任務進行預測和決斷。
源數據需要進行採集、標註等處理後才能夠使用,標註的數據形成相應數據集。業務類型主要包括數據採集、數據處理、數據存儲以及數據交易等環節。
人工智慧數據集的參與主體
當前,人工智慧基礎數據類型主要包括語音語言類(包括聲音、文字、語言學規則)、圖像識別類(包括自然物體、自然環境、人造物體、生物特徵等)以及視頻識別類三個大類,從世界範圍來看,數據服務商總部主要分布在美國、歐洲等發達國家。但其數據處理人員則大多數分布在第三世界國家;我國語音、圖像類資源企業機構正處於快速發展階段,為產業發展增添了動力。
計算和服務平台的快速崛起
深度學習使用GPU計算具有優異表現,催生了各類GPU伺服器,帶動了 GPU 伺服器的快速發展;同時,也帶動了以服務的形式提供人工智慧所需要的能力,如深度學習計算類的計算平台,以及語音識別,人臉識別等服務,這也成為人工智慧企業打造生態的重要抓手。
一方面,伺服器廠商相繼推出了專為 AI 而設計的、搭載 GPU 的, 應用於視頻編解碼、深度學習、科學計算等多種場景的伺服器,為 AI 雲場景對彈性配置能力予以優化,以增強 PCI-E 拓撲和數量配比的彈性,增加適配多種軟體框架的運算需求,支持 AI 模型的線下訓練和線上推理兩類場景。
另一方面,為了解決企業自行搭建 AI 能力時遇到的資金、技術和運維管理等方面困難,人工智慧企業紛紛以平台類服務和軟體 API 形式的服務等形式,提供 AI 所需要的計算資源、平台資源以及基礎應用能力。
科幻落地 未來已來
目前隨著深度學習演算法工程化實現效率的提升和成本的逐漸降低,一些基礎應用技術逐漸成熟,如智能語音,自然語言處理和計算機視覺等,並形成相應的產業化能力和各種成熟的商業化落地。同時,業界也開始探索深度學習在藝術創作、路徑優化、生物信息學相關技術中的實現與應用,並已經取得了矚目的成果。
基礎應用架構圖
智能語音
按機器在其中所發揮作用的不同,分為語音合成技術、語音識別技術、語音評測技術等。智能語音技術會成為未來人機交互的新方式,將從多個應用形態成為未來人機交互的主要方式。
已經面世的智能語音技術應用有智能音箱(智能家庭設備的入口)、個人智能語音助手(個性化應用整合),以及以 API 形式提供的智能語音服務,覆蓋了智能客服、教育/口語評測、醫療/電子病歷、金融/業務辦理、安防、法律、個人手機、自動駕駛及輔助駕駛、傳統家電、智能家居等領域的應用。
計算機視覺
一般來講,計算機視覺主要分為圖像分類、目標檢測、目標跟蹤和圖像分割四大基本任務。
目前,計算機視覺識別這一人工智慧基礎應用技術部分已達商業化應用水平,被用於身份識別、醫學輔助診斷、自動駕駛等場景。
計算機視覺的三大熱點
在政策引導、技術創新、資本追逐以及消費需求的驅動下,基於深度學習的計算機視覺應用不斷落地成熟,並出現了三大熱點應用方向:人臉識別、視頻結構化、姿態識別。
自然語言處理
自然語言處理(NLP)是研究計算機處理人類語言的一門技術,是機器理解並解釋人類寫作與說話方式的能力,也是人工智慧最初發展的切入點和目前大家關注的焦點。
自然語言處理的主要步驟包括分詞、詞法分析、語法分析、語義分析等,其應用方向主要有文本分類和聚類、信息檢索和過濾、信息抽取、問答系統、機器翻譯等方向。
展望AI的五大趨勢
人工智慧這座礦還遠沒有挖完,還有一籮筐的問題等待解決。
一方面,深度學習演算法模型存在可靠性及不可解釋性問題,因此存在產生不可控結果的隱患;另一方面,當前的數據環境不夠完善,存在著流通不暢、數據質量良莠不齊和關鍵數據集缺失等問題。
此外,推斷軟體框架質量參差不齊,制約了業務開展,編譯器缺乏統一的中間表示層標準,雲、側端AI晶元的市場格局有待形成。
基於技術和產業的發展現狀,信通院總結出了以下五大趨勢:
1、遷移學習的研究及應用將成為重要方向。
遷移學習由於側重對深度學習中知識遷移、參數遷移等技術的研究,能夠有效提升深度學習模型復用性,同時對於深度學習模型解釋也提供了一種方法,能夠針對深度學習演算法模型可靠性及不可解釋性問題提供理論工具。
2、深度學習訓練軟體框架將逐漸趨同,開源推斷軟體框架將迎來發展黃金期。
隨著人工智慧應用在生產生活中的不斷深入融合,對於推斷軟體框架功能及性能的需求將逐漸爆發,催生大量相關工具及開源推斷軟體框架,降低人工智慧應用部署門檻。
3、中間表示層之爭將愈演愈烈。
以計算模型為核心的深度學習應用,由於跨軟體框架體系開發及部署需要投入大量資源,因此模型底層表示的統一將是業界的亟需,未來中間表示層將成為相關企業的重點。
4、AI 計算晶元朝雲側和終端側方向發展。
從雲側計算晶元來看,目前 GPU 佔據主導市場,以 TPU 為代表的 ASIC 只用在巨頭的閉環
生態,未來 GPU、TPU 等計算晶元將成為支撐人工智慧運算的主力器件,既存在競爭又長期共存,一定程度可相互配合;FPGA 有望在數據中心中以 CPU+FPGA 形式作為有效補充。從終端側計算晶元來看,這類晶元將面向功耗、延時、算力、特定模型、使用場景等特定需求,朝著不同發展。
5、行業巨頭以服務平台為核心打造生態鏈。
對於國內外的雲服務和人工智慧巨頭,如亞馬遜、微軟,阿里雲、騰訊雲、科大訊飛、曠視
科技等企業,將圍繞各自應用,與設備商、系統集成商、獨立軟體開發商等聯合,為政府,企業等垂直領域提供一站式服務,共同打造基於服務平台的生態系統。
智東西認為,上一波的企業數字化為深度學習的產業化落地提供了初步引導,隨後,人工智慧相關的大數據、雲服務、晶元、演算法產業和市場格局逐漸成熟。在智能語音、計算機視覺、自然語言理解等細分技術的發展下,智能醫療、智能金融、智能汽車等「AI+」項目掀起了一波創投熱。無疑,AI泡沫確實存在,但AI曙光勢必降臨。
※曠視推手機3D視覺解決方案 安卓一秒變蘋果
※AI早報:中美研發三維晶元納米剪紙結構 MIT推新盲眼機器人
TAG:智東西 |