俞益洲：計算機視覺應用將達到8000億規模

科技 05-10

新智元報道

編輯：元子

【新智元導讀】4月18日，清華大學《人工智慧前沿與產業趨勢》系列講座第四講，深睿醫療首席科學家、美國計算機協會傑出科學家、IEEE Fellow俞益洲為大家介紹了目前計算機視覺的應用和落地，特別是在醫療影像方面的發展狀況、遭遇的挑戰、以及克服挑戰的思路。最後和清華大學自動化系副教授、博導魯繼文以及知名天使投資人、梅花創投創始合伙人吳世春一起對計算機視覺的落地機會進行了暢想。

首先由清華大學海峽研究院大數據AI中心專家委員、百度七劍客之一、酷我音樂創始人雷鳴老師做開場，對計算機視覺方面的技術和應用場景做了一個整體的解讀。

雷鳴講到在技術方面，目前計算機視覺可以大致分為圖像處理、人臉識別、圖像預測以及生成技術。單個照片的處理技術現在已日臻成熟，接下來正在大力發展3D影像和視頻流處理技術。在應用領域，人臉識別被廣泛的應用於多種場景例如酒店、安防、醫學影像、金融、工業以及農業中。

接下來由深睿醫療首席科學家、美國計算機協會傑出科學家、IEEE Fellow俞益洲為大家帶來《計算機視覺的應用與落地》。最後由雷鳴、俞益洲和清華大學自動化系副教授、博導魯繼文以及知名天使投資人、梅花創投創始合伙人吳世春對計算機視覺方面的創業機會進行了討論。

什麼是計算機視覺？和圖像處理的區別在哪裡？

圖像處理的輸入是圖像，輸出仍然是圖像。而計算機視覺則是在更高層面能夠對輸入的圖像進行分析和理解，最終輸出的不一定是圖像，可能是數值或符號，這些數值或符號構成輸入圖像的描述。計算機視覺的主要任務包括圖像識別、運動分析、場景重建和圖像恢復等。

首先，圖像識別完成對圖像內容的描述，如果和其他模態的信息匯總，就能夠得到對圖像的整體理解，進而起到輔助決策的作用；其次，目前很多圖像都是以視頻的形式或動態圖像的形式呈現，對這類圖像的運動進行分析可以得到更多的信息；場景重建是對輸入的二維圖像通過分析之後還原成真實世界裡的三維物體；最後，雖然圖像恢復嚴格意義上不是視覺，但現在大家普遍將圖像處理作為視覺的一個分支來考慮，叫做底層計算機視覺。

基於深度學習的計算機視覺

俞益洲說，在計算機視覺裡面用到的深度學習，主要就是卷積神經網路（CNN）。CNN是Yann LeCun發明的一種具有特殊連接關係的神經網路。神經網路有很多種，包括單層和多層網路。卷積神經網路特別的地方在於其卷積操作與信號處理裡面的卷積操作相似，特別適合於對圖像進行理解。

Yann LeCun最初把CNN應用於手寫體郵編的自動識別。在這個任務上CNN在80年代末90年代初就已經達到了98%以上的準確率。當時能夠處理的圖片還很小，直到2012年，另外一個機器學習先驅Hinton把原來的卷積神經網路推廣到更大尺寸的輸入圖像上。

同時訓練圖像的數量也大幅上升，從原來的幾萬張圖像上升至2012年的100萬張ImageNet訓練圖像。感謝GPU，原來耗時很長的模型訓練也變得可以接受。但即使用GPU訓練模型，當時100萬張訓練圖像也需要跑大約兩周。

在那以後大家繼續改進神經網路的架構，到2015年在ImageNet上top-5的錯誤率下降到了3.57%，已經低於人在圖像識別方面的錯誤率。卷積神經網路能達到這樣的性能是因為它逐層對圖像都有更深刻的理解。

計算機視覺的應用

俞益洲說，第一個應用場景是智能安防，它包括了大部分人臉識別的應用場景，如機場、車站、出入境，也包括智慧交通，如車輛管理、車牌識別、智能紅綠燈等，通過這些技術可以追蹤車輛什麼時候上的高速，什麼時候下的高速。智能安防也包括視頻監控，對人的行為和行蹤進行跟蹤等等。

人臉識別包含兩個子問題，首先是一對一的身份驗證，對比本人和身份證上的照片是不是同一個人，現在準確率遠遠超過了99%；其次是一對多識別，比如門禁，如何識別出某個人是否是小區業主，現在準確率還有提升空間，在十幾萬人中的識別準確率還比較令人滿意，但是如果接近100萬人的話，準確率就會明顯下降。

視頻監控在跨攝像頭人物跟蹤方面解決得還不夠好。比如一個人從攝像頭A視野中消失後，進入了裝在另一個地點的攝像頭B，因為可能拍不到人臉而且兩個攝像頭捕捉到的圖像可能在視角，光線和成像質量等方面存在多種差異，在識別的時候就會出現問題。所以這種跨攝像頭的人物跟蹤和識別仍是一個熱門的研究課題。

安防系統從功能上可以分為視頻監控、出入口控制、樓宇門禁、防盜報警等，從應用場景上分為平安城市、智能交通、智能樓宇智能家居，以及其他應用如金融、文教等。

俞益洲提到，安防市場規模巨大。全球安防市場到2020年有望達到3000多億美元規模，中國市場到明年有望達到1萬億人民幣，佔全球安防市場將近50%。

計算機視覺的第二個應用場景是自動駕駛，包括道路檢測、車輛檢測、行人檢測、路標指示牌識別、道路兩側的物體如建築物識別等。因為道路上有各種指示信息（比如指示牌、限速標誌、道路分叉等等），所以不僅要把這些指示牌檢測出來，同時也需要識別指示牌上的信息。

自動駕駛是一項綜合技術，不光涉及到計算機視覺，還需要用到激光雷達及其他感測器，牽涉到運動規劃和車輛的運動控制等。根據麥肯錫調研，十年後自動駕駛會超過現在的安防市場規模。

第三個應用場景是增強現實，跟內容的合成有關係。現在手機端有很多這方面的增強現實技術，比如手機打開就可以化妝，或者在人臉上加一些實時的卡通元素。

俞益洲還提到以前做的一個項目：首先給校園裡的建築建模，然後將圖像裡面的信息映射到三維模型上，就可以把虛擬的攝像頭移到任何你想去的地方。

從粗糙的三維模型合成非常逼真的照片，在當時是一個實時的技術，後來被別人用到了電影特效中。黑客帝國電影里最著名的躲子彈鏡頭，就是起源於這項技術。俞益洲提到，到2020年左右增強現實有望達到一千多億人民幣的市場規模。

第四個應用場景是無人零售，從亞馬遜無人店開始，國內很多企業也推出了自己的無人店、無人超市。無人零售需要很多計算機視覺技術，需要用到行人檢測、定位跟蹤、人臉識別、手勢識別等，相當於一個封閉環境內的監控系統。這是一個新興且處於上升階段的市場。據2018年新消費崛起趨勢白皮書，無人零售市場規模將來有望超過萬億。

第五個應用場景是智慧醫療，包括手術機器人、醫學影像的輔助診斷、機器人問診、臨床支持決策系統等。通過把基於人工智慧的智慧醫療技術推廣到地方醫院可以幫助這些醫院提高診療水平，吸引更多的病人。

如果只考慮醫療影像，市場潛力仍然是巨大的。比如在中國最近幾年醫療影像市場規模就在4000億人民幣，每年還在繼續增加，近期有望達到6000到8000億人民幣，但是整個醫療的支出佔GDP比重只有6%，還是遠低於美國的水平（17%），所以還有很多上升空間。

我國醫療行業的現狀有很多改善的空間。三甲醫院數量最少但病人卻最多，地方醫院的病人則較少，這是一個不合理的分布。如果能夠引進人工智慧技術，將醫學影像的輔助診斷、機器人問診推廣到地方醫院和專科醫院，就有可能把大部分病人吸引到這些醫院去治療，可以使病人在各級醫院的分布更加合理，促進有效地利用各級醫療機構的資源。三甲醫院則不必忙碌地治療各種常見病，而是把主要精力集中在疑難病症上。

計算機視覺與醫學影像分析

俞益洲說，深度學習和計算機視覺中的圖像識別技術如果用於醫學影像分析，可以對醫學影像進行輔助診斷。現代醫學越來越依賴於醫學影像信息，去醫院看病，經常被要求去拍各種醫學影像，如CT、核磁等，醫生則根據影像報告做最後的診斷，沒有醫學影像報告，他們一般不輕易下結論。

所以現在看來，80%的臨床問題需要影像檢查來得到最終的診斷結果。所以影像檢查就成為一個瓶頸，放射科醫生的工作負擔非常重，他們每天需要閱讀大量影像，讀完之後還要寫報告。

近年來隨著深度學習的快速發展，圖像識別和自然語言處理取得了很多突破性進展。另一方面，在醫學影像中尋找病灶甚至判別它們的良惡性從本質上來說就是圖像識別。所以很自然地就會想到把深度學習和圖像識別技術應用於醫學影像分析，這種結合推動醫學影像走向智能化。

圖像識別裡面有幾個基本任務，第一個是圖像分類，給一幅輸入圖像，決定圖像裡面的物體屬於哪一類；接下來可能會關心定位，圖像裡面的物體位置，可以用物體的包圍框表達出來。但這些問題主要針對只有單個物體的圖像而言，面對多個物體，需要解決幾個任務，第一個是物體檢測，第二個是語義分割。

不論輸入圖像中有多少個物體，物體檢測需要把每個物體的位置都用包圍框的形式表達出來，然後對每個包圍框決定一個物體類別。與圖像分類相似，但是要在包圍框級別給出一個類別的信息。

語義分割則要求知道每個像素屬於哪個類別，也就是說，每個像素被哪個類別的物體覆蓋。這樣每個像素都有一個類別標籤，是一種密集的圖像識別。

把物體檢測和語義分割結合起來，就得到最後一個任務叫做實例分割。實例分割要把具有同一個類別標籤的多個物體分割開來，同時把每個物體的輪廓找出來。

圖像識別在醫療影像上已經有很多成功案例，比如皮膚癌分類（Nature 2017）和糖尿病眼病檢測（JAMA 2016）屬於圖像分類任務，肺結節檢出和乳腺腫塊檢測屬於物體檢測任務，肝分割和腦白質分割可以歸為語義分割任務。所以很多醫學影像分析任務都可以歸結為這些圖像識別的基本任務。

基於AI的醫學影像分析實例

俞益洲還介紹了深睿醫療在醫學影像分析方面的探索和成果。深睿醫療的主要業務是為各級醫療機構提供基於人工智慧和互聯網的醫療解決方案，在人工智慧和深度學習方面積累了很多核心技術。

作為醫學影像分析實例，他介紹了深睿醫療在基於CT的肺結節良惡性判別、基於CT/MRI的腦卒中輔助診斷、胸部X光片的病灶檢測、兒童骨齡的輔助評估、基於鉬靶的乳腺癌診斷等方面的成果。

肺結節檢測是肺癌篩查的第一步，之後還需要判斷檢出的肺結節是良性還是惡性。深睿醫療在這方面有比較多的積累，其中一種方法根據肺結節形態方面的屬性來訓練良惡性判別模型，這主要從醫生通常採用的以形態屬性為依據的診斷過程得到啟發。

我們可以訓練網路，對許多種不同的屬性進行識別，然後把識別出來的屬性做為中間表達，再輸入到後面的分類網路，最後得到一個良惡性的判別。這種方法在公開數據集LIDC上可以達到97.58%的準確性。此外，多種判別良惡性的方法可以整合起來做最終判別。

去年8月份，深睿醫療把AI的結果和江蘇省放射協會的126名不同職稱級別的醫生進行對比。醫生分為高級、中級和初級職稱三個組，其中高級職稱組的平均AUC為0.779，平均準確性為73.8%。而AI模型的AUC達到0.873，準確性為85.0%。此後對AI模型進行持續改進，目前它的AUC已經達到0.927，準確性達到86.0%。

第二個實例是腦出血的輔助診斷。診斷腦出血是一件爭分奪秒的事情，輔助診斷的主要任務是把大腦里的出血區域找出來，然後決定出血量。解決這個問題需要用到剛才提到的語義分割技術。基於深度學習的語義分割演算法對出血區域進行分割，測量它的體積，估計出血量，各項性能指標已經達到了很高的準確性。

第三個實例是基於X光的胸部病灶檢測。因為X光片是三維的信息投影到二維空間上得到的結果，投影把很多三維信息疊加在一起，疊加之後用肉眼就比較難區分不同的病灶區域，至少對沒有訓練過的人來說很難看出來。但是用深度學習就能檢測出這些病灶，只要圖像上面存在細微的差異，深度學習模型就有可能識別出來。

此外，也可以為兒童骨齡的輔助評估和乳腺鉬靶輔助診斷建立深度學習模型。俞益洲稱，深睿醫療針對這兩個問題研發的深度學習演算法目前在行業內處於領先水平。以乳腺鉬靶鈣化檢出為例，在不同誤報個數下的陽性召回率都明顯高於其它解決方案。

俞益洲還分享了醫學影像分析領域一些特有的挑戰。比如說在醫學影像方面訓練樣本少，因為醫學數據收集比較困難；數據標註成本高，因為需要經驗豐富的醫學專家進行標註，而且也只是相對來說比較准，無法做到100%準確。不同醫生去標註同一幅圖像，結果也可能會有比較明顯的差異，一致性相對比較差。

俞益洲也介紹了一些解決方案，比如針對數據標籤的一致性，希望設計演算法能夠在訓練模型的同時，對數據標籤進行修正。針對數據標註成本高的問題，可以適當降低數據標註量，用半監督或者混合監督的形式訓練模型。深睿醫療在胸部X光片診斷方面已經做了一些研究，設計了一種混合監督學習演算法，能夠比較準確地檢測病灶區域。

計算機視覺團隊角色如何配置？

吳世春回答了雷鳴提出的「在投資中如何對團隊進行考量」的問題，他認為團隊里一定要有計算機視覺的大牛以及行業專家，需要考慮團隊成員之間的互補性，對於行業的理解占第一位，然後第二位有這種視覺的專家，但不一定是活躍在學術圈的大牛，只要能夠把好的東西應用過來就夠了。其次是工程人才和銷售人才，這4類人才是必不可缺的。

計算機視覺落地機會在哪裡？

最後，幾位專家對計算機視覺技術落地進行了暢想。

俞益洲提到人機交互以後會有較大的發展空間。多模態信息融合與理解的能力，可以應用在服務行業、教育和動作類遊戲。

吳世春提到，首先可以應用在選礦，區分有色金屬以及廢礦有沒有開採價值；其次，可以應用在垃圾分類，可以極大地變廢為寶。

魯繼文提到，AI在手機領域會有很大的發展空間，可以想像新生代的年輕人每人都有一個攜帶型自動化小機器人；針對特定行業的自動化例如農業無人機。

雷鳴提到，娛樂和內容方面AI也會有很大的發展機會，特別在動畫影視方面。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※斯坦福大學已故教授Nils Nilsson代表作《理解信念》
※比邊界框更好用的目標檢測方法來了！北大清華微軟提出RepPoints

TAG:新智元 |