當前位置:
首頁 > 知識 > 宣布獲數千萬pre-A輪融資前,中科視拓山世光向我們講述了這一年的探索與收穫 訪

宣布獲數千萬pre-A輪融資前,中科視拓山世光向我們講述了這一年的探索與收穫 訪

撰文 | 邱陸陸

編輯 | 吳欣

去年初秋,中科院人臉識別專業研究員山世光攜千萬級天使融資創業的消息引發了人工智慧領域內一次不小的震動。一年過去了,人臉識別領域繁盛如烈火烹油,而中科視拓這家靜水深流的公司卻幾近隱身。

10 月 10 日,中科視拓對外公布,獲得安賜資本領投、線性資本跟投的數千萬元 pre-A 輪融資。這是去年秋天中科視拓宣布成立,並獲得千萬級天使輪融資後,首次公開融資消息。在此之前,機器之心與山世光聊了聊他和這家公司一年間的探索與成果。

以下是根據採訪內容整理而成的口述內容:

從開源到賦能,中科視拓的平台化探索

在公司正式成立的這一年,中科視拓圍繞計算機視覺和深度學習技術服務和解決方案,結合人力、算力和數據資源的建設,打通了以智能園區為代表的人臉識別 C 端產品,及尾部賦能型平台。

開源的商用級開源人臉識別引擎 SeetaFace,推出一年來,已經擁有企業用戶近百家,轉化付費用戶超過 10 家。具體來說,我們向 B 端企業用戶提供 SDK 做技術服務,協助他們嵌入到產品裡面去,同時,也向包括華為、平安、中國移動等公司提供開放的源碼級合作,實現深度定製化服務,在與這些標杆性客戶合作的過程中,我們也幫助他們提升了團隊的深度學習研發的能力。

我們也在快速推進賦能型產品服務平台的搭建——Seeta Training As aService,簡稱 SeeTaaS。

SeeTaaS 平台底層是私有雲或公有雲形式的雲端計算能力,上層則是一套 SeeTaaS 軟體,軟硬體結合成一個黑盒子。用戶將自己的數據交給黑盒子做模型自動選擇、模型超參數和參數的自動優化,一段時間後得到完成的結果。目前,我們已經通過 SeeTaaS 幫助中國平安、中國航天、中國電信等多家行業客戶建立了自主可控、自主升級與迭代的 AI 能力。

最終,我們希望達到的目標是,對不具備 AI 開發能力的公司進行賦能,希望在五年之後,我們的系統是一個不懂深度學習的中學生都可以通過簡單設置來使用的系統。而這個系統在處理過足夠多數據的時候,可以像研究者一樣積累經驗,能夠針對一批特定數據去進行分析,對可能的最優模型、超參數和參數、可能的優化方法與優化路徑等進行推測和優化。

C 端產品和集成系統的開發,也是我們的業務突破口。我們會委託第三方開發硬體,搭載視拓的演算法,開發出 1:1 人證驗證一體機用於實名驗證需求,開發出 1:N 人臉識別閘機等,給數千人規模的樓宇或單位做無卡的刷臉門禁或閘機。

這其中的實名認證場景,既包括泛安防領域的會議簽到系統,也包括一些民用的無感門禁、考勤加上訪客系統,或者手機等私人物品的訪問系統。後者根照片的質量比較高,可以拿到近照、清晰照片,甚至可以讓識別對象協助拍攝多角度照片乃至視頻。因此這種場景下的精度更高,可以做到萬人規模的單位,98% 的人次可以一次通過。而且系統會進行適應性調整,從生人系統逐漸變成熟人系統,越用越好。

在智慧商業領域,人臉識別技術也在快速切入。中科視拓正和某無人零售商店合作開發面向無人商店的人臉識別系統。當然,最難的應用場景還是警用安全防範領域,這類應用因為識別對象可能進行刻意偽裝而難度大增,但得益於數據獲取機會的增多,人臉識別技術也在非常快速地進入這個市場,公安部門已經取得了不少戰果。我們也和公安部門有合作,開發了針對萬人級別的黑名單庫的人臉識別系統,這個場景的特殊性是需要控制虛警率儘可能的低,同時還要保證足夠高的召回率。

其他外圍的應用還包括情感計算,換言之,就是「察言觀色」,我們可以通過眨眼次數、心跳次數、眼神集中度、七種基本表情和十幾個面部肌肉運動單元的動作捕捉,做情緒指標估計。例如,用心跳次數估計做緊張指標。這類應用可以用於輔助金融機構的風控工作,代替業務員來對客戶的風險性進行判斷,解決業務員能力參差不齊的問題。也可以用於面試、教學效果評估、疲勞駕駛預防等場景。

為加速落地,我們還成立了自己的系統集成和產品開發子公司——火視科技,專門生產面向 C 端客戶的軟硬體產品和系統解決方案,以此獲取實戰應用中的技術需求和數據資源。

在商業世界拼出技術的差異化

事實上,作為一家科技公司,比起商業方面的突出,我們有更大意願在技術上做到和別人不一樣。當然,商業價值的體現也不是一個純粹的技術問題,而是如何讓市場上的用戶接受你的技術以及產品。所以從這個角度來說,企業又要反過來從用戶的需求出發,通過具體項目真正地理解用戶需求,反饋到技術上做更好的改進。

我們和中科院計算所的實驗室依然有緊密聯繫,實驗室定位為「視拓研究院」,由公司來推動實驗室的演算法工程化、產品化。我經常說現在的 AI 技術等於 A(Algorithm) + B(Big Data) +C(Computation Power),實驗室強調的是 A,是演算法,公司會把數據和算力加進來,也會反過來為實驗室提供數據和算力支持。

從方法論上講,工業界和學術界應該有本質不同。工業界是數據驅動的方法論,而學術界一定要把知識加進來,把深度學習的作用「弱化」,找到可以利用小數據、臟數據、亂數據、半監督、弱監督、無監督數據的機器學習方法。我把這些數據條件稱之為 X 數據,而支持 X 數據驅動的方法,一定要充分利用人類數千年來總結的各類知識。過去談論「知識圖譜」僅僅從人的角度出發,現在我認為還應該把數據嵌入到知識圖譜裡面,通過這種方式去促進機器與人在知識上的對應與相互利用,獲得更高效的方法。

在我看來,現在學術界最大的任務應該是要把深度學習「搞掉」,而工業界要做的就是不斷地收集數據,然後把深度學慣用好,儘力向外推廣,拓展它的邊界。

我從 97 年的本科畢業設計就在做人臉識別,經歷了這 20 年裡人臉識別領域的幾次起伏。不得不提到的重要變化是,2012 年左右,ImageNet 的巨大成功直接把深度學習帶到人臉識別領域。從 2013 年開始,人臉識別的所有技術非常迅速地切換到了深度學習上。深度學習的核心就是特徵學習,換句話說,就是不再人為定義 Y = WX 形式的特徵,而是交給數據去學習一個通過神經網路實現的 Y=f(X) 形式的變換。

由此,深度學習給人臉識別領域帶來了一次跨越式發展。舉個例子,在 2012 ~ 2013 年的時候,研究者還普遍認為,基於二代身份證的認證比對是一個不可能完成的任務。它的難度太大了:身份證照片可能是多年以前差別很大的舊照,大小只有 102×126,並且從 30k 左右被強制壓縮到 1k,損失了非常多信息。但是現在在人配合地去看鏡頭的時候,我們已經可以做到在0.01% 誤識率(false accept rate)的情況下,有 98% 以上的識別率(Recognition rate)。也就是說一萬個人冒充你,只有一個人能成功的條件下,自己本人被正確識別的概率在 98% 以上。在 13 年之前,萬分之一精度可能只有 20% 不到的召回率。

另一方面,深度學習對整個識別流程也造成了巨大衝擊,它體現了端到端、數據驅動的思想——儘可能少地對流程進行干預、儘可能少地做人為假設。

一開始,研究者用深度學習完成人臉檢測、特徵點定位、預處理、特徵提取和識別等每個獨立的步驟。後來預處理被砍掉,因為深度學習學出來的底層濾波器本身就可以完成光照的預處理,而且預處理是以「識別更準確」為目標進行,而不像原來以「讓人看得更清楚」為目標。人的知識和機器的知識其實是有衝突的,人類覺得好的知識不一定對機器識別有利。

最近我們在推進的工作,包括我們在今年 ICCV 上的研究,是把第二步特徵點定位砍掉。因為神經網路也可以進行對齊變換,所以我們的工作通過空間變換(spatial transform),將圖片自動按需進行矯正。

對此,我還有一個猜測:刻意把非正面照片轉成正面照片的傳統做法,也未必有利於識別。一個觀察結果是,同一個人的兩張正面照相似度可能小於一張正面、一張稍微轉向的照片的相似度。最終,我們希望進行以識別為目標的對齊(recognition oriented alignment)。在未來,或許檢測和識別也可能合二為一。現在的檢測是對一個通用的人臉進行的,未來或許可以實現檢測和識別全部端到端完成:只有特定的某個人臉出現,才會觸發檢測框出現。

而在圖像識別方面,還有很多難題。如果我們寄希望於用深度學習解決圖像識別問題,就意味著我們要收集所有待識別物體的有標註數據。這件事情需要多少人力、物力、時間是不可知的,我們甚至無法定義這個世界上有多少需要識別的物體種類。ImageNet 中有一千類,然而日常生活中需要識別的物體至少在萬類規模,大千世界裡出現過的物體可能有百萬類甚至更多。

另外,實際應用中的大量需求是難以想像的,例如對車輛安檢需求,可能需要拍車底部的照片。這樣的問題是否只能通過採集大量數據來解決,還要打一個大大的問號,而且對於做科學技術的人來說,這個過程非常痛苦,不是一個「優雅」的解決辦法。

我們期望有一個像人那樣解決問題的辦法,也就是說,圖像識別,或是說計算機視覺問題,應該有不依靠大數據、更優雅的解決方案。我們的團隊也在做這方面的嘗試。例如以大量數據學習出來的人臉識別的模型為基礎,使用少量數據精調,來完成表情識別、年齡估計等任務,這樣得到的技術甚至贏得了國際競賽的冠軍或亞軍。

此外,在數據有限的情況下,我們還嘗試了在深度學習過程中融入人類專家知識,以減少對數據量的需求。我們的一種策略是把神經網路中需要大量數據進行優化的低層連接權重,替換成人為定義的特徵,例如傳統的 Gabor 特徵,從而減少對大數據的需求,也獲得了不錯的結果。

公司大事記

2016 年 8 月,公司成立,獲得天使投資

2016 年年底,與平安、電信等大公司達成合作

2017 年 1 月,與軍方簽署無人機視覺技術合作項目

2017 年 3 月,入選中關村前沿儲備企業

2017 年 4 月,在杭州成立控股子公司「火視科技」,專註於產品與系統集成

2017 年 5 月,與航天部門簽署人臉門禁系統合同

2017 年 6 月,門禁和考勤系統的產品正式問世

2017 年 7 月,第一版 SeeTaaS 系統開始內測

2017 年 8 月,完成 pre-A 輪投資

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

深度好奇提出文檔解析框架:面向對象的神經規劃
26種神經網路激活函數可視化
DeepMind提出Rainbow:整合DQN演算法中的六種變體
Sundar Pichai 和他的谷歌進化論
TensorFlow sucks,有人吐槽TensorFlow晦澀難用

TAG:機器之心 |