數據分析起家的海雲數據,還想向唇語識別衝刺
機器之心原創
作者:高琳
編輯:藤子
再次談起公司發展的下一步時,馮一村難掩興奮。
作為海雲數據創始人兼 CEO,不僅是因為其自主研發的唇語識別技術,提高英文識別準確率,更重要的是,馮一村找到了唇語識別的變現之道。
「唇語識別能幫助聾啞人、老人交流,裁定體育賽事語言暴力。在公安領域,也具有顛覆意義。」馮一村分析。因為大量視頻只有圖像,沒有聲音,如能識別視頻中犯罪嫌疑人的講話內容,將會提高刑偵效率。
正因如此,馮一村說,海雲數據未來將不遺餘力地投入唇語識別的研究。
成立於 2013 年的海雲數據,以數據可視化分析起家,旗下數據可視化分析平台「圖易」具備 12 層神經網路,分布式 GPU,可實現數據自動匹配,並能通過智能數據實現深度學習。當馮一村無意中發現,企業內部研究院將唇語識別加入現有的數據可視分析系統,他很快意識到,這個嘗試對現有業務的突破具有重要價值。
2016 年 12 月,海雲數據聯合重慶公安科研所研究唇語識別。
海雲唇語識別測試
馮一村介紹,唇語識別是典型的 AI 應用,集機器視覺與自然語言處理,從圖像中連續識別出人臉,並提取此人連續的口型變化特徵,將其輸入模型,識別出講話人口型對應的發音,從而計算出可能性最大的表達語句。而成熟的唇語識別系統需要建立在大量人臉特徵樣本的基礎之上,通過帶記憶的深度神經網路,保證結果的最大準確性。
在 2017 年 3 月的亞洲大數據可視分析峰會上,海雲數據在正式發布唇語識別技術時稱,其由 1 萬小時新聞式唇語節目訓練而成的唇語識別 AI,英文識別準確率達 80%,中文準確率達到 71%。不過,馮一村認為,「若要投入實戰,準確率需要 90% 甚至 95% 以上。」
1 萬小時新聞類節目進行唇語識別訓練
更早一些時候,一則唇語識別 AI 超過人類專家的消息還曾刷屏研究界。2016 年 11 月,牛津大學工程科學系與谷歌母公司 Alphabet 下屬公司 DeepMind 合作進行唇語識別開發,選擇英國 BBC 5000 個小時的電視節目,總共 118000 個句子作為訓練素材,最終結果是相比人類專家 12.4% 的準確率,AI 的準確率為 46.8%。
但對一家商業化公司來說,縮小準確率差距的前提下找准方向也同樣重要。「AI 要在特定領域解決特定問題,初創企業更需要找准細分領域。」馮一村分析他的業務邏輯,「我們做唇語識別,至少公安、政法委、軍隊、教育四個行業可以應用。」
馮一村尤其看好唇語識別在公安領域的應用,因為這是海雲數據的優勢。事實上,海雲數據正是發家於此。
眾所周知,城市交通卡口處都有攝像頭,但大量攝像頭的背後需要公安指揮中心部署更多警力監控視頻。而海雲數據的數據可視化分析技術則能有效改善這類狀況,通過將卡口處的視頻、犯罪分子的數據、戶籍數據、車輛數據等實時呈現在同一個平台,公安人員能直觀了解卡口數據、警力部署、出警信息、犯罪線索等信息,既能實時判斷警力部署、犯罪分子行動軌跡等情況,還能降低人力成本,提高效率。
為了深入理解公安業務,海雲數據聘請了老專家,他們熟悉公安業務系統,從業經驗長達數十年。正是如此,海雲數據佔據了公安領域三分之一的市場份額。
實際上,海雲數據並非第一天就做數據可視化分析,也並非第一天就將公安領域確定為目標。從創業之初的數據新聞,到數據可視化,再到奠定核心競爭力的數據可視化分析,海雲數據花了兩年試錯。
馮一村表示,傳統的數據可視化是將數據以圖形、圖表等形式呈現,強調結果的呈現效果,而數據可視化分析能實時有效地表達過程數據,可以實時分析,實時決策。
2015 年 6 月,馮一村重新確定技術方向——數據可視化分析,並將目標瞄向公安領域。「大數據可視化分析業務要產生商業價值,就需要與行業結合,落地業務層。」馮一村如此表示。而這需要真實有效的數據,同一領域不同客戶的業務邏輯也不能有太大差異,從而易於標準化並實現快速複製。公安領域就符合這樣的標準,舉個例子,北京與重慶的公安系統,業務都是刑偵,無太大變化。
由此,海雲數據建立了對 B 端客戶收取管理服務費的營收模式,馮一村稱,找到準確方向的海雲數據很快就實現了盈利,並在公安領域站穩腳跟。
2015 年 11 月,海雲數據在此前的底層架構基礎上,發布可視化分析平台「圖易 4.0」,經過迭代,「圖易 5.0」已具有一定 AI 智能,覆蓋 323 種數據源,651 個 API 介面,318729TB 數據量,涵蓋 20 多種行業。而基於圖易,海雲數據已推出「智航順」、「智警」、「金智」、「醫智佳」、「智勝」等細分領域產品。
如今,海雲數據團隊成員已達 300 多人,服務將近 90 家客戶,其中 76 家是世界 500 強企業,覆蓋行業也早已突破公安、民航等達到 13 個。
而在馮一村的規劃中,2017 年,海雲數據將拓展全新行業,發力大交通、大公安、軍民融合以及智慧城市四大領域。技術方向上,則雙管齊下,在深耕數據可視化分析的同時,繼續向唇語識別衝刺。
海雲數據融資進展:
2013 年 4 月,種子資金 20 萬,投資人為海量創始人郝璽龍。
2014 年 4 月,天使投資 300 萬,投資機構為華創盛景。
2015 年 4 月,Pre-A 輪 1500 萬元,投資機構為東方富海。
2016 年 3 月,A 輪 1 億元,上古資本(華創盛景創始人李漢生主導的另一家投資機構)領投,東方富海跟投。
本文為機器之心原創,轉載請聯繫本公眾號獲得授權。
------------------------------------------------
※BerryNet:如何在樹莓派上實現深度學習智能網關
※新研究提出內省式學習方法:在分類和生成任務上均表現卓越
※Hadoop沒有消亡,它是大數據的未來
※ACL2017中國研究論文解讀:讀懂中國自然語言處理前沿進展
※基於語言建模的詞嵌入模型和其所不能解決的自然語言理解問題
TAG:機器之心 |
※大數據情感分析
※別被數據帶進溝里:這才是應用數據的正確姿勢!
※海量數據對比分析,技術面試里的那些門道
※大數據架構與數據分析
※你所翹首以盼的數據分析,重磅來襲!
※本人對大數據和互聯網的分析——為什麼他們都這麼看好大數據?
※深度解析——數據分析是什麼!
※必備數據知識:數據倉庫之數據存儲
※數據盾強勢來襲 數字時代不必為黑客的襲擊擔憂
※看人「下菜」,大數據也「殺熟」
※我市經濟迎來「開門紅」!數據解讀、多角度分析,讓你一目了然
※「大數據殺熟」?商家對數據的使用可能遠超出你的想像
※以AI賦能數據分析,一站式數據分析平台仍是國內主流打法
※華為雲鄭葉來:不碰數據≠不懂數據
※人類進化大數據分析,看得人面紅耳赤!未來生活竟然是這樣的……
※沒有數據泄漏,就沒大數據產業?
※「大數據殺熟」來襲!馬雲呼籲關注隱私,李彥宏卻語出驚人!
※一家數據公司分析了名人們的語言模式,看看他們都有怎樣的性格
※曼聯又一數據,替補奇兵!唉,數據就是數據,還差點意思
※可憋再誤會大數據分析了