當前位置:
首頁 > 科技 > ZILLIZ:以非結構化數據的搜索引擎,完善AI大規模落地的最後一塊拼圖

ZILLIZ:以非結構化數據的搜索引擎,完善AI大規模落地的最後一塊拼圖

動點科技 | ID:technode

「我們希望能夠解決 AI 大規模落地的最後一塊拼圖問題。」ZILLIZ 的創始人兼 CEO 星爵說道。

那麼,什麼才是 AI 大規模落地的最後一塊拼圖?「海量數據的處理。」 星爵繼續解釋道。眾所周知,AI 與數據擁有千絲萬縷的聯繫,如從開始基於海量數據的模型建立,到落地應用時對數據的處理。目前,關於模型建立,市場上已經有了比較豐富、成熟的答案。在海量數據的處理方面,大量企業也正在探索新路徑,ZILLIZ 就是其中之一。

ZILLIZ 是研發麵向人工智慧的新一代數據處理和分析平台 ,其主要是為應用型企業提供底層技術。ZILLIZ 研發的 GPU 加速的 AI 數據中台解決方案 Mega,其中包括數據 ETL 系統 MegaETL、資料庫系統 MegaWise、面向 Hadoop 生態的模型訓練系統 MegaLearning 和特徵向量檢索系統 Milvus,可滿足傳統的加速數據 ETL、加速數據倉庫和加速數據分析的場景和需求,面向各類新興的 AI 應用場景,可應用於金融、電信、安防、智慧城市和電子商務等行業。

值得一提的是,據星爵介紹,從技術層面看,Milvus 是全球首款 GPU 加速海量特徵向量匹配和檢索引擎。Milvus 依託 GPU 加速,提供極速特徵向量匹配以及多維度數據聯合查詢(特徵、標籤、圖片、視頻、文本和語音等聯合查詢)功能,並且支持自動分庫分表和多副本,能對接 TensorFlow、Pytorch 和 MxNet 等 AI 模型,可實現百億特徵向量的秒級查詢。

簡單來說,Milvus 是一種海量非結構化數據的搜索引擎,「搜索正在從結構化數據向非結構化數據搜索邁進,我們希望定義下一代的搜索的引擎。」 星爵表示。他認為,以百度、谷歌等為代表的上一代互聯網搜索引擎,主要是基於文本等結構化數據的處理邏輯。機器對於結構化數據的交互很友好,但是不擅長與非結構化數據打交道。而人類與世界交互的方式非常多樣化,如視覺、聽覺、數字文字等。而且顯然,我們現實生活中的非結構化的數據如圖片、聲音、視頻等,總量遠超過結構化數據。

如果想讓 AI 更加流暢、且智能地應用與實際生活,讓機器能夠處理非結構化數據的搜索以及定位則非常有必要。如抖音、快手等短視頻網站,每天的生產海量數據,如何在這龐大的視頻資料庫里檢索、定位需要的信息,進行相關的管理或者應用。

Milvus 的誕生就是旨在解決這樣的問題。其利用深度學習的神經網路把圖片、視頻等變成特徵向量,而特徵向量本質上就是結構化數據。其實邏輯就是首先把非結構化數據結構化。基於特徵向量,系統能夠提煉出語義,更好的理解然後檢索,而不是基於大數據搜索關鍵詞,或者實現以圖搜圖等應用。此外,通過搜索,也可以形成用戶畫像。一個用戶的特徵其實就是高維度的特徵向量,系統也可以幫助更好地做特徵向量的分析聚類,形成千人千面,或者個性化推薦。

「很多 AI 公司也在做這樣的處理與轉換,但是我們是通過海量的特徵向量去搜索。在找到對應的特徵向量以後,再搜索到對應的非結構化數據,如一張圖片裡面有車、人、花、包包,通過這張圖片就可以搜到相似的包包,人、花等等的圖片。」 星爵表示,Milvus 很大的特點是基於海量複雜的非結構化數據中的檢索。「所以,我們可以為各行各業提供很多新的應用能力。」 他具體介紹了幾個主要的應用方向:

視頻網站中的廣告定向投放:視頻網站的商業變現之一就包括 「網紅帶貨」,網紅帶貨方式是在推銷商品的同時,視頻界面上貼出鏈接或者二維碼。傳統方式是需要人工去標註視頻里出現的商品,但是隨著視頻容量的激增,人工標註越來越難。如果視頻網站應用 Milvus,就可以通過演算法檢索到哪些視頻中出現了哪些產品,然後進行標註,再進行相應的廣告投放。

版權保護:即利用語義檢索分析查重。很多洗稿想要騙過計算機時,往往會打亂語序、更改用詞等。在此種情況下,基於結構化的檢索方式就無法查重。但用深度學習的方式把整篇文章作為非結構化的數據去處理的話,除了用詞以外,Milvus 還可以深度挖掘語義的相似性來判斷查重率。此外,在音樂、視頻影片等方面都可以應用。

工業互聯網:用聲音來判斷零部件的損壞程度。一般來說,機械運轉會發出聲音,ZILLIZ 可以幫助設備檢測公司建立海量的零部件在各種運行狀態下的聲音庫,如某一種零件有故障時會發出非常尖銳的聲音。通過感測器的部署,就可以實現機器的 24 小時故障監控,如果機器有什麼異常聲音,這種聲音經過特徵比對後,系統即可預測零件損壞的程度,以及作出處理分析。

此外,在醫療影像方面,Milvus 也可以支持 AI 影像輔助系統,如眼部疾病篩查,通過眼底照片的特徵對比來分析檢測。

「我們走技術驅動的路線,可以給業務端企業提供底層技術,也可是百度開放平台的一部分。」 星爵表示,作為一家技術研髮型公司,ZILLIZ 最大的挑戰如何是不斷在技術上突破自我。不過,其核心成員來自於 Oracle、Pivotal、Cisco、IBM、Morgan Stanley、華為、騰訊和百度等科技公司,所以,豐富的技術經驗可以保證 ZILLIZ 的研發動力。從產品形態方面來看,該公司私有化部署與雲產品兩種模式,其目前已經和大概 20 多家頭部客戶建立合作。

ZILLIZ 已經完成了 A 輪融資,共計融資獲得來自多家著名投資機構的上億元人民幣投資。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 動點科技 的精彩文章:

阿里啟動「AI 豆計劃」,貴州成為首個試點地區
中雲數據:用去中心化打破孤島,「數工場」實現工業數據互聯|創業

TAG:動點科技 |