什麼是AI資料庫,為什麼它值得我們關注
譯者|薛命燈
編輯|Natalie
數據和商業智能是一枚硬幣的正反面。數據存儲、計算能力和分析技術的進步讓大數據走向大眾,你不需要成為資料庫專家或數據科學家就能夠從大量的數據集中挖掘洞見。雖然仍然有一定的學習曲線,但自助性的商業智能和數據可視化工具重新定義了業務從數據中獲取洞見的方式。不過,從數據中挖掘分析結果的商業智能公司或資料庫公司和為了訓練機器學習和深度學習模型而建立起來的 AI 資料庫還是有所區別的。
機器學習演算法已經融入到了當今的軟體系統當中。人工智慧虛擬助手被用來改進用戶體驗,而在商業軟體領域,類似 Salesforce Einstein 這樣的系統已經成為企業客戶關係管理系統(CRM)的智能基礎。包括谷歌和微軟在內的科技巨頭在智能方面則更進一步,他們不僅在做研究,他們還通過人工智慧重新改造技術。
通過強大的處理能力在存粹的海量數據上進行神經網路訓練是機器學習和深度學習所面臨的一個重大挑戰,比如圖像分類或自然語言處理(NLP)這類複雜的模式識別問題。因此,AI 資料庫開始在市場上嶄露頭角,它提供了一種用於優化人工智慧學習和訓練過程的方式。我們與 GPU 加速關係型資料庫廠商 Kinetica(Kinetica 已經為自己建立了一個 AI 資料庫)和來自 PCMag 雜誌的人工智慧和資料庫專家 Pam Baker 進行了對話,探討什麼是 AI 資料庫以及它與傳統的資料庫有什麼區別。更重要的是,我們請他們基於目前的市場熱度來分析這項新興的技術是否具有真正的商業價值。
什麼是 AI 資料庫?
人工智慧領域發展得太快,以致於很難對術語做出很好的定義。你可能會聽到人們不加區分地使用機器學習、深度學習和人工智慧這些辭彙,但其實它們都屬於廣義的人工智慧。Baker 說,對於 AI 資料庫有兩種不同的定義,這取決於你在跟誰談論這個話題:是務實的人還是異想天開的人。
Baker 說,「業界似乎已經達成了某種共識——AI 資料庫應該能夠處理基於自然語言的查詢。人類不需要依賴關鍵字而是通過 NLP 從數據集中搜索信息。你或許會爭辯說,IBM 的 Watson 已經能夠支持自然語言查詢,但前提是,它必須事先與數據打通,而且要事先選好數據。而我們現在所說的自然語言查詢則更為寬泛。」
更為實際的定義應該是說使用專門的資料庫來加速訓練機器學習模型。很多科技公司已經在開發專門的晶元用於緩解硬體的處理負載,因為不斷有硬體廠商推出了基於人工智慧的特性,而它們對計算能力有很高的要求。從數據方面來看,AI 資料庫可以幫助我們處理與機器學習和深度學習的模型訓練相關的數據量、速度及複雜的數據監管問題,從而節省時間、優化資源的使用。
Baker 解釋說,「目前有多種策略可用於加速機器學習的模型訓練,其中一種是將基礎設施與負責編碼的人工智慧研究者分離開,然後通過自動化系統來處理基礎設施和模型訓練相關的問題。訓練一個模型可能只要 30 天,甚至是 30 分鐘,而不是 3 個月。」
Kinetica 實現了一個專門為機器學習和深度學習的模型訓練優化過的集成式資料庫平台。AI 資料庫是由數據倉庫、高級分析模塊和可視化模塊組成的內存資料庫。Kinetica 公司的副總裁和首席軟體工程師 Mate Radalj 解釋說,AI 資料庫應該能夠在毫秒級並行攝入、挖掘、分析和可視化複雜的數據。目標是降低成本、帶來新的利潤和集成機器學習模型,這樣業務人員就可以基於數據驅動更高效地做出決策。
Radalj 說,「AI 資料庫是通用資料庫的一個子集。AI 資料庫現在很流行,但其他的很多解決方案使用了分散式組件,Spark、MapReduce 和 HDFS 來回地切換,就是不用內存資料庫。這些分散式組件與我們的資料庫不一樣,我們的資料庫從一開始就與單一平台的 CPU 和 GPU 深度集成。好處是我們在訓練模型時可以更快地配置資源,而且使用更少的硬體資源,在相同的平台上可以快速地得出結果。」
AI 資料庫是如何工作的?
現在已經有很多可用的 AI 資料庫。微軟的 Batch AI為運行在 Azure GPU 上的模型訓練提供了基於雲的基礎設施。微軟還推出了 Azure 數據湖(data lake)產品,幫助業務人員和數據科學家在分散式環境里處理和分析數據。
另一個是谷歌的 AutoML,它基本上重構了模型的訓練方式。AutoML 基於特定的數據集生成新的神經網路架構,然後進行數千次的測試和迭代,進而得到一個更好的系統。事實上,相比人類研究員,谷歌的 AI 能夠創建出更好的模型。
Baker 說,「AutoML 使用機器學習來生成機器學習的代碼,幾乎不需要人類的介入。從這裡可以看出不同的廠商之間有著巨大的差別。他們有些試圖把高級分析技術看成是機器學習,但其實它不是。而有些所做的高級機器學習已經超出了業務人員能夠理解的範圍。」
於是 Kinetica 出現了。一個位於舊金山的初創公司,已經獲得了 6300 萬美元的風投,開發了一個高性能的 SQL 資料庫,用於快速地攝取和分析數據。Radalj 把 Kinetica 描述成一個大規模並行處理的分散式資料庫和計算平台。
那麼 AI 資料庫與傳統的資料庫有什麼不同?Radalj 說,這要從三個方面來分析。
加速數據攝取
同位置(co-locality)的內存數據(跨資料庫節點並行處理)
數據科學家、軟體工程師和資料庫管理員可以在這個平台上更快地迭代和測試模型,並直接將結果應用於分析上
Radalj 深入解釋了這三個核心因素,說明了 AI 資料庫將如何帶來可衡量的業務價值。他說,數據可用性和數據攝取是關鍵,因為處理實時數據流的能力讓業務人員能夠快速地基於 AI 驅動的洞見做出決策。
Radalj 說,「我們有一個客戶想要每五分鐘跟蹤一次門店的銷售速率,我們基於過去幾個小時的歷史數據做出預測,決定他們是否要補貨還是要優化銷售流程。但這要求每秒進行 600 到 1200 次資料庫查詢,我們的資料庫完全可以滿足這種攝取數據的要求。結果,這個系統給他們帶來了更大的投資回報率」。
Baker 說,機器學習要求大量的數據,所以攝取速度對 AI 資料庫來說是至關重要的。關於第二點「同位置的內存數據」,可能需要做更多的解釋。內存資料庫為了提高處理速度,將數據保存在內存里,而不是磁碟上。而如果資料庫處於同一個位置,就不會造成 CPU 和 GPU 計算節點的分離。
因此,AI 資料庫可以支持並行處理——也就是模仿人類的大腦同時處理多個任務。這樣可以減少硬體的使用,避免 Radalj 所說的「數據傳輸」或者在不同的資料庫組件之間來回發送數據。
Radalj 說,「有些解決方案使用了像 IBM Symphony 這樣的編配器在各種組件之間調度任務,而 Kinetica 更強調使用同位置資源,最小化了數據傳輸場景。同位置的特點帶來了超高的性能和吞吐量,特別是在大數據集上執行高並發的查詢時更是能夠體現這種優勢」。
在資料庫硬體方面,Kinetica 與 NVIDIA 合作,同時也在尋求與英特爾的合作。Radalj 說,Kinetica 時刻關注著新興的 AI 硬體和雲基礎設施,比如谷歌的 Tensor Processing Unit(TPU)。
最後一點是關於統一的模型訓練流程。AI 資料庫的作用體現在為企業的機器學習和深度學習提供更快的數據攝取和處理,幫助他們實現更大的業務目標。Radalj 把 Kinetica 的 AI 資料庫比作一個用於託管模型的「模型管道平台」。
所有這些綜合起來,可以更快地測試和迭代出更準確的機器學習模型。Baker 說,統一的協作方式讓工程師和研究員更快地訓練機器學習和深度學習模型,而不是不斷地重複執行訓練過程。Radalj 說,他們的目標是創建出一個工作流,可以更快地生成模型,並立即將其應用到 BI 當中。
Radalj 說,「數據科學家、軟體工程師和資料庫管理員在同一個平台上工作,他們很清楚自己要做些什麼。他們的目標並非只是運行機器學習和深度學習,而是使用它們生成的結果——把生成的變數應用在分析上,並使用輸出進行打分或預測。」
炒作還是現實?
Kinetica 對 AI 資料庫定義了一個基準價值——優化計算和資料庫資源。AI 資料庫可以幫我們創建出更好的模型,更快、更有效地訓練模型,並建立起將 AI 應用於業務的有效流程。
Radalj 舉了船隊管理和運輸公司的例子。在這裡,AI 資料庫可以實時地處理大量來自車隊的信息,然後對這些地理位置信息進行建模,並結合數據分析技術進行線路優化。
Radalj 說,「配置、創建原型和測試變得更快了。數據越多越好,基於這些數據進行訓練、測試、對比,從而得到最好的模型。神經網路之所以得以生存,是因為現今的數據比過去要多得多,而且我們也正在學習如何利用它」。
Kinetica 的 AI 資料庫和模型管道平台對於不同的人來說可能有不同的意義。Baker 說,對於那些還在探索中的買家來說,他們面臨的挑戰是要搞清楚 AI 資料庫廠商對他們來說意味著什麼。
Baker 說,「就像業務概念一樣,機器學習、深度學習也都具有很強的概念性。我們正在處理的技術問題都是可解決的,只是還沒到解決它們的地步。我們不能說這是一個已經成熟的領域,因為確實不是。我認為,買家之所以會觀望,是因為有些東西並不是機器學習,它們可能只是高級的分析技術」。
關於 AI 資料庫是不是只是一種炒作,還是說它們代表了業務的發展方向,Baker 認為,兩者兼有。她說,人們已經不像以前那麼熱議大數據了,倒是出現了某種高級數據分析技術和機器學習(或深度學習)的組合體。不管是用於機器學習建模的資料庫,還是人們夢想的自覺性人工智慧,它們始終都離不開數據。
Baker 說,「數據一直會被用在業務上,數據是業務的核心。在科幻世界,人工智慧是一種有自我意識的智能,那個時候機器人可能會佔領世界。我不知道這個會不會發生,我們姑且把這個問題留給 Stephen Hawking 去回答吧」。
TAG:AI漫遊 |