人工智慧產品化的關鍵是基礎架構和數據,而非演算法
機器之心報道
參與:微胖、黃小天
突然你發現,機器學習演算法,你所謂的王冠,只是巨大複雜車機上的一個小齒輪。
目前,人工智慧經歷著魔幻般的炒作。數據輸入作為亂七八糟的數字流的神經網路——或者黑箱,並且輸出的數據得到徹底轉化,就像魔術師從一個空帽子中變出一隻兔子。
這在實驗室是可能的,甚至是通過乾淨、調試的數據,在一台個人開發機器上也是可能的。然而,已經付出了很多很多努力,為了把機器學習演算法擴展到類似於多用戶服務的東西上——換句話說,有用的東西上。
人工智慧的關注度正在直線飛升,其中不乏大量炒作,而實際情況是人工智慧技術依然處於起步階段,並且難以實現產品化。從原型到產品,需要克服很多新挑戰:比如訓練數據從何而來?訓練系統時人們如何存儲、組織、精鍊並準備數據?誰可以檢測系統?安全性怎麼樣:如何管理和保護敏感信息?我的硬體需要多快才能傳遞結果?性能瓶頸和並發障礙在哪裡?
魔術耍個不停。突然你發現,人工智慧代碼,你所謂的王冠,只是巨大複雜車機(buggy machine)上一個無足輕重的小齒輪。
Skymind 是一家為企業提供人工智慧解決方案的初創公司,其聯合創始人和首席技術官 Adam Gibson 說:把人工智慧產品化是一個不小的挑戰,基礎架構是最難以解決的問題之一。
Skymind CEO 和聯合創始人 Chris Nicholson 解釋說:部署人工智慧是一個複雜過程,並且要分幾步走,這和水流進一個個管道有些像。
原始數據就像液體,在流入產品的管道之前,需要數字化和聚集原始數據。接著,在使用 Hadoop 等被存儲之前,數據流需要通過工具 Apache Kafka 或者 Apache Storm 進行處理。包括圖像、文本、聲音在內的數據需要被提取、轉化繼而格式化以用於向量計算,並載入到用於訓練的神經網路。
訓練結束之後,將使用更多的數據檢測模型的推斷代碼以查看其性能和精確度。換句話說,對於一個新近訓練的人工智慧,你通過問題來查看其輸出是否和你的預期相一致。
在這一點上,少許的調整、篡改和額外訓練可在正確的方向上推進軟體。當系統達到標準時——精確度足夠高,運行快到可以滿足不耐煩之人的需求——它被插入到一個更大的框架之中,用戶從而可以直接或者通過 API 安全訪問系統。一個典型的例子是 Netflix 或 Amazon 基於用戶信息通過機器學習生成最佳推薦。
它並不止於此,而最後一步是擴展。目前為止我們描述的系統被打包進微服務(microservice)從而人工智慧可以在多台伺服器上數千次地——如果不是數十萬次——被調試以解決需求問題。想像一個用於信用卡查腐的系統,它要應對數百個都姓 Purchas 的人。
Gibson 說:研究者並不知道或者關心這個,他們只對更好的演算法感興趣,而不是服務消費者。
Nicholson 同意 Gibson 的觀點,他說:研究人員對基礎架構和擴展並不感興趣。這裡有一個很好的類比:想像一下數以千計的消費者向同一個客服人員打電話——這就是研究人員的工作方式。他們就只有一個客服人員。但是想像一下如果通用電氣收到了數以千計的電話,其就不可能只安排一個客服人員。你需要無限次複製客服人員以儘可能地滿足服務需求。
呃,我只用雲
類似創業公司這樣的小型公司可能會在他們的人工智慧系統推斷階段大做文章,並且虛晃(「hand-wave」)其他階段。Gibson 告訴 The Register,「他們不會解決涉及所有基礎架構和擴展的數據量問題,因此,理想的做法是訴諸雲端」,「但是,隨著公司變大,他們也需要擔心這些問題。」
Skymind 成立於 2014 年,研發了一種用 Java 編寫的深度學習框架 Deeplearning4j,能與 Hadoop 和 Spark 融合。
諸如谷歌雲、微軟 Azure 以及亞馬遜雲這樣的雲平台正競相將人工智慧作為一種服務提供給大眾。他們為用戶提供預訓練模型,通過將不同工具(比如圖像識別或自然語言處理)弄在一塊,也為用戶提供一種生成更加定製化模型的辦法。
藉助雲使用人工智慧模型既受約束也很昂貴。神經網路迭代學習,也要求在多個 GPU 上進行密集訓練。藉助雲來實現這些,花費在 1 萬 5 千美元到 3 萬美元之間不等,Nicholson 介紹說。
「付不起錢的創業公司會使用從網上下載的預訓練模型,進行定製化——這是典型的做法——並把模型上傳到雲。」
這麼做的好處就是小型團隊不用到處找懂機器學習的計算機科學家來將想法付諸現實。但是,也有不利的地方:受限於預先被打包的模型。事實上,這也是證明一家公司是否對人工智慧持嚴肅態度的辦法。人工智慧的炒作似乎不會減緩,吹噓這些方面也增加了上頭條或博得更多投資的機會。
「一家公司如果打造人工智慧,要解決四個問題:人才、工具、數據和基礎架構。」Nicholson 說,「需要有機器學習背景的人,計算機科學家以及黑客。要能解釋他們用的哪類演算法,如果使用雲,那麼,他們可能沒有同樣多的數據,也不需要考慮基礎架構問題。」
「如果他們不談論演算法和技術堆棧,那麼,這就是個警示。你很難認真對待這些人,因為他們啥都幹得出來。他們在 logistic 回歸中使用 if-then 卻稱其為人工智慧。」
人工智慧不走大眾路線
從製藥貿易到政府部門,從不缺乏將人工智慧應用到數據中的商業興趣。不過,這並適合所有人,Nicholson 和 Gibson 說。深度學習需要將訓練數據大量綁定以研發具有高性能的模型。
「事實是,幾乎所有創業公司並不掌握足夠數據。公司也必須現實點。人們不得不跨過幻想階段,尋找一個可以解決的真正問題。」
※微軟發布深度學習工具包CNTK 2.0正式版
※特寫|人工智慧背後的人
※萬維網之父Berners-Lee獲圖靈獎:獎金100萬美元
※業界|深度學習真的萬能嗎?理解深度學習的局限性
TAG:機器之心 |
※人工智慧基礎演算法
※人工智慧基礎演算法之感知器
※為人工智慧制定有效的IT基礎架構戰略
※新一代大數據與人工智慧基礎架構技術的發展與趨勢
※結構性貨幣政策的理論基礎與演進邏輯
※人工智慧對資產管理的顛覆——人工智慧夯實資產管理基礎
※從IT基礎架構到智能數據管理,數字化轉型的進階之路
※機械加工基礎知識——刀具鈍化的處理和目的
※「數字化」才是智能製造的基礎!
※原創是人工智慧繁榮的基礎
※中航工業顧問寧振波:智能製造的基礎是數字化,機器換人仍只是自動化的老路
※人工智慧與機器學習:演算法基礎和哲學觀點
※人工智慧時代,需要具備的數學基礎
※機械基礎知識 工裝夾具的結構與設計
※人類基礎理論百年無法突破,真有三體人鎖死人類基礎理論的發展嗎
※關於木工鋸機的一些基礎知識
※對稱性與拓撲序:新型量子計算機的物理基礎
※工業設計手繪——金屬材質理論基礎篇!
※解放人工智慧的力量,應成為基礎設施管理者們的首要任務
※人工智慧所需的數學基礎