當前位置:
首頁 > 新聞 > 深度:芸芸眾司向AI進軍路上的笑與淚

深度:芸芸眾司向AI進軍路上的笑與淚

深度:芸芸眾司向AI進軍路上的笑與淚

雷鋒網註:【 圖片來源:Future of Life所有者: The FLI Team 】

此AI非彼AI

人們可能已經厭倦了聽AI改變科技公司的老生常談。但拋開市場炒作不談,對於AI公司來說,有充分的理由去研究怎樣利用AI將公司收益最大化。

首先我們要將AI這個術語拋之腦後。雖然「AI」可以用來代表一個致力於製造智能機器的學術領域,但不得不說,它是一個定義鬆散的術語。這個術語為不擇手段的供應商留下了發揮空間,讓他們可以藉由這個噱頭,來重塑自己軟體的古板形象。

華威商學院的副教授Panos Constantinides表示,「現在,幾乎所有的事情都能與AI扯上關係,這正是炒作的關鍵點。」他補充說,「這種炒作之所以存在,是因為我們對AI缺乏清晰的認識。」所以,為了避免這種情況,我們要清楚這一點:如今大多數技術供應商在談論AI時,其實指的是機器學習。

機器學習是AI的一個子集,通過機器學習,計算機能夠自行分析大量數據,然後執行相應的任務,而不再需要等待程序員發出指令。

最近,由於計算機視覺、語音識別和自然語言理解等領域取得了突破性進展,人們對機器學習也產生了濃厚興趣。這些領域的蓬勃發展其實要歸功於實現機器學習的新方法,比如深度學習,而深度學習又得益於現代處理器的強大功能和大量可收集的數據資源。

從理論上講,機器學習有望使大量工作自動化,即便是目前仍需要人類手動完成的任務。雖然,機器學習已經用於客戶查詢服務、後台管理,甚至汽車駕駛等領域,但現實情況是,想要在生產中完全依賴基於機器學習技術的系統,芸芸眾司還有很長的路要走。

O"reilly做了一項調查來判斷AI在企業中的使用情況,儘管AI的使用情況因行業而異,但是,不到75%的受訪者表示,他們的企業要麼正在評估「AI」,要麼還沒有開始使用「AI」:

深度:芸芸眾司向AI進軍路上的笑與淚

雷鋒網註:【 圖片來源:ZDNet所有者:O"Reilly 】

機器學習無孔不入

不少赫赫有名的企業已經使用機器學習:勞斯萊斯通過分析互聯網感測器的數據,及時發現飛機引擎的磨損跡象,並提前進行維修;谷歌使用了DeepMind的技術,將用於冷卻數據中心的能量降低了大概40%;亞馬遜使用圖像識別來識別顧客從Go商店裡購買的商品,而Go商店是亞馬遜旗下的自助商店。

早在多年前,機器學習就已經應用於各大企業,只是它的表現有點平淡無奇:亞馬遜的智能系統會推薦你買更多產品;Netflix的智能系統會推薦你看更多節目;在微軟等公司運營的全球安全系統中,一旦出現網路威脅,系統就會發出警告。

最近,像花旗集團這樣的金融投資公司也開始使用機器學習來警惕欺詐交易和支付錯誤。

您的公司很有可能也使用了基於機器學習的服務,哪怕和機器學習只有一點點關係也算。例如,在自然語言處理和語音識別中使用機器學習,從而驅動客服中心的聊天機器人或是其他自動響應系統。

總體上來說,O"reilly的受訪者認為,客戶服務和IT是自己公司使用「AI」最多的兩個領域。而其他公司已經著手通過機器學習為員工執行的重複性任務建模,試圖將這些任務自動化。目前,已有一些公司專攻這一領域,也就是所謂的機器人流程自動化(RPA)。

實際上,RPA並不總是涉及機器學習,而且從歷史上看,RPA是由開發人員來實施的,他們為軟體過程的自動化制定規則。RPA不應該與機器學習相混淆(因為自動化過程的步驟可以由開發人員編寫),但是,弗雷斯特公司預測,機器學習未來將在RPA中扮演更重要的角色。

這家分析公司在一篇報告中指出:「目前,眾多企業已經將包括機器學習和文本分析在內的AI模塊構建技術與RPA相結合,從而為數字工作者帶來更大的收益。」但是,在生產過程中使用機器學習的公司仍然只是少數,大部分公司只是試用機器學習系統,或者僅僅使用像Gmail這樣包含機器學習功能的服務。

華威商學院的教授Mark Skilton表示,「企業追求RPA,這無可厚非。據我估計,目前,社會上有20%至30%的工作已經使用了這項技術,但機器學習的應用範圍仍然非常小。」

不過,正如O"reilly的報告顯示,有近三分之二的受訪公司計劃,在未來一年裡,投入至少5%的IT預算來開展AI項目。各家公司都已開始察覺,在未來幾年內,機器學習系統有潛力讓公司現有的效率,服務和產品質量更上一層樓。

不少企業告訴弗雷斯特公司,他們投資自動化的主要原因是想節約成本。下圖是企業對「採用自動化技術最大的收益是什麼,或者可能是什麼?」這個問題的回答,弗雷斯特公司對回答進行了整理和分析。

深度:芸芸眾司向AI進軍路上的笑與淚

雷鋒網註:【 圖片來源:ZDNet所有者:Forrester 】

機器學習的正確打開方式

當然,尚不清楚進行機器學習的理由就貿然採用機器學習,這種做法並不明智。那麼,機器學習究竟能做些什麼呢?

機器學習最經典的任務就是在大量數據中找到目標。在實踐中,這種識別能力可以從音頻中識別單詞,從照片中識別人臉,或者理解一個單詞在句子中的意思。

如果想要引入機器學習,你需要該領域專家的協助,還需要一個內部資料庫。在項目開始之前,你還有很多事情要考慮,比如,自己要利用機器學習完成什麼目標,機器學習是否是完成目標的不錯選擇,以及你需要的機器學習類型(監督機器學習、無監督機器學習和增強機器學習)。

除此之外,你還要清楚自己在收集什麼數據類型,怎樣讓這些數據適合於訓練機器學習模型,以及這些數據有哪些特性利於訓練機器學習模型。Constantinides教授說,「數據科學家需要創建機器學習演算法,但如果你的數據有誤,就沒辦法正常運行機器學習。」

還有一個問題是,使用現有的數據來訓練模型可能會要求你尋求進一步的許可,或者實施額外的保護手段來遵守隱私法規,比如歐盟的GDPR。

Constantinides教授表示,在訓練深度神經網路時,想要獲得GDPR的同意尤其具有挑戰性,因為GDPR為機器學習技術的使用設置了額外障礙。他解釋道,「數據大量集聚,我們很難確切地知道它們到底來自哪裡。」

當涉及到技術選擇時,你需要決定是租用雲硬體,還是構建自己的深度學習平台。亞馬遜、微軟和谷歌等公司是主要的雲平台提供商,它們提供一系列按需付費的機器學習服務,包括語音識別、計算機視覺、自然語言處理、情感分析、數據預測和翻譯等。有時,這些服務被捆綁成更高級、更複雜的產品,如聊天機器人創建工具包和零售商推薦引擎。

除了按需服務之外,包括AWS、Google Cloud和Microsoft Azure等在內的雲平台還提供其他服務,允許企業利用這些平台的雲基礎設施,來訓練和運行自己的機器學習模型。模型經過訓練之後,就可以滿足這些公司對數據的需求,但這一目標完成的前提是內部數據科學家、領域專家和IT運維人員的共同努力。

雲平台提供商甚至已經開始提供服務,將機器學習模型的培訓過程進行部分自動化,儘管這些服務旨在增強數據科學家的技能,而不是取代他們。

還有一些服務簡化了機器學習模型的訓練過程,比如微軟的Machine Learning Studio、谷歌的Cloud AutoML和亞馬遜的AWS SageMaker。

與此同時,機器學習模型(例如,在計算機視覺任務中給圖像貼標籤)的訓練數據準備,往往由眾包網站外包給自由職業者。

如果你決定在公司內部建立自己的機器學習系統,這筆費用可不是一個小數目。但如果你預計培訓過程將持續數月,並且工作量巨大,那麼它可能比使用雲服務更實惠。

另外,你需要投資一個性能強大的GPU來完成你想要的一切任務,而不僅僅是訓練神經網路,因為訓練這種支持機器學習的類腦數學模型相對簡單。而且,通常來說,GPU是訓練神經網路的必需品,因為它們能夠並行執行大量的矩陣乘法,這有助於加快訓練的速度。

如果你不打算訓練有大量圖層的神經網路,你可以選擇消費級顯卡,比如英偉達的GeForce GTX 2060,售價只要320英鎊左右,但仍然提供1920個CUDA核心。

然而,重型訓練需要更加專業的設備。用於機器學習的最強GPU之一是英偉達的Tesla V100,它包含640個AI定製張量計算核心和5120個通用高性能計算CUDA核心。但是,這種顯卡的價格遠遠高於消費級顯卡,PCI Express版本的價格最低也要7500英鎊。

如果要構建AI工作終端或伺服器的話,成本要再高出一個數量級,英偉達的DGX-2專攻機器學習和AI研究,它包含16張Tesla V100卡,售價高達39.9萬美元。

深度學習軟體框架也數不勝數,這種軟體框架允許用戶使用不同的編程語言來設計、訓練和驗證深度神經網路。其中,谷歌的TensorFlow軟體庫因為許多優點而廣受歡迎:允許用戶使用Python,Java,c++和Swift等多種編程語言;可用於多種深度學習任務,例如圖像識別、語音識別;可以在CPU、GPU及其他處理器上運行;有許多可用的教程和實現模型。

另一個常用的框架是PyTorch,這個框架對初學者很友好,因為它提供了開發人員熟悉的命令式編程模型,並允許程序員使用標準Python語句。PyTorch還可以與多種深度神經網路(從CNNs到RNNs)協同工作,並在GPU上高效運行。

其他框架包括Cognitive Toolkit、MATLAB、MXNet、Chainer和Keras。

從計算機硬體,到機器學習框架,科技的進步意味著,現在,公司部署訓練有素的機器學習模型已經不再遙不可及,這些模型在物聯網感測器採集的數據中識別目標,也會變得更加便捷。

機器學習應遠離核心業務

公司可以用什麼類型的項目來檢驗機器學習的效果呢?Constantinides教授建議從簡單的任務開始,也就是說從一個非關鍵的業務領域切入,然後進行擴展。

Constantinides教授以客服中心的聊天機器人為例,為廣大企業提供了一個可行的選擇。這種聊天機器人可以回答一些重複性強的問題,如果問題太複雜,它就可以將客戶交給人工客服。

「大多數公司都認為客服中心位於公司核心競爭力之外,」Constantinides教授說道,「因此,從這裡開始的風險相對較低。」Constantinides補充說,公司的聊天機器人項目運行穩定後,就可以轉向另一種基於機器學習的服務,也就是所謂的推薦引擎。

該服務能夠幫助擴大公司AI項目的規模。一旦獲得了客戶的數據,公司就可以開始進行不同類型的預測,或是提出相關的問題,比如「您會考慮購買其他產品嗎?」

同樣,弗雷斯特公司的Gownder也強調了這一點:將啟動項目的重點縮小到特定任務十分重要。在一份報告中,他舉了一家醫療科技公司的例子,這家公司專註於為放射科醫生分析醫療掃描結果,而不是設定從整體上攻克癌症這種更寬泛更難以實現的目標。

隨時失敗的可能性

公司要對機器學習項目有一個清晰的認知,這一點十分關鍵。

弗雷斯特公司的Gownder也表示,在AI、自動化和機器人領域,因野心過大而導致失敗已不是什麼新鮮事。就像安德森癌症中心曾花費6200萬美元,使用IBM的Watson幫助病人確定治療方案,然而,項目最終還是失敗了。

一般來說,在使用機器學習技術時,我們有必要控制自己的期望值,要意識到機器可能會帶來並不完美的結果:語音識別會轉錄錯誤,面部識別系統會辨認錯誤的人。正因如此,這些系統的用途是輔助人類進行判斷,縮小選擇範圍,而不是直接取代人類。

雖然,自動化的趨勢減少了社會上從業人員的數量,但是,以目前的科技水平來說,想要完全實現自動化還為時尚早。

Gownder在弗雷斯特的報告中也指出了過度過快自動化的危險。報告里援引了汽車製造商Tesla的舉措為例,在發現機器人不適合執行某些任務後,該公司決定讓人類重返生產線。他說道,「自從讓人類重返生產線以來,Tesla的Model 3成為美國最暢銷的汽車之一,從2018年1月僅生產1825輛汽車,增長到7月12日的14250輛。」

另外,企業還面臨著一個更為複雜的問題,那就是開展機器學習項目需要數據科學專業家的幫助。例如,O"Reilly的調查中,超過一半的受訪者表示,自己的企業需要相關領域的專家指導。在O"Reilly的另一份報告中,數據科學和數據工程再次被列為公司在分析相關的技能方面存在最大差距的兩個領域。

深度:芸芸眾司向AI進軍路上的笑與淚

雷鋒網註:【 圖片來源:ZDNet所有者:O"Reilly 】

華威商學院的Skilton認為,技術和前景是存在的,真正的問題是如何給數據加上標籤,以及怎樣獲得知識來理解「我如何準備數據以便開始從中學習?」

儘管存在這麼多問題,但越來越多的公司開始嘗試機器學習技術。Skilton表示,2019年正值企業挑戰機器學習的好時機,他說,「這樣一來,公司就可以把人類的知識轉移到機器上,擴大員工規模,提高自己公司的生產率」。

雷鋒網註:原文作者為 Nick Heath,本文由雷鋒網編譯自ZDNet

【封面圖片來源:網站名Future of Life,所有者:The FLI Team】

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

勒索軟體不可破解?誰在標題黨
歐盟發布AI道德指南,這次可不是「鬧著玩」

TAG:雷鋒網 |