關於機器學習,你所知道的,可能都是錯的
雷鋒網按,雖然機器學習已經成為一個高頻名詞,但是對於大眾而言,它依然是一個遙不可及乃至模糊不清的概念。為此,著名投資人 Benedict Evans 在自己的博客上發表博文,針對這一問題表達了自己的看法;雷鋒網對這篇博文進行了不改變原意的編譯。
機器學習的風潮已經颳了四五年了,除了以 AI 為名如雨後春筍般快速崛起的新創公司們,各家科技巨頭也希望圍繞這個時髦詞「重塑金身」。此外,通過媒體的大肆宣傳,機器學習也已經成了一個家喻戶曉的名詞。總之,機器學習將成為下一個能幫「豬」起飛的風口已經是大家的共識。
在正式開始之前,我們先說說人工智慧(AI),機器學習,神經網路和深度學習四者的關聯。簡單來說,人工智慧的範疇最大,機器學習包含在內,它是帶來人工智慧的方法。至於神經網路,則是機器學習眾多演算法中的一類,而深度學習則是實現機器學習的技術,是它的一種延伸。
經過這麼多年的知識普及,恐怕理解(理論上)神經網路是什麼的人已經相當多,至少大家都知道它與範式和數據有關。機器學習讓我們能在數據中找到那些暗示性和隨機性的範式或結構,而在此之前能找到這些隱含屬性的只有人類,因為我們會推理。
有了機器學習,那些原本對人類來說相當簡單(或者說無法向計算機描述的問題)但卻能難倒計算機的問題就迎刃而解了,各路公司也都拿出了相當炫酷的演示。
不過,筆者依然認為,對於機器學習的定義,整個行業依然沒有一個固定的理解,一切都還未塵埃落定。對於科技公司或整體經濟來說它到底意味著什麼?機器學習到底能解決什麼重要問題?它對於普羅大眾又意味著什麼?如何從結構上理解它的影響呢?
這時有人會抬出 AI 這個術語,不過它其實一個問題都回答不了,它就像《2001 太空漫遊》中提到的黑色巨石(代表未解之謎),在它面前我們都是揮舞著拳頭吼叫的猩猩,想解構 AI 幾乎是不可能完成的任務。
事實上,我覺得現在大家能提出一大串無用的方法來討論機器學習的發展程度。舉例來說:
1. 數據是新的石油
2. 谷歌和中國包攬了所有數據
3. AI 將搶走所有工作
4. 只談論 AI
也許,我們能找個更多有用的角度,比如:
1. 自動化
2. 為技術層賦能
3. 關係資料庫
為什麼要提到關係資料庫呢?因為它們是新的基礎賦能層,可以擴大計算機的能力範圍。在關係資料庫出現之前(上世紀 70 年代末),如果你想讓資料庫告訴你「住在這座城市裡的人誰買了這件商品」,就必須專門搞個定製版的工程項目。也就是說,當時的資料庫建立時沒有結構,因此想實現任意的交叉引用查詢可是個難事。如果你想問個問題,就得有人圍繞這個問題下大功夫工作一番。當時的資料庫只是一套記錄系統,但關係資料庫的出現讓它們進化成了商業智能系統。
這樣的改變也讓資料庫的重要性陡然增加,新的用例伴隨獨角獸們如雨後春筍般誕生。關係資料庫的誕生給了我們甲骨文和 SAP 公司,而 SAP 和競爭對手們又一同為世界帶來了全球無庫存式供應鏈,在這一技術的基礎上,蘋果和星巴克等公司締造了自己的帝國。上世紀 90 年代,幾乎所有企業級軟體都換用了關係資料庫,包括 PeopleSoft,CRM 和 SuccessFactors 都是基於關係資料庫運行的產品。此役之後,再也不會有人傻兮兮的說「沒用的,甲骨文早已吃掉所有資料庫」這種話了。相反,這項技術幾乎成了所有新事物的賦能層,它已無處不在。
因此,這一思路才是我們現在重新思考機器學習的最佳接地方式,它會給計算機能力帶來巨大的躍升,成為不同公司不同產品中的一部分。最終,機器學習也會無處不在,成為大家習以為常甚至都不願再提的一項技術。
值得一提的是,雖然關係資料庫具有規模經濟效應,但它提供的確實一個有限網路或「贏家通吃」的效應。也就是說,即使公司 A 和公司 B 買了同一個資料庫軟體,兩家公司也不會從對方那裡獲益。機器學習也遵循同樣的道理,它的一切都與數據有關,但數據又與特定的應用程序息息相關。更多的筆跡數據只會提高它任筆跡的能力,而更多的燃氣輪機數據讓系統能提前預測故障,但兩者並不能相互扶持。這就是其殘酷之處,數據是不可替代的。
上面這段話其實徹底攥住了我們對於機器學習普遍誤解的核心,即在某種程度上來看,它是一個單一的通用的事物。同時,在理解什麼是自動化時我們也犯了相同錯誤。在每一次自動化風潮到來時,我們都感覺自己在創造一種擬人的且有基本智力的技術。舉例來說,上世紀 50 年代,人類開始暢想能做家務和上菜的機器人,結果我們沒培養出機器人服務生,反而造出了洗衣機。
洗衣機也是機器人,不過它們並非「智能」機器人。它們不清楚水和衣服到底是何物。此外,即使是在洗滌這個分類中,它們也並非通用產品,要不然洗碗機也不會誕生了。簡單來說,它們只是另一種形式的自動化,在概念上和傳送帶沒什麼不同。同樣的,機器學習確實能讓我們解決許多現在電腦搞不定的問題,不過這些問題肯定都需要不同的實現方式和不同的數據,甚至是不同的市場策略和開發公司,而這其中的每一環都是自動化的一塊拼圖,它們是一個個能執行不同任務的洗滌設備。
因此,在談論機器學習時我們肯定會遭遇「攔路虎」,即我們要在數學的機械論解釋和對人工智慧的幻想中找到中間立場。
讓我們回到與關係資料庫的類比話題,現在我們確實能信心滿滿的說,這項技術能解決大量問題,但你並不知道是哪些具體問題。你能用機器學習進行令人印象深刻的語音和圖像識別展示,但普通公司用它來幹什麼呢?就像一家美國媒體公司說的:「有了機器學習,我們確實能一次給十年的訪談節目做索引,但我們要在索引里找什麼呢?」
那麼什麼才是有真正用途的機器學習洗滌機呢?要解答這個問題,我認為需要用到兩種工具。第一種是按照數據類型和問題類型的隊列進行思考。
1. 機器學習確實能在你所擁有的數據中快速找到問題答案,你甚至可以將它看做一種分析或優化技術。舉例來說,我們的投資公司 Instacart 就打造了一套系統,專門用來優化個人買家通過分散渠道進行投資的路徑。這套系統直接將效率提升了 50%,而且開發團隊只有三名工程師(用了谷歌的開源工具)。
2. 同時,機器學習還能讓你在數據中找到新問題的答案。舉例來說,一位正在為打官司做準備的律師可以搜索到包含「憤怒」、「憂慮」或「反常」意味的郵件,這樣就比單純的關鍵詞搜索高效多了。
3. 機器學習打開了新大門,給了我們可以分析的新數據類型。從前計算機無法真正的讀懂音頻、圖像或視頻,但未來這一切都有可能成真。
在這三種數據類型中,我發現圖像最有趣。計算機誕生伊始,就能處理文本和數字,但圖像和視頻卻是它們的軟肋,現在它們不但能讀,還能看了。這就意味著圖像感測器和麥克風成了一種全新的輸入機制,它們攝像頭的屬性被機讀數據流生成器屬性蓋過。所有的事都會成為計算視覺問題,但這裡的計算視覺問題又與當下的計算視覺問題有所不同。
這又與識別「貓片」無關。最近我參觀了一家汽車座椅供應商,它們就在自家的廉價 DSP 晶元中灌入了神經網路,而與其配合的則是廉價的智能手機圖像感測器。它們搭建這套系統,是為了查找座椅織物中的褶皺。將這套系統稱為「人工智慧」有些言過其實了,它只不過是將某種此前無法自動化的任務自動化了而已。
這種自動化的感覺是我們思考有關機器學習問題的第二種工具。對人來說,找找織物中的褶皺可用不了二十年的經驗積累,因為它太簡單了。事實上,我的同事就認為,那些無論如何訓練,狗狗都學不會的能力,機器學習都能掌握。這有益於我們思考有關 AI 偏見的問題,但還是有自己的局限性。因為狗狗可沒有一般智力和常識,而神經網路可不同。吳恩達就指出,機器學習能在一秒鐘之內學走你的能力。
五年之前,如果你給計算機一堆圖片來辨認,它們能做的只是區分這些圖片的尺寸,而十歲的小孩很輕鬆就能分辨出照片中的男人和女人,而十五歲的小孩則能看出照片里的面孔酷不酷,而再長大幾歲去實習時,人甚至能看出照片中的隱晦的意味。有了機器學習後,計算機的能力馬上就提升到十歲孩子的級別,它們甚至能衝擊下十五歲的智商。機器學習可能永遠達不到實習生的水平,但如果你手上有 100 萬個十五歲孩子來保管數據呢?你會命令他們做什麼?聽什麼電話?看什麼圖片?審查什麼文件或信用卡支付呢?
換言之,機器學習不需要成為擁有幾十年經驗的「老司機」,我們也不是要讓專家成為自動化的「犧牲品」。相反,我們對機器學習的主要要求是「接聽所有電話並挑出那些生氣的人」,「閱讀所有郵件並找出那些滿是焦慮的郵件」,「看遍成千上萬張照片並找到那些照片中的炫酷人類」。
在某種意義上,這就是自動化的慣例。Excel 沒給我們人工會計員,PS 也沒給我們人工圖片設計師。相反,我們大規模自動化了離散的任務。
在某些領域,機器學習可能找不到人類已經認識到的東西,但它們卻能找到我們認識不到的或者範式、推論或暗示,就像 Deepmind 的 AlphaGo 那樣。AlphaGo 並不會像圍棋運動員那樣下棋,而是先學會規則隨後進行不斷的左右互搏。如果機器學習充當著實習生的角色,它們不會一開始就告訴你某張照片很好看,而是在看到第三百萬張圖片時,發現其中的範式。那麼,到底哪個領域小到讓我們能告訴機器學習系統具體的規則,以便它們能在數據中挖掘出新的成果呢?
我花了很多時間遍訪各家公司以尋找它們的技術需求,在機器學習上顯然它們已經有許多即將成熟的果實。不過,這裡確實還有許多明顯的分析和優化問題,有些則是圖像識別或音頻分析問題。我們討論自動駕駛汽車和混合現實是因為機器學習成了它們的催化劑。機器學習讓汽車能看到它周圍事物的一舉一動,至於混合現實,機器學習則決定了頭盔佩戴者到底能看到什麼。不過,在討論過織物上的褶皺或呼叫中心的情感分析後,這些公司又有了新問題:「機器學習還有其他能耐嗎?它們還能助力什麼技術?又能發現什麼新機遇?」
在厭煩這些問題之前,我們恐怕還能保持 10-15 年的新鮮感。
viaben-evans,雷鋒網編譯。
※人工智慧深度學習利用生成敵對網路的無監督目標定位純粹機器學習
※機器學習你會遇到的「坑」
TAG:機器學習 |