當前位置:
首頁 > 新聞 > 觀點|機器學習確實還沒商品化,但也不是必需博士學位

觀點|機器學習確實還沒商品化,但也不是必需博士學位

選自fast.ai

作者:Rachel Thomas

機器之心編譯

參與:晏奇、微胖、吳攀

上周,我收到了兩個前提截然相反的問題:其中一個是興奮地認為機器學習目前已經自動化了,而另一個則擔心學習機器學習會花掉多年的時間,以下是這兩個問題的原話:

觀點|機器學習確實還沒商品化,但也不是必需博士學位

問題 1:我聽說,谷歌雲宣稱,企業家能輕易且快速的基於機器學習/自然語言處理的 API 開發自己的程序。如果這是真的:「那麼,機器學習和數據未來已經到來,谷歌已經找到了解決自然語言處理和語音提升問題的辦法,用他們的 API 就可以輕鬆享受這一紅利。既然秘訣已經被商業化,你也可以利用這一秘訣。問題是,秘訣到來的時間是否會越來越短呢?

問題 2:為了在機器學習領域工作,你需要一個該領域的 PhD,這事真的嗎?還有就是在學習機器學習之前,是不是一定要先修微積分、線性代數、概率論/統計學這些乏味的全套大學數學課程,然後再學 C/C++和並行分布式編程(CUDA,MPI,OpenMP 等等)。Hacker News 一個評分最高的評論說,即便你把這些內容學了個遍,還是得從頭開始應用機器學習演算法,先是 C,接下來是 MPI 或 CUDA,然後是 Numpy,然後你才能學會在 Theano 或者 TensorFlow 上應用它們。

回答:很多人在人工智慧熱,以及諸如「人工智慧是那些天才們的專屬工具」的警告中昏了頭,完全可以理解啊。對於記者來說,人工智慧是個很難報道的領域,而且遺憾的是,被歪曲的事實隨處可見。比如,最近有一篇文章:Stop saying DeepCoder steals code from StackOverflow 就研究了 DeepCoder 是如何被媒體誤解的。

我對以上兩個問題的回答是:不,兩個問題似乎截然不同,但它們有一個共同的思路:很多在機器學習領域工作的人都對以下兩點之一感興趣:

1. 說服你購買他們多用途機器學習 API。

2. 讓你相信他們做得事情非常複雜、困難以及門檻很高,一般人很難理解。(這個常見的話題,最近 reddit 上一篇戲謔它的文章被頂到了機器學習頁首。)

的確,機器學習的進步非常迅速,但就目前而言,你只需要能通過有效編程,使用到這項技術。我們的免費在線課程 Practical Deep Learning for Coders可以讓你在 70 小時學習之後,高效使用深度學習技術。

為何「機器學習即服務」(Machine Learning As A Service,MLaaS)在實踐中令人失望?

擁有一款通用機器學習 API 看起來是一個好點子,但是,事實上我們的技術目前還達不到。現有的 API 都太過局限而無法推廣,有些 API 試圖變得非常通用,但其實際效果非常差。Bradford Cross(他是 Flightcaster 與 Prismatic 的創始人,Data Collective VC 合伙人)寫了篇文章,分析了最近很多人工智慧公司嘗試打造用戶需要且願意付錢使用的產品,但都失敗的原因,他寫道:「有觀點認為,現在,那些從事或者圍繞人工智慧工作的人要負責引導人類進步,因為他們在從事重要的工作。這種態度就是這些失敗的罪魁禍首。這種自大的觀點讓大家看不到這一事:他們正困在一間迴音室里,屋子裡所有人都在討論技術趨勢而不是客戶需要和經濟賬。」

Cross 繼續寫道「機器學習即服務(MLaaS)是一個我們關注了近 10 年的想法,但是一直以來,它並不被看好。它之所以沒有實現,根本原因在於,懂行的人只使用開源,而那些不懂行的根本無法做任何事情,有了 API 也不行。很多非常聰明的朋友都落入了這個陷阱。

大公司為了壯大自己的機器學習團隊,收購了很多公司,其中就有被 IBM 收購的 Alchemy API,被 Intel 收購的 Saffron 以及被 Salesforce 收購的 Metamind。API 功能背後的機器學習模式賺錢輕鬆又快,這一點繼續引誘著那些無助的人。亞馬遜、谷歌和微軟都嘗試出售 MLaaS 層,將此作為自己雲戰略一部分。我還沒見過在自然場景下(in the wild)使用這些介面的創業公司或者大公司,倒是看到很多人在這一場景下使用人工智慧技術,或許是因為我觀察不足吧。」

谷歌雲會是解決問題的答案嗎?

谷歌並非定位幫助實現深度學習的民主化。不是因為公司意圖叵測,而是因為他們有太多伺服器、太多錢和太多數據了,根本不用擔心世界上大多數人和公司面臨的問題——如何充分利用有限的 GPU 、有限的數據集和有限的預算。AWS 可是很貴的!谷歌大腦技術過於高級,不是普通程序員能染指的。

例如,TensorFlow 是一門低層面的語言,但是,在發布和推廣它的時候,谷歌似乎沒有注意到這一點。TensorFlow 的設計者本可以使用一種更加標準的面向對象的方法(如 PyTorch 就非常好),但是,他們沒有,而是沿襲了谷歌的優良傳統:發明一種僅適合谷歌的新慣例。

所以,如果谷歌甚至不能設計一個熟練數據科學家容易上手的庫,怎麼可能創造出普通人可用來解決真實問題的東西呢?

Hacker News 的計劃:「普通 C 實現演算法,然後 CUDA,最後用普通的 Numpy/MATLAB。」

為什麼 Hacker News 通常會給出這麼糟糕的機器學習建議?儘管機器學習背後的理論需要大量高等數學知識,但是,這和實踐中使用機器學習所需的實用知識還是非常不同的。作為一個數學博士,我知道,較之打造一個實際有用的模型,那些數學知識沒預期中的那麼有用。

其中暴露出的思路是有害的,原因如下:

  • 完全錯誤。

  • 好的教育會促進重要概念的研究。借用 Paul Lockhart 在*Mathematician"s Lament*里的一個類比,如果先讓孩子學習幾年音樂理論,再讓孩子碰樂器或者唱首歌,孩子會放棄音樂。

  • 好的教育不會過度複雜化材料。如果你真理解一樣東西,就可以用一種通俗易懂的方式來解釋它。數周的 *Practical Deep Learning for Coders*課程學習,Jermy Howard 僅用 Excel 表格就清楚解釋了不同現代優化技術(這常常被視為一個複雜的話題)的運行原理。

就像我在幾個月前寫道的,挑一位你所在組織里的業內專家,讓他們學習深度學習技術要比空降一位深度學習專家要好得多。深度學習博士畢業生不太可能具備大量廣泛相關經驗(而這些又是那些最高效員工身上最珍貴的東西),他們更有可能對解決有趣的工程問題而不是聚焦於那些商業上最重要的問題。

「以我們在很多產業和多年來將機器學習應用於一系列問題的經驗看,一直會有不被看好和有好技術卻不被投資的公司出現。在大數據時代,這意味著公司得把錢花在外面找諮詢顧問。在錯誤的『深度學習排他性』這種觀念傳播的日子裡,這意味著搜索那些獨角獸深度學習專家意味著不景氣的深度學習創業公司要為此支付過高的成本。」

破除誇張宣傳(當你不是機器學習研究者時)

計算語言學家 Dan Simonson 受邀寫了一本答疑指南。其中評價了 NLP、機器學習和人工智慧並且指明了鑒別虛假信息的辦法(http://blog.thedansimonson.com/?p=461):

  • 是否存在訓練數據?如果不是,我們怎麼計劃來得到它們?

  • 他們是否有一個內置於自身應用開發過程中的評價機制?

  • 他們提出的應用是否依賴於在特定人工智慧組分上的前所未有的好表現?

  • 提出的解決方案是否是基於證實的、可靠的現象?

  • 如果使用了預裝人工智慧部件,他們是否有從使用這些部件到獲得有意義的應用輸出的明確計劃?

作為一個 NLP 研究者,Simonson 對現在人工智慧的發展非常興奮,但是他指出當人們利用從業者和公眾之間的知識斷層時,整個領域就受到了傷害,

深度學習研究者 Stephen Merity(就職於 Salesforce/Metamind)寫了一篇題目貼切的文章《機器學習不是魔法:幫助降低人工智慧炒作而應該被提出的問題》(https://smerity.com/articles/2016/ml_not_magic.html),其中包括:

  • 需要多少訓練數據?

  • 這項工作是否是無監督式(即不給樣本進行標記)的?

  • 系統能否根據辭彙類別進行預測。(例如:想像一下,如果我說「我的朋友 Rudinyard 曾經對我很刻薄」,很多人工智慧系統根本不能回答「誰對你刻薄」這個問題,因為 Rudinyard 不是該系統收入的辭彙。)

  • 當輸入的故事變得更長時,精確性降低了多少?

  • 在整個時段中模型的表現有多穩定?

Merity 也提示道,模型經常基於被高度處理、規划了的或受限的數據集被評估,而這些數據集不能精確地反應你正在處理的真實數據。

這對你意味著什麼?

如果你是一位有志向的機器學習從業者:好消息!不需要博士學位,不用從頭開始從 CUDA 或 MPI 開始編寫演算法。如果你有一年的編程經驗,我們推薦你試試 Practical Deep Learning for Coders 課程(http://course.fast.ai/),或者考慮一下我的額外建議:《如何變成一位數據科學家?》

如果你在科技領域工作,想要打造一項使用機器學習業務:好消息!不用從 OpenAI 僱人,那些博士不僅難找還很貴。為貴公司的編程人員提供追趕速度所需的資源和時間吧。著重關注某一特定領域(與該領域的專家合作),開發出該領域人們需要並且能夠使用的產品。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

機器之心「GMIS 2017」嘉賓:LSTM之父Jürgen
綜述|一文幫你發現各種出色的GAN變體
業界|自動駕駛事故頻發:Uber步特斯拉、谷歌之後塵
OpenAI詳解進化策略方法:可替代強化學習

TAG:機器之心 |

您可能感興趣

不只動物,植物可能也具有學習能力?
學習專業化妝術對女性真的很重要 只有這樣才能使美得以持久深化
做人做事我們可以向冷鋒學習,但是喝酒真的不能學!
怎麼樣才能讓學習體系化,效果更好?
重視,但是不要局限於學校學習
機器人都能互相教學了,你還不好好學習嗎
他們都說學習互聯網技術不重要,可憐的是你深信不疑
你有的不只是學習
只要弄清楚互聯網時代究竟「什麼值得學」,做「終身學習者」其實並不難
如何學習AE,沒有基礎也不要害怕
紳士丨不僅是打領帶,領帶搭配你也需要跟他們學習學習
你不想掛科,又不肯好好學習
機器人也有好奇心,還能自己設定學習目標
暑期學習 物理不好的你,這些都是必考知識點!趕緊收藏
在你最需要學習的時候,是他們為你提供了好的學習機會
還真不是吹,學習不好也一樣能夠成功!
機器人摔跤固然搞笑,但這卻是它們學習如何搶走你工作的方式
學了這些機器學習知識 沒有經驗也可以得到數據科學家這份工作
十大必須掌握的機器學習演算法,竟然都如此有趣