創業過5家大數據公司,Kaggle競賽冠軍:互聯網深度學習誤區—花大力氣在那些影響力很小的事情上
本文作者:Gregory Piatetsky, KDnuggets.
我對有著「搖滾明星」美譽的數據科學家傑里米·霍華德進行了獨家採訪,他談到了自己最新出品的深度學習網路課程,Kaggle 因何獲得行業領先地位,以及數據科學家的價值所在。
傑里米·霍華德(@jeremyphoward),是數據科學領域的「搖滾明星」。他在年少時成績出色,還在澳大利亞讀書時就多次獲得考試最高分,但他覺得在學校里很無聊。於是他在 12 歲時開始「創業」,銷售盜版遊戲軟體,18 歲時作為一名自學成才的數據分析師被麥肯錫僱用。幾年後,他創立了 Optimal Decision Group,利用數據分析來幫助保險公司提高利潤。
相比之下,他的第二家創業公司 FastMail 更為流行和被人熟知。2000 年底,他賣掉了這兩家公司,開始了簡單的「退休」生活——學習中文和自己動手製作音響功放。
為了尋找挑戰,2010 年,他參加了 Kaggle 舉辦的一場比賽,並且一鳴驚人得獲得第一名。之後他被邀請加入 Kaggle 擔任總裁兼首席科學科學家,幫助 Kaggle 一步步佔據行業領先地位。
2013 年 12 月他離開 Kaggle 後,又創建了一家公司 Enlitic,通過利用 Deep Learning 來改進醫學診斷和臨床決策。
筆者是在 KDD-2011 會議上首次結識了傑里米,那次大會上,他就深度學習做了一場令人難忘的演講。他沒有使用任何幻燈片,僅僅是用一支馬克筆不斷在白板上寫寫畫畫,深入淺出得解釋他的想法和認識。
fast.ai 是傑里米最新的創業公司,關於這家公司的細節你可以從下文中找到答案。
Q1. Gregory Piatetsky(下面簡稱 GP):跟我們談談你目前的這家創業公司 fast.ai?你的《Deep Learning for Coders》課程與其他深度學習課程有什麼不同?
傑里米·霍華德(Jeremy Howard,下面簡稱 JH):網上有許多深入學習課程,但是沒有一任何個滿足我們最重要的需求。我們希望向人們展示如何選擇和使用最有效的深入學習技術來解決實際問題。而且我們希望它儘可能得深入淺出,特別是易於沒有任何經驗的程序員理解和掌握。
以前的教學方法是和數學領域高度相關的,無法直接解決任何問題,比如 Udacity 上的編程問題。
根據對許多深入學習項目或課程的分析,我們意識到最重要的教學方式是傳授學習(transfer learning),這是指使用已經在大型數據集上訓練過的模型,作為起點或基線。這樣可以將訓練時間加快若干個數量級,提供更準確的模型,並且不需要依太多數據。
我們也致力於只教授那些從真實的實際問題中獲得的研究成果。聽說很多學習過我們 MOOC 課程的人已經獲益匪淺:大大提高了他們模型的準確度和訓練速度!
Q2. GP:在創立 fast.ai 之前,2014 年你創建了 Enlitic,其目標是使用深入學習,幫助醫生更快更準確地做出診斷。相比其他受過專業醫學教育的醫生,(利用 Enlitic)到底能獲得多大幫助和提升?
JH:我不清楚目前最新的進展,畢竟我已經離開幾個月了。但是,在我學習深度學習如何應用於醫學方面的時候,我發現這方面的機會和潛力十分巨大。最重要的是,通過這項技術得應用,它有機會挽救生命,顯著降低醫療費用,特別是在那些發展中國家。
在臨床實驗中,Enlitic 幫助四名業界頂級的放射科醫生,多發現並確診 7% 的癌症;在廣泛病例診斷中,醫生錯診率為 66%,而 Enlitic 則為 47%。—— Sydney Morning Herald Reports
Q3. GP:在醫療健康行業中廣泛採用 Enlitic 或類似的自動化技術有哪些障礙?
JH:最大的障礙之一是缺乏綜合全面的數據集。即包含了很長時間周期內的醫學測試、干預措施和治療結果的歷史的數據集,並將所有的患者聯繫起來。只有通過這樣的數據集,才可以構建基於實際治療結果進行診斷檢測和治療建議的有效模型。
另一個障礙是缺少研究這一領域的數據科學家。在互聯網行業,你能看到很多聰明、有能力的人從事於那些「影響力」很小的事情上,比如廣告系統,推薦系統和浪費時間的社交網路。這是令我很驚訝的。
此外,在學術界很多深入學習的研究人員又都專註於「如何構建一個大腦」,而不是解決當前人類面對的各種重要問題。
另一個特別的障礙是,醫學從業者,特別是臨床專家們,他們知識領域具有非常高的專業性,以至於很難找到其他人可以在「解決醫學問題」上為我們提供教學建議的人。
Q4. GP:你以 Kaggle 競賽第一名而獲得廣泛關注,之後又出任 Kaggle 的總裁。在 Kaggle 這段時間有什麼值得談談的嗎?對於那些想挑戰你 Kaggle 排名的人,你有什麼建議?
JH:在 Kaggle 我學到了非常多關於機器學習的知識,差不多超過之前二十年的積累。另外一點是在過去幾個月里,我一直在為準備我們的課程而學習和研究 Kaggle 的數據集。
對於希望提高排名的人,或者希望提高技能的機器學習從業者,我的建議很簡單:
堅持每天提交(比賽代碼)
如果你堅持每天提交,那麼比賽結束後你將學到很多東西。 在日常工作中,你將很少(如果有的話)有機會圍繞這些定義嚴格的數據集和指標進行工作,你也很難有機會與那些業界知名的數據科學家同場競技。
Q5. GP:未來5年內,數據科學家們應該學習和提高什麼技能,以避免被演算法取代?
JH:希望在未來幾年「數據科學家」這個角色將大大減少,相反我們將把數據科學納入其他工作或領域,如醫療專家、律師、供應鏈專家等。因此,我認為數據科學家應該了解和學習一個組織是如何創造價值的,不同行業的工作方式,以及組織是如何構建起來的。最重要的是,他們應該與這些組織或團體的領域專家合作,以增加影響力。
我不知道什麼技術或技能是在五年後依然重要的。我認為重要的是你的學習能力和適應能力。
Q6. GP:你期望深度學習技術 5 年後發展成什麼樣?它是否最終會在所有領域都超越人類,還是有一些(領域)人類將永遠保持領先地位?
JH:首先,很難知道深度學習的局限性,因為目前我們遠遠沒有找到它的極限。
在創造性和技能展示領域,人類將永遠無可替代,因為人類只對「觀察」其他人的表現感興趣。例如,在創意和藝術領域,可以看看 Mike Loukides 的這篇文章。
Q7. GP:你是 Singularity University 最年輕的成員。你在那裡做什麼?
JH:其實我不認為我是最年輕的!我在那裡教授數據科學。每年最有意思的就是在 Global Solutions Program 中的交流。這個項目每年從世界範圍中選 80 名最聰明和最富有激情的年輕人聚在一起,努力解決一些人類最迫切的問題,我很幸運地在這個項目中教授他們如何使用數據科學來幫助他們解決問題。
Q8. GP:我和很多讀者都很好奇你為什麼離開 Kaggle 和 Enlitic?
JH:離開 Kaggle 並不是一個困難的決定。因為我從沒有想成為公司的全職成員,一開始只是作為一個志願者。令我驚訝的是,我們從風險投資機構那裡籌集了很多錢,此時除了全職加入我沒有別的選擇。之後 Kaggle 作出不明智的決定,它決定將全力投入石油和天然氣相關業務上,所以繼續留下對我來說沒有什麼意義了。之後的一年我全身心投入深度學習相關領域,這使得我決定進入醫學信息領域。
離開 Enlitic 對我來說非常難。為了處理家中的緊急情況我已經離開公司一年了。在創立 Enlitic 之前,我花了很多時間考慮如何能更好地在醫學界產生影響力,是進入學術界還是選擇創業。現在看來,初創企業依賴外部投資從事需要大量基礎研究的領域,這並不是一個好選擇。因為急迫希望公司估值增長的投資者會給公司及員工太大壓力。
這就是為什麼我和雷切爾·托馬斯(Rachel Thomas)一起成立了一個可以自給自足的研究機構 fast.ai。
Q9. GP:你有什麼業餘興趣愛好?推薦一本你最近讀過並且喜歡的書吧?
JH:我最大的樂趣是陪我的小女兒一起玩,我喜歡她對一切的好奇心!我花了很多時間閱讀深度學習的論文,所以我沒有太多時間去閱讀其他書籍。在傍晚我喜歡聽有聲讀物,這陣子我正在「聽」《 P. G. Wodehouse》。
※問答系統中機器學習演算法應用:Quora 2017年ML平台規劃
※我們如何使用HAProxy實現單機200萬SSL連接
TAG:高可用架構 |
※除了Kaggle,這裡還有一些高質量的數據科學競賽平台
※除了Kaggle,這裡還有一些含金量高的數據科學競賽哦
※除了Kaggle,數據科學競賽平台還有哪些選擇?
※Drupalgeddon2涉及軍備競賽,以大規模利用強大的Web伺服器
※新競賽?Facebook及SpaceX都在競爭衛星互聯網
※Quora Question Pairs 競賽冠軍經驗分享:採用 4 層堆疊,經典模型比較給力
※NeurIPS多智能體強化學習競賽奪冠的背後,是決策智能公司「啟元世界」
※陳冠希潮流展唯一電競賽事 FIFAOnline4足球電競+潮流文化新突破
※秘籍 | 數據競賽大殺器之模型融合(stacking & blending)
※專訪曹曉歡,「中台」競賽中的Mobvista
※js13kGames競賽挑戰在文件大小下開發WebXR遊戲
※從零開始,教你征戰Kaggle競賽
※紀念美國泥地競賽而誕生的車款,杜卡迪FlatTrackPro限量版!
※IBM參與量子霸權競賽:來自Q Experience的幫助
※競賽老兄的「奧迪RS3落地Detailing」
※谷歌Bristlecone成了量子計算競賽的新贏家
※SpaceX引領新一輪太空競賽,火箭發射越來越便宜
※進入 kaggle 競賽前 2% 的秘訣
※「年度最佳Instagram照片」競賽10大優秀作品
※空中客車聯手Air Race E打造首個電動飛機競賽