當機器都會「學習」了,你還想不學習么?
「
如今,我們每個人都在談論「數據科學」,《哈佛商業評論》雜誌甚至將數據科學家定義為「21世紀最性感的職業」。在這個大數據時代,究竟什麼是數據科學?數據科學家又究竟是怎樣的一群人?他們在創造著什麼令人著迷的東西?DT君將在2018年走訪50位來自各行各業的頂尖數據科學家,希望能讓你們了解這些神奇的人和他們的神秘事兒,為你們一窺數據科學的未來與未知。
▍十年之前,我不認識你,你不認識「數據科學」
2017年,伴隨著人工智慧概念的持續火熱,「機器學習」一詞從陽春白雪逐漸變得越來越下里巴人。如果你在亞馬遜搜索關鍵詞「機器學習」,在首頁的推薦書籍中,你一定不會錯過《Keras快速上手:基於Python的深度學習實戰》這本書。
不過,如果只看評論,你可能不一定會購買它。書下面的評論爭議熱烈,倒是引起了DT君的興趣。
作為一本基於Python里Keras庫的深度學習入門書籍,出現很多有價值的討論,對於作者謝梁來說,其實已經達到了自己的初衷——讓更多朋友能趕上機器學習和人工智慧的大潮。
(圖片說明:亞馬遜網站上部分最近出版的「機器學習」類書籍;圖片來源:亞馬遜官網截圖)
謝梁,現微軟雲存儲工程團隊的首席數據科學家,紐約州立大學應用計量經濟學博士。雖然現在他是數據科學的「弄潮兒」,但在十年前,其實他也是一個「旁觀者」。
2000年從西南財經大學金融系畢業的時候,謝梁一開始是在中國工商銀行從事信貸評估的工作。在這期間,他逐漸發現了實證數量分析中的巨大價值,於是辭職去了紐約州立大學Binghamton分校,師從Subal Kumbhakar教授,學習計量經濟學。
不過,這個時候的謝梁,雖然對於數據分析情有獨鍾,但是對於「數據科學」還並沒有什麼成體系的概念。
「計量經濟學,是運用現代統計方法研究經濟現象的學科,現在來看,倒是很符合數據科學的要求。」他告訴DT君,在美國,研究計量經濟學的博士生除了去學校教書以外,大多會去實業部門,比如華爾街或者各大銀行、經濟諮詢公司等,從事高級數據分析工作。這些工作內容集中在某一具體商業領域,如債券,房屋信貸,金融風控等,與如今大家討論的「數據科學」有很大的重合。
謝梁認為,「數據科學家」其實是一個背景極其多元化的群體,不僅有來自統計和計算機的專業人士,也有大量來自於經濟學、物理學、運籌學、心理學的專業人士。他們的共同點是都具有較紮實的數理訓練,熟練掌握編程技能,同時具備快速學習的能力。
計量經濟學博士畢業後,他並沒有立刻進入科技行業,而是首先從事了一些商業智能方面的工作,包括自動化的營銷、客戶畫像等,了解了機器學習的應用領域。
到微軟後,他先後在Azure雲計算部門從事了服務層SaaS和基礎架構層IaaS的數據分析工作。這些領域都需要對大量的數據進行分析,對客戶運營策略和基礎架構上運行的軟體行為進行優化。
雖然環境發生了變化,但是這種「數據科學」的工作方法並沒有改變——都是在有限資源條件下進行最優化的工作,同時需要對結果進行合理的解讀與概念推廣。他的經濟學的功底讓他在轉換跑道時,走得得心應手。
對於「數據科學」,已經「爬坑」了十幾年的謝梁覺得:數據科學就是一種按照可以復驗的方法對數據及其內在規律進行研究,並系統地組織和構造認知體系的活動。
他認為,其中最重要的:第一,它包含了一套科學的方法論,其體系的核心則是密歇根大學統計系前系主任Jeff Wu提出的統計三元論 (Statistical Trilogy);第二,它是一套系統化的知識組織和構造。
就像很多搞研究的科學家一樣,謝梁對數據科學的定義聽起來也很抽象。不過沒關係,拋開這些不親民的概念不講,對謝梁來說,當他從事數據科學時,要面對的永遠都是清晰、具體的實際問題。
面對數據,他問自己的第一個問題永遠是:你的目的是什麼?
▍第一個問題永遠是:你的目的是什麼?
「從應用的角度來講,數據最重要的價值取決於使用這個數據的目的。」
「數據有價值」的說法,其實最早來自於商業環境中的應用,數據是能夠賺錢的。在純粹的商業世界裡,活動的目的都遵循一個基本前提假設——獲利。數據科學最開始活躍的領域也正是「離錢近」的地方——金融、市場營銷等。
謝梁的數據科學生涯一開始,也是從消費者和市場分析領域起步的。謝梁回憶說,這些商業工作非常強調技術與業務的結合,不追求非常炫酷的方法,但是對於可操作性要求高,這都對他現在考慮問題的角度和方式產生了深刻的影響。「我在考慮一個問題的時候先是從如何實施開始入手,再以倒序的方式去生成解決方案。」
謝梁認為,數據科學作為一個輔助業務,只有當其能對業務產生實際指導性作用才有價值。
「舉例而言。如果有兩家公司在收集一個人的各方面信息,A公司只能收集的是這個人每月財務流水的信息以及信貸,比如房屋貸款等方面的信息;B公司只能收集的是這個人的地理信息。那麼從最直接的商業機會及其潛在價值來看,財務信息的價值是高於地理信息的價值的,這也是在信用分建模中財務信息比重很大的原因。
但是如果你的目的是要使用數據了解整個社區人口移動的模式從而幫助組織交通,疏導道路擁堵,那麼顯然地理信息的價值大大高於財務信息,甚至可以說財務信息在這個問題里沒有明顯價值。」謝梁說到。
只有把數據和應用場景有機結合起來,才能實現其價值的最大化。這就好比越野車的價值體現在公路以外的地方是一個道理。
如果你還不知道自己做數據的目的,不如就先假設讓它為——賺錢。
十年前,根據美國能源部的部署,一家能源公司要在德克薩斯州推廣智能電錶應用。它收集了全州的電錶數據,但並不知道如何使用。當時謝梁在這家公司擔任數據分析職位,他領到的任務就是利用數據找到促進業務增長的方法。
「我去了以後發現這些數據從表徵上與生物裡面的基因表達高通量分析所應用的數據很像,因此我採用了Orly Alter等人發表在PNAS上的基於SVD的方法來對數據進行聚類,結果發現了以前被忽略了的一個消費群。」
謝梁發現的這個消費群,和傳統德州的電力用戶的用電模式不太一樣,季節性差異較大。根據這個分析結果,他和營銷部門合作了一個有針對性的營銷計劃,提前鎖定了這類用戶,用彈性價格直接向他們營銷服務,吸引他們從原先的電力供應商轉戶到他所在的公司。
謝梁的計劃最終實施效果非常好,郵件直銷成功率高於平時的其他直銷計劃2倍以上。
在早期的數據科學探索階段,謝梁嘗試了很多不同的業務模式。他也常感嘆,如今數據科學家需要掌握的知識和技術,也越來越多元化。「前幾年可能數據科學家還在熱衷於貝葉斯,現在就必須登上人工智慧的大船;前幾年還可以滿足於NoSQL,現在就得學學知識圖譜了。」
由於數據科學是圍繞具體業務問題而立足,所以當環境變化後,所需的技術也會非常不一樣。謝梁自己也是如此,從事市場分析,需要的是市場感知映射理論等;進入微軟從事智能運維之後,就需要掌握異常點檢測,長尾統計量分析等技術。
正是從微軟開始,謝梁逐漸走上了機器學習和人工智慧這條「不歸路」。
▍在微軟Azure做「智能運維」是一種怎樣的體驗
「我從小就用微軟產品,中學就學習過用VB和FoxPro編程。」提到微軟,謝梁總是有一種特殊的好感。雖然有時連綿的陰雨讓西雅圖沒那麼可愛,但是作為亞馬遜、微軟等科技巨頭總部的所在地,他如今非常喜歡在西雅圖的生活。
他現在的工作,是在微軟Azure存儲程序部門負責主導運用機器學習等數據分析的方法,提高存儲系統運行效率,也就是如今很熱門的「智能運維」。
所謂「智能」,在謝梁看來,就是利用數據找出某種規律,然後運用機器學習等人工智慧的方法,將業務進行自動化和優化的過程。
(圖片說明:謝梁現在生活在微軟總部所在地西雅圖,這裡還坐落著亞馬遜、波音、星巴克等著名的公司;圖片來源:視覺中國)
據謝梁介紹,Azure雲計算部門的「智能運維」涉及存儲工程的所有方面,從存儲的不同服務層的運行到日常維護,以及最終將人工智慧嵌入Azure Storage的軟體核心。「比如,我們預測的節點的健康狀況分布,會成為決定Azure數據流存儲的重要依據,預測的流量狀況決定了存儲系統負載平衡策略。另外我們的代碼部署系統以後會根據新代碼的實際表現進行打分,並提供部署建議。」
在競爭壓力日益增大的今天,不斷上升的人力成本和持續擴大的產業規模,使IT系統的運維工作變得越來越複雜,將機器學習等人工智慧方法應用於IT基礎架構的優化,成為了謝梁這位數據科學家最關心的事兒。
如今,他帶領的智能運維團隊,已經可以把機器學習和人工智慧的方法應用於IaaS存儲系統的多個方面,包括負載平衡、節點故障預測、可售容量預測、系統工作調度等。更新的應用包括內部運維的知識圖譜構建,代碼質量打分和Bug預測等,成效顯著。
以節點故障預測為例,他們運用卷積神經網路來對依時間變動的大量系統運行指標進行建模,預測節點健康狀態。存儲系統會根據預測的節點健康分布情況,有意識地避開未來24小時狀態會變差的節點,從而提高SLA和系統可用率,效果比傳統預測方法準確度提高了30%左右。
系統運行效率的提升提高了可售資源的比率,降低單位交易量的總運營成本,為公司直接創造了經濟價值。
▍機器都開始「學習」了,你還想不學習么?
在對話過程中,謝梁提到最多的一個概念就是「機器學習」。作為人工智慧領域應用最廣泛的技術之一,機器學習已經逐漸被運用到了各行各業的決策實踐中。
現有的機器學習技術能從紛繁複雜的數據中提煉出可驗證的特定模式。比如根據不同客戶的特徵和歷史行為推薦產品的推薦系統,根據歷史數據進行預測,根據統計分布偵測可能的網路入侵等。謝梁說,因此凡是能夠根據可驗證的模式採取特定操作的業務,都會受益於機器學習。
20世紀90年代以來,營銷諮詢、消費金融和保險等行業就得益於機器學習方法的廣泛應用,而率先展示出了數據的價值。
消費金融領域的Capital One就是靠深度的數據分析起家的經典案例。他們利用數據抓住用戶,針對性地制定信用卡策略,從一家名不見經傳的小信用卡公司,連續十年保持兩位數增長,如今已是資產規模超過3000億美元的綜合性金融企業。
(圖片說明:Capital One發展初期憑藉對數據的深度分析和運用,成功打入了美國信用卡市場,其數據策略後來成為很多公司學習的對象;圖片來源:視覺中國)
「財險領域的GEICO和Allstate保險公司也是該領域機器學習技術的領先應用者和受益者。IT領域的著名諮詢公司Gartner早就應用偏好映射等方法來構造諸如『魔力象限』這樣的數據產品。」謝梁介紹說。
在謝梁看來,隨著以機器學習為代表的現代人工智慧技術的成熟,很多人工勞動將會被機器替代。「比如客服、系統維護、代碼找Bug、法務諮詢等等。總之,具備(在一定空間內)高度重複性的工作,無論是藍領還是白領都會被人工智慧逐漸替代或者部分替代。」
在業界,謝梁認為機器學習目前主要應用在前端和後端兩個層面。
前端的客戶分析是指,利用機器學習得出的模式與客戶進行交易上的交互。這方面的例子有折扣券分發、跨部門銷售、風險控制等。現在比較火的智能投顧、客服機器人、導購機器人等,都是屬於這種類別。
另一方面是後端的系統運維,利用機器學習抓住系統運行的特徵來進行優化。這也是謝梁現在的主要工作。他告訴DT君,「機器系統是按照某些軟體規則進行運轉的複雜體系,其數據雖然繁雜但有較大可能性能分離出有規則的模式。現在這屬於機器學習應用的一個比較熱門的領域。比如通過預測系統的波峰波谷可以預支資源,從而實現比實時彈性計算更好的結果;通過分析歷史故障數據,可以建議當前故障的最優解決方案等等。」
至於未來機器是否會奪走人類的工作,謝梁表示我們暫時還不用太擔心,「人最高的能力是學習並拓展到未知領域的能力,這方面目前還看不到人工智慧有涉及的可能。」
但是人類也不能掉以輕心,他最後建議DT君,」不斷學習,擴大自己能力到需要更多創造力的領域,是保持自己競爭力的重要手段。」
當機器都開始「學習」的時候,人類也要更加努力才行了。
題圖 | 視覺中國
▍關於數據科學50人
數據科學50人項目是DT財經旗下數據俠計劃重點內容產品,旨在與數據科學領域KOL共同挖掘數據內容的價值。我們從商業數據科學領域選出最具代表性的50位先鋒進行深度專訪,50人由DT財經獨立評審並發布,第一財經數據科技及合作夥伴傾力支持。
TAG:DT數據俠 |