當前位置:
首頁 > 新聞 > 不懂數學,照樣做數據科學家

不懂數學,照樣做數據科學家

不懂數學,照樣做數據科學家

【新智元導讀】AI和機器學習的火熱讓數據科學家成為近幾年熱門職業之一。但對於試圖從事這一職業的新人來說,數學可能最大的攔路虎之一。不過本文作者認為,當數據科學家並不一定需要堅實的數學基礎,並給出了9類無需數學基礎的數據科學任務。

在當今世界上,數據科學和機器學習已成為最令人嚮往的職業方向之一,從大學生到職業生涯中期的專業人士,很多人都希望進入數據科學領域。但是,在追求數據科學或機器學習領域時想到的第一個先決條件是,要具備深入研究複雜數學問題的能力,才能走進數據科學的大門。

但是那些數學基礎薄弱,不具備紮實數學背景的人怎麼辦?他們就沒有希望進入數據科學領域了嗎?

當然不是。本文將提供踏入數據科學和機器學習世界之前,是否強制要求數學背景知識的真實情況。


為什麼說數學知識是數據科學家的先決條件

與大學其他專業相比,數據科學更多地是關於如何快速準確地學習。通過嚴格的數學運算,快速準確地掌握技術,並且通常可以比大多數人更容易地學習。

數據科學家基本上都是統計學家,大多數人擁有研究生水平的數學和統計學知識。這是從事實際項目所必需的知識,對於正確使用演算法和假設檢驗至關重要。

掌握邏輯回歸、決策樹、置信區間等標準數學工具也很重要。大多數企業都會使用這些標準工具。因此,招聘人員也傾向於尋找具備紮實數學背景的求職者,這主要是出於歷史原因。

堅持使用標準的數學訓練和標準工具,對有興趣成為硬核數據科學家的人是非常有用的。


數據科學家需要掌握哪些知識呢?

一位優秀的數據科學家或工程師必須具備豐富的資料庫知識和工程實踐知識。包括處理和記錄錯誤、監控系統,構建人為錯誤容錯渠道,了解擴展項目所需的條件、處理持續整合問題、掌握資料庫管理知識,維護數據清理以及確保確定性處理流程等。

凡事有例外,高中數學水平的人也有機會

實際上,在機器學習的所有方面的技術中,數據科學背後的統計引擎並不涉及高中以後的任何數學或統計理論。

如果具備強大的數據和編程背景,任何人都可以非常快速地學習數據科學。

不過,由硬核數學導向的數據科學家開發的一些技術並不使用數學或統計學,這些技術同樣有效,其中一些技術已經被證明不輸於使用數學的同類技術,而且性能通常更加強大。此外,這些技術更易於理解,並且可解釋性更強。


數據科學家的實際工作有多少和數學有關

打破神話,揭示現實。

從入門級數據科學家到中級數據科學家,一般花在數學上的時間不到5%,機器學習也是如此,尤其是建立模型時,很少有時間做任何數學上的工作。對於機器學習,需要學習的真正的必要技能是數據分析,以便建立能夠進行準確預測的模型。初學者其實不需過多掌握微積分和線性代數。

只有參與學術上的機器學習研究或者少數先進的數據科學家團隊時,數學的作用才顯得特別重要。高水平的業內人士也經常使用高等數學。一些人正在拓展機器學習研究人員的研究邊界。

像谷歌和Facebook這樣的公司中,人們只會在工作中經常使用微積分、線性代數和更高級的數學工具。

最重要的是,在產業界中,數據科學家只是沒有將太多時間花在數學上,但花了大量時間來獲取數據、清理數據、探索數據。實際上,80%的人所做的是數據整理和數據的可視化。


9類無需數學技術的數據科學任務

1、使用基本的Excel進行高級機器學習:此方法是一種輕量級的技術實現,包括非常簡單易懂的基本Excel實現。目前可用於Python、Perl,Julia和R。未來預計還將支持SQL實現。

2、使用HDT進行自動化的機器學習:此方法融合了名為「決策樹」和「回歸」的兩種傳統技術。但是這種實現不涉及任何節點分割或任何傳統的回歸模型,回歸部分是與數學無關的Jack-knife回歸。早期版本使用邏輯回歸,但由於數據轉換過程比較簡單,使用的參數較少,導致邏輯回歸被Jack-knife回歸所取代。

3、無模型置信區間:需要對隨機變數和概率分布有基本的了解才能知道置信區間的概念。這類置信區間方法基於百分位數,非常易於理解,無需數學知識且可靠性高,可用於預測分析

4、假設檢驗:這是學生在統計課程中的難題之一。這裡已被置信區間的簡單變體所取代,便於直觀理解。

5、使用Excel的Jack-knife回歸:這些回歸技術非常簡單高效,可以在Excel或SQL中輕鬆實現。

6、Jack-knife回歸:理論 – 無須統計理論的回歸,甚至不涉及線性代數。不過帶有置信區間。在該方法中,即使使用少量元參數,與經典回歸相比,也能實現最低限度的精度損失。該方法在存在異常值、高度相關的特徵或其他違反假設的情況下性能良好,這些假設條件在使用傳統回歸時必須通過一個數據集滿足

7、索引,編目和NLP:無需數學知識的監督聚類方法。

8、快速組合特徵選擇:這種方法通常需要理解隨機變數的概念。

9、方差,聚類和密度估計:這些方法中也不大涉及數學。


要成為高效的數據科學家,還是要懂點數學

其實,這裡的關鍵點是,對於初出茅廬的數據科學家和機器學習從業者來說,數據專業知識的重要性要優於數學專業知識,因此,如果你的目標是獲得一份工作,進入數據科學領域,那麼最重要的任務是必須掌握數據分析,而不是掌握微積分。數據科學家要做的不是做證明題或研究數學問題,能夠分析數據才是最重要的。

初學者需要儘快掌握如何收集數據、探索和準備數據。全面掌握數據可視化和數據處理(包括聚合)是關鍵環節,這樣才可以同時使用它們來執行探索性數據分析任務。

儘管這些無需數學知識的工具和方法,確實凸顯了在不具備堅實數學基礎的情況下從事數據科學的可能性,但並一定能夠滿足行業的期望,因為能否獲得數據科學家的職位,完全取決於你從事的工作內容,以及你心儀的公司究竟從事什麼業務。

在不具備數學背景知識的情況下,確實有可能成為一名數據科學家。但按以往經驗來看,如果沒有一定程度的數學素養,從長期而言,很難成為一個高效的數據科學家,而高效這一點無疑是更為重要的。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

微軟開源ONNX Runtime,想用什麼深度學習框架任你選!
2018北京「傑青」出爐!智能處理器架構研究等30個項目獲3000萬資助

TAG:新智元 |