數據科學中的強大思維
導讀:如果你參加過統計學入門課程,就會知道數據點可以用來激發靈感,也可以用來測試理論,但兩者卻不能兼顧,這是為什麼呢?
圖1
人類擅長在所有的事物中尋找對應的模式。真模式,假模式,命名的模式。我們是那種能在薯片上找到貓王的臉的生物。如果你傾向於將模式與洞察力等同起來,請記住有三種數據模式:
1、存在於你的數據集中和數據之外的模式/事實
2、僅存在於數據集中的模式/事實
3、只存在於你想像中的模式/事實
圖2:A data pattern can exist (1) in the entire sample, or (3) only in xkcd
數據模式可以存在於(1)所有感興趣的人群中,(2)僅僅在樣本中,或者(3)只存在於你的頭腦中
哪一種對你來說更有用,取決於你的目標是什麼。
一、追求靈感
你追求的是純粹的靈感,那麼它們都非常適用。即使是來自術語apophenia中的奇特的定義apopheny(人類有錯誤地感知不相關事物之間的聯繫和意義的傾向)也可以激發你(文章裡面的稱呼統一一下,要麼都你,要麼都你吧)的創意。創造力是沒有特定的答案的,所以你需要做的就是查看你的數據,並享受它帶來的樂趣。創造力是一種額外的收穫,盡量不要在這個過程中浪費太多時間。
二、崇尚事實
政府想要向你徵稅的時候,它一點也不關心你這一年除了財務數據之外的模式。基於事實的決定是,通過你的欠債情況,分析去年的數據得出應該採取的方法。它會基於事實對你所欠下的債務做出決定,而做出決定的方法就是分析去年的數據。換句話說,查看數據並使用公式進行評估。你只需要對手頭的數據進行描述性統計分析。前面兩種模式都可以很好地做到這一點。
三、在不確定的情況下做出決策
騰訊視頻:統計思維-1-什麼是統計數據
(原視頻)YouTube:https://youtu.be/OJt-k9h9pmk
有時,理想和現實是有差距的,當你不具備做決定所需要的全部信息時,你就需要在不確定性中尋找方向,選擇一個合理的行動方案。
這就是統計學,它是一門會改變你在不確定情況下思維方式的科學。它的目的是能產生一個像icarus一樣的飛躍,突破你的知識局限,而不是遇到短板就突然結束。
這就是數據科學的核心挑戰:如何應對數據不足的情況。
在你離開一個斷崖式的障礙之前,你當然會希望你在現實中可以運用的模式是可以突破它的。換句話說,模式必須一般化才能真正有用。
圖3:Source: http://bit.ly/xkcdextrap
在三種類型中,如果你是在不確定的情況下做出決策,那麼只有第一種(可推廣的)模式是安全的。不幸的是,你還會在數據中發現其他類型的模式,這也是數據科學的核心問題: 如何應對數據不足的情況。
四、泛化
如果你認為從數據中提取無用的模式純粹是人類才會做出的事情,那就大錯特錯了!如果你不小心,機器也會自動為你做出同樣的蠢事。
ML / AI的全部要點是對出現的新情況進行正確的歸納。
機器學習是一種能做出,許多類似決策的方法,這些決策涉及在演算法中查找數據中的模式,並使用這些模式對全新數據做出正確決策。在ML / AI術語中,泛化是指這個模型能夠很好地處理以前從未見過的數據。基於模式的方法如果只能在原來的數據上起作用,那又有什麼用處呢?ML / AI的全部要點是對出現的新情況也能通用。
圖4
這就是為什麼我們列表中的第一種模式是唯一適合機器學習的模式。它是信號的一部分,其餘部分只是干擾信息(這些干擾只存在於舊數據中,分散了你對於可泛化模型的注意力)。
信號:存在於你的數據集中以及它之外的模式。
雜訊:僅存在於數據集中的模式。
事實上,在機器學習中,「過擬合」指的是獲得一個處理原始干擾而不是新數據的解決方案。我們在機器學習中所做的幾乎所有工作都是為了避免過度擬合。
五、尋找合適的模式
假設你(或你的機器)從數據中提取的模式超出了你的想像,那麼它是哪種模式呢?它是存在於感興趣的對象(「信號」)中的真實現象,還是當前數據集的特性(「雜訊」)。如何判斷在訪問數據集時發現了哪種模式?
如果你已經查看了所有可用的數據,那麼你就被困住了,無法判斷你的模式是否存在於其他地方。統計性假設檢驗的分析手段取決於出現的意外情況,而對數據中已經存在的模式可能會出現的意外進行模擬,效果會差異性很大。
圖5
這有點像在雲中看到兔子的形狀,然後使用相同的雲測試所有的雲是否都像兔子。我希望你們需要一些新的雲來驗證你們的理論。
任何用來激發理論或問題的數據點都不能用來測試同一理論
在查看數據之前要先提出問題
數學從來都不是基本常識的反制
我們在這裡得到了一個結論。如果你在尋求靈感的時候用光了你的數據集,你就不能再用它來嚴格測試它所帶來的理論(無論你多麼充分的使用數學,因為數學絕不是基本常識的反制)。
六、進行艱難的選擇
這意味著你必須進行選擇!如果你只有一個數據集,你就不得不問自己:「我是否有認真思索,設置了所有的統計性假設檢驗,然後仔細採取嚴格的方法,或者只是挖掘數據獲取了靈感。
這裡的問題是,你只有一個數據集,而你需要不止一個數據集。如果你有很多數據,那麼我會為你模擬一個黑客攻擊,擾亂你的思路。
圖6
七、奇特的技巧
要想在數據科學中勝出,只需通過拆分數據將一個數據集轉換為(至少)兩個數據集。然後用一個獲取靈感,另一個用於嚴格的測試。如果最初啟發你的模式也存在於那些沒有機會影響你的觀點的數據中,那麼這將是一個更有希望的選擇,這種模式就像是存在於貓砂里的東西,你要從中挖出你的數據。
如果相同的現象存在於兩個數據集中,也許這是一個普遍的現象,它也存在於這些數據集中的任何地方。
八、令人驚嘆
如果未經審視的生活不值得過下去,那麼以下四個詞就是生活的準則:把該死的數據拆開。
如果每個人都能分享自己的數據,世界會變得更好。我們會有更優的答案(從統計學)到更好的問題(從分析學)。人們不把數據分割作為一種強制性習慣的唯一原因是,在上個世紀,它是一種奢侈的事情,很少有人能負擔得起;數據集非常小,如果你試圖拆分它們,那麼可能就什麼都沒有了。(在這裡可以了解更多關於數據科學史的信息。)
圖7
將你的數據拆分為一個探索性數據集,每個人都可以挖掘靈感和測試數據集,以後專家可以使用這些數據集嚴格確認在探索階段發現的任何「見解」。
如果你沒有拆分數據的習慣,你可能會被困在20世紀。
如果你有大量的數據,但是你看到的是未分割的數據集,那麼你的瓶頸可能就是會受到老式視角的影響。每個人都習慣了陳舊的思維方式,卻忘記了與時俱進。
九、機器學習是數據分裂的產物
說到底,這裡的想法很簡單。使用一個數據集來形成一個理論,發號施令,然後開始執行,證明你知道你在一個全新的數據集中談論的是什麼。
為了更健康的數據文化,數據分割是最簡單且快速解決方案。
這就是你如何在統計數據中保持安全,以及你如何避免因過度擬合ML / AI而被活活吃掉的方法。事實上,機器學習的歷史就是數據分裂的歷史。3
十、如何在數據科學中運用最好的理念
為了利用數據科學中最佳創意,你所要做的就是確保將一些測試數據放在窺探者無法觸及的地方,然後對其餘的數據進行充分的分析。
要贏得數據科學,只需通過拆分數據將一個數據集轉換為(至少)兩個。
如果你認為他們為你提供了超出他們所探索信息的可操作洞察力,請使用你的秘密測試數據來檢查他們的結論。就這麼簡單!
結論:數據科學需要強大的思維邏輯,與時俱進的洞察力,還要能膽大心細摒棄一系列的干擾信息。即使是機器也並不能脫離人腦自行工作,還需要在理論與精準模式的加持下不斷探索,這可真不是一項簡單的工作。
via https://medium.com/@kozyrkov/the-most-powerful-idea-in-data-science-78b9cd451e72
※Huskarl 最近進展:已支持與 OpenAI Gym 環境無縫結合!
※如何用 seq2seq 模型來應對 NLP 任務
TAG:AI研習社 |