如何避免數據科學領域的新手錯誤？

知識 08-07

原標題 | How to avoid rookie mistakes in the field of Data Science?

作　者 | Pritha Saha

翻　譯 | CONFIDANT（福建師範大學）

編　輯 | Pita

我最近開始通過自學成為數據科學家的旅程，這條路並不總是一帆風順的，因為沒有人給我詳細而有序的教學大綱。我嘗試做了幾件事，都沒有很成功，但後來又有所收穫。如果您是一位有抱負的數據科學家，本文可能會幫助您避免犯我曾經所犯的錯誤。

首先，永遠不要試圖通過死記硬背學習機器學習演算法，大腦只保留了其中的一部分，掌握它們的最好方法是不斷練習，沒有捷徑！

我犯了一個錯誤，在 Udemy上修「機器學習 A-Z：Python 和 R 在數據科學中的應用」這門課時我學會了課程的前半部分，但作為一個初學者，讀完剩下的部分最終變得單調乏味。我確實對大多數演算法有了直觀的認識，但現在回頭看，我覺得我本可以不學這門課。

其次，不要忽視編程，這是掌握數據科學的關鍵部分。你最好精通編程語言，特別是最受歡迎的Python，因為它擁有大量的庫，這有助於數據科學家隨時部署可用的工具。此外，大多數課程和比賽都要求我們用Python編寫代碼。因此，「python式」的思維模式對於數據科學的職業生涯是至關重要的！

我得到了兩個資源的幫助——開始的Codecademy和後來的Datacamp。我很快就放棄了Codecademy，因為它從一個非常基本的層次開始——可能是為那些不是來自技術領域的人準備的。我訂閱了一年的Datacamp，從數據科學的角度來看，這是一個很好的學習Python的資源。你最終要學習的圖書館課程有numpy、scipy等有關於數據分析和可視化的項目。同樣，我們沒有必要記住語法，熟悉該語言的函數和包是很重要的，而準確的語法你可以在google上搜索到。Stack Overflow是一個很好的資源，可以找到查詢的答案，也可以回答其他人的問題。

此外，在不分析數據集的情況下，人們甚至不應該考慮機器學習演算法。機器學習部分只有2-3行代碼，其餘部分用於詳細的數據分析和可視化。如果不知道數據中的模式，就不可能確定哪些輸入對輸出很重要，從而消除數據中的雜訊，最後轉換數據，使其為模型使用做好準備。Kaggle是一個很好的資源，可以讓您開始進行簡單的機器學習練習(Titanic和房價預測)，並著手進行數據清理和轉換。

在後面的文章中，我將更多地介紹數據工程。在那之前，保持對成為數據科學家的憧憬，努力尋找解決遇到的任何問題！

via https://towardsdatascience.com/how-to-avoid-rookie-mistakes-in-the-field-of-data-science-3076017cdab1

封面圖來源：https://www.adcreview.com/articles/big-data-in-science-which-business-model-is-suitable/

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI研習社 的精彩文章:

※什麼是 XLNet？為什麼它的性能優於 BERT？
※深度學習資源，包括一系列架構、模型與建議

TAG:AI研習社 |