當前位置:
首頁 > 知識 > 如何避免數據科學領域的新手錯誤?

如何避免數據科學領域的新手錯誤?

原標題 | How to avoid rookie mistakes in the field of Data Science?

作 者 | Pritha Saha

翻 譯 | CONFIDANT(福建師範大學)

編 輯 | Pita

我最近開始通過自學成為數據科學家的旅程,這條路並不總是一帆風順的,因為沒有人給我詳細而有序的教學大綱。我嘗試做了幾件事,都沒有很成功,但後來又有所收穫。如果您是一位有抱負的數據科學家,本文可能會幫助您避免犯我曾經所犯的錯誤。

首先,永遠不要試圖通過死記硬背學習機器學習演算法,大腦只保留了其中的一部分,掌握它們的最好方法是不斷練習,沒有捷徑!

我犯了一個錯誤,在 Udemy上修「機器學習 A-Z:Python 和 R 在數據科學中的應用」這門課時我學會了課程的前半部分,但作為一個初學者,讀完剩下的部分最終變得單調乏味。我確實對大多數演算法有了直觀的認識,但現在回頭看,我覺得我本可以不學這門課。

其次,不要忽視編程,這是掌握數據科學的關鍵部分。你最好精通編程語言,特別是最受歡迎的Python,因為它擁有大量的庫,這有助於數據科學家隨時部署可用的工具。此外,大多數課程和比賽都要求我們用Python編寫代碼。因此,「python式」的思維模式對於數據科學的職業生涯是至關重要的!

我得到了兩個資源的幫助——開始的Codecademy和後來的Datacamp。我很快就放棄了Codecademy,因為它從一個非常基本的層次開始——可能是為那些不是來自技術領域的人準備的。我訂閱了一年的Datacamp,從數據科學的角度來看,這是一個很好的學習Python的資源。你最終要學習的圖書館課程有numpy、scipy等有關於數據分析和可視化的項目。同樣,我們沒有必要記住語法,熟悉該語言的函數和包是很重要的,而準確的語法你可以在google上搜索到。Stack Overflow是一個很好的資源,可以找到查詢的答案,也可以回答其他人的問題。

此外,在不分析數據集的情況下,人們甚至不應該考慮機器學習演算法。機器學習部分只有2-3行代碼,其餘部分用於詳細的數據分析和可視化。如果不知道數據中的模式,就不可能確定哪些輸入對輸出很重要,從而消除數據中的雜訊,最後轉換數據,使其為模型使用做好準備。Kaggle是一個很好的資源,可以讓您開始進行簡單的機器學習練習(Titanic和房價預測),並著手進行數據清理和轉換。

在後面的文章中,我將更多地介紹數據工程。在那之前,保持對成為數據科學家的憧憬,努力尋找解決遇到的任何問題!

via https://towardsdatascience.com/how-to-avoid-rookie-mistakes-in-the-field-of-data-science-3076017cdab1

封面圖來源:https://www.adcreview.com/articles/big-data-in-science-which-business-model-is-suitable/

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

什麼是 XLNet?為什麼它的性能優於 BERT?
深度學習資源,包括一系列架構、模型與建議

TAG:AI研習社 |