當前位置:
首頁 > 科技 > 8個數據清洗Python代碼,複製可用,最長11行

8個數據清洗Python代碼,複製可用,最長11行

原作 Kin Lim Lee

乾明 編譯整理

量子位 出品 | 公眾號 QbitAI

最近,大數據工程師Kin Lim Lee在Medium上發表了一篇文章,介紹了8個用於數據清洗的Python代碼。

數據清洗,是進行數據分析和使用數據訓練模型的必經之路,也是最耗費數據科學家/程序員精力的地方。

這些用於數據清洗的代碼有兩個優點:一是由函數編寫而成,不用改參數就可以直接使用。二是非常簡單,加上注釋最長的也不過11行。

在介紹每一段代碼時,Lee都給出了用途,也在代碼中也給出注釋。

大家可以把這篇文章收藏起來,當做工具箱使用。

涵蓋8大場景的數據清洗代碼

這些數據清洗代碼,一共涵蓋8個場景,分別是:

刪除多列、更改數據類型、將分類變數轉換為數字變數、檢查缺失數據、刪除列中的字元串、刪除列中的空格、用字元串連接兩列(帶條件)、轉換時間戳(從字元串到日期時間格式)


刪除多列

在進行數據分析時,並非所有的列都有用,用df.drop可以方便地刪除你指定的列。

轉換數據類型

當數據集變大時,需要轉換數據類型來節省內存。


將分類變數轉換為數值變數

一些機器學習模型要求變數採用數值格式。這需要先將分類變數轉換為數值變數。同時,你也可以保留分類變數,以便進行數據可視化。


檢查缺失數據

如果你要檢查每列缺失數據的數量,使用下列代碼是最快的方法。可以讓你更好地了解哪些列缺失的數據更多,從而確定怎麼進行下一步的數據清洗和分析操作。


刪除列中的字元串

有時候,會有新的字元或者其他奇怪的符號出現在字元串列中,這可以使用df[『col_1』].replace很簡單地把它們處理掉。


刪除列中的空格

數據混亂的時候,什麼情況都有可能發生。字元串開頭經常會有一些空格。在刪除列中字元串開頭的空格時,下面的代碼非常有用。

用字元串連接兩列(帶條件)

當你想要有條件地用字元串將兩列連接在一起時,這段代碼很有幫助。比如,你可以在第一列結尾處設定某些字母,然後用它們與第二列連接在一起。

根據需要,結尾處的字母也可以在連接完成後刪除。


轉換時間戳(從字元串到日期時間格式)

在處理時間序列數據時,我們很可能會遇到字元串格式的時間戳列。

這意味著要將字元串格式轉換為日期時間格式(或者其他根據我們的需求指定的格式) ,以便對數據進行有意義的分析。

最後,附上原文傳送門~

https://towardsdatascience.com/the-simple-yet-practical-data-cleaning-codes-ad27c4ce0a38

加入社群

量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

喜歡就點「好看」吧 !


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

華為雲回答2018:AI差異化初見成效,已吹響進攻號角
阿里達摩院發布2019十大科技趨勢:語音AI在特定領域通過圖靈測試

TAG:量子位 |