最全Python數據工具箱:標準庫、第三方庫和外部工具都在這裡了
導讀:Python數據工具箱涵蓋從數據源到數據可視化的完整流程中涉及到的常用庫、函數和外部工具。其中既有Python內置函數和標準庫,又有第三方庫和工具。這些庫可用於文件讀寫、網路抓取和解析、數據連接、數清洗轉換、數據計算和統計分析、圖像和視頻處理、音頻處理、數據挖掘/機器學習/深度學習、數據可視化、交互學習和集成開發以及其他Python協同數據工作工具。
為了區分不同對象的來源和類型,本節將在描述中通過以下方法進行標識:
[Python內置函數]:Python自帶的內置函數。函數無需導入,直接使用。例如要計算-3.2的絕對值,直接使用abs函數,方法是abs(-3.2)。
[Python標準庫]:Python自帶的標準庫。Python標準庫無需安裝,只需要先通過import方法導入便可使用其中的方法。例如導入string模塊,然後使用其中的find方法:
import string
string.find("abcde","b")
[第三方庫]:Python的第三方庫。這些庫需要先進行安裝(部分可能需要配置),具體方法參考「1.2.3 Python第三方庫」,然後通過import方法導入便可使用其中的方法。
[外部工具]:非Python寫成的庫或包,用於Python數據工作的相關工具。
01 文件讀寫
文件的讀寫包括常見的txt、Excel、xml、二進位文件以及其他格式的數據文本,主要用於本地數據的讀寫。
02 網路抓取和解析
網路抓取和解析用於從互聯網中抓取信息,並對HTML對象進行處理,有關xml對象的解析和處理的庫在「1.文件讀寫」中找到。
03 資料庫連接
資料庫連接可用於連接眾多資料庫以及訪問通用資料庫介面,可用於資料庫維護、管理和增、刪、改、查等日常操作。
04 數據清洗轉換
數據清洗轉換主用於數據正式應用之前的預處理工作。
05 數據計算和統計分析
數據計算和統計分析主要用於數據探查、計算和初步數據分析等工作。
06 自然語言處理和文本挖掘
自然語言處理和文本挖掘庫主要用於以自然語言文本為對象的數據處理和建模。
07 圖像和視頻處理
圖像處理和視頻處理主要適用於基於圖像的操作、處理、分析和挖掘,如人臉識別、圖像識別、目標跟蹤、圖像理解等。
08 音頻處理
音頻處理主要適用於基於聲音的處理、分析和建模,主要應用於語音識別、語音合成、語義理解等。
09 數據挖掘/機器學習/深度學習
數據挖掘、機器學習和深度學習等是Python進行數據建模和挖掘學習的核心模塊。
10 數據可視化
數據可視化主要用於做數據結果展示、數據模型驗證、圖形交互和探查等方面。
11 交互學習和集成開發
交互學習和集成開發主要用來做Python開發、調試和集成之用,包括Python集成開發環境和IDE。
12 其他Python協同數據工作工具
其他Python協同數據工作工具指除了上述主題以外,其他在數據工作中常用的工具或庫。
關於作者:宋天龍(TonySong),資深大數據技術專家,歷任軟通動力集團大數據研究院數據總監、Webtrekk中國區技術和諮詢負責人、國美在線大數據中心經理。
本文摘編自《Python數據分析與數據化運營》,經出版方授權發布。
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)
TAG:Python |