當前位置:
首頁 > 知識 > 數據科學和 ML 領域常用的 Python 庫

數據科學和 ML 領域常用的 Python 庫

(點擊

上方藍字

,快速關注我們)




編譯:伯樂在線 - 李趴趴要化身女超人


如有好文章投稿,請點擊 → 這裡了解詳情




Python 對於數據科學家來說幾乎是一項必備技能。正如你看到的那樣,很多數據科學家的崗位要求具備 Python 編程的能力。這篇文章將會針對數據科學介紹幾種常用的 Python 包。在與數據挖掘、機器學習以及數據分析相關的項目中,這些 Python 包通常會得到廣泛應用。




1. SciPy



SciPy (發音為「Sigh Pie」) 是一個基於 Python 的開源軟體生態系統,主要用於數學、科學和工程學等領域,給數據科學家提供了大量的演算法和數學工具。




2. NumPy




Numpy是用 Pyhton 進行科學計算時的基礎包,為 Python 提供了出色的數學功能。




3. Scikit-learn



Scikit-learn 是 Python 中最著名的機器學習包,包含了大量不同的分類方法、交叉檢驗及其他模型選擇方法、降維技術、回歸和聚類分析的模塊以及非常實用的數據預處理的模塊。




4. Pandas




Pandas 是一個用於處理具有類表格結構數據的庫,通常與強大的數據框對象一起使用。DataFrame 是高效處理數據的多維數組對象,類似 Numpy 的 narray ,同時也有些附加的功能。




5. IPython



IPython 是一個命令行shell,相對於自帶的 Python 解釋器,具有很多有用的增強功能。




IPython Notebooks  對於科學計算來說是個不錯的環境:不僅僅可以執行代碼,同時也能通過 Markdown 、 HTML 、 LaTeX 、內置圖片、內置數據圖表(例如 matplotlib 等)增加信息化文件,還能為並行計算提供高性能的工具。




6. Requests




Requests 是 Python 中為人們搭建的優雅而簡單的 HTTP 庫。作為一名數據科學家,你或許需要從網上採集數據,而Requests 則為你提供了強大的工具。



7. Scrapy




Scrapy 是從互聯網上採集數據的開源和協同框架,使用了快速、簡單並且可擴展的方式。




8. Statsmodels




用戶可以通過 Statsmodels 這個 Python 模塊去挖掘數據、搭建預測統計模型和進行統計檢驗。它是個可擴展的列表,用來描述數據、統計檢驗、繪圖以及為不同類型的數據和每一種預測提供統計結果。



9. Theano




如果從事深度學習項目,通常會需要 theano 。你可以用它這個 Python 庫去定義、優化、高效評估包括多維數組在內的數學表達式。




10. gensim




genism 是最穩健、高效和省事的軟體之一,通過純文本實現無監督的語義建模,可以很容易地訓練主題模型。如果想要在文本數據中應用主題模型,那你應該去試試 genism。



11. SymPy




SymPy 是進行符號數學計算的 Python 庫,擁有大量的特徵,包括微積分、代數、幾何學、離散數學,甚至還有量子物理學。同時在 LaTeX 的支持下具備基礎繪圖和輸出功能。




12. PyMC




PyMC 的核心是貝葉斯統計和模型擬合的大量演算法(包括Markov Chain Monte Carlo, MCMC)。



13. matplotlib




matplotlib 是 python 的平面繪圖庫,能以硬拷貝格式和跨平台交互環境的多種形式輸出高質量的圖形,對於任何數據科學家或數據分析師來說都是必備的。




14. BeautifulSoup




如果想要提取些數據出來,那麼 BeautifulSoup 正是你所需要的,可以用它在網頁中提取內容。



15. nltk




Natural Language Toolkit (NLTK) 是使用人類語言數據搭建 Python 項目的領先平台。如果你在從事 NLP 相關的項目,那麼 NLTK 是個必備工具。




16. sqlite3




這個工具能幫助你輕而易舉地存儲數據。它為 Python 連接 SQLite 資料庫提供了介面。搭建開源的 SQL 資料庫引擎對於小團隊來說是個理想的選擇,因為它是獨立的本地存儲資料庫文件(最多140Tb),不像SQL那樣,它不需要任何伺服器基本結構。




以上是我在數據挖掘項目中經常使用到的包。如果你有任何想法或建議,請在下面留言。




看完本文有收穫?請轉發分享給更多人


關注「大數據與機器學習文摘」,成為Top 1%


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Python開發者 的精彩文章:

PyCharm 2017.2.3 發布,支持 Docker Compose
機器學習沒有想像中的那麼難
Werkzeug庫:routing模塊
Python 增強的生成器:協程

TAG:Python開發者 |