當前位置:
首頁 > 最新 > 快來學學Python非同步IO,輕鬆管理10k+並發連接

快來學學Python非同步IO,輕鬆管理10k+並發連接

非同步操作在計算機軟硬體體系中是一個普遍概念,根源在於參與協作的各實體處理速度上有明顯差異。軟體開發中遇到的多數情況是CPU與IO的速度不匹配,所以非同步IO存在於各種編程框架中,客戶端比如瀏覽器,服務端比如node.js。本文主要分析Python非同步IO。

Python 3.4標準庫有一個新模塊asyncio,用來支持非同步IO,不過目前API狀態是provisional,意味著不保證向後兼容性,甚至可能從標準庫中移除(可能性極低)。如果關注PEP和Python-Dev會發現該模塊醞釀了很長時間,可能後續有API和實現上的調整,但毋庸置疑asyncio非常實用且功能強大,值得學習和深究。

示例

asyncio主要應對TCP/UDP socket通信,從容管理大量連接,而無需創建大量線程,提高系統運行效率。此處將官方文檔的一個示例做簡單改造,實現一個HTTP長連接benchmark工具,用於診斷WEB伺服器長連接處理能力。

功能概述:

每隔10毫秒創建10個連接,直到目標連接數(比如10k),同時每個連接都會規律性的向伺服器發送HEAD請求,以維持HTTP keepavlie。

代碼如下:

測試與分析

硬體:CPU 2.3GHz / 2 cores,RAM 2GB

軟體:CentOS 6.5(kernel 2.6.32), Python 3.3 (pip install asyncio), nginx 1.4.7

參數設置:ulimit -n 10240;nginx worker的連接數改為10240

啟動WEB伺服器,只需一個worker進程:

啟動benchmark工具, 發起10k個連接,目標URL是nginx的默認測試頁面:

$ python asyncli.py

nginx日誌統計平均每秒請求數:

top部分輸出:

總結:

1. Python實現簡潔明了。不到80行代碼,只用到標準庫,邏輯直觀,想像下C/C++標準庫實現這些功能,頓覺「人生苦短,我用Python」。

2. Python運行效率不理想。當連接建立後,客戶端和服務端的數據收發邏輯差不多,看上面top輸出,Python的CPU和RAM佔用基本都是nginx的10倍,意味著效率相差100倍(CPU x RAM),側面說明了Python與C的效率差距。這個對比雖然有些極端,畢竟nginx不僅用C且為CPU/RAM佔用做了深度優化,但相似任務效率相差兩個數量級,除非是BUG,說明架構設計的出發點就是不同的,Python優先可讀易用而性能次之,nginx就是一個高度優化的WEB伺服器,開發一個module都比較麻煩,要復用它的非同步框架,簡直難上加難。開發效率與運行效率的權衡,永遠都存在。

3. 單線程非同步IO v.s. 多線程同步IO。上面的例子是單線程非同步IO,其實不寫demo就知道多線程同步IO效率低得多,每個線程一個連接?10k個線程,僅線程棧就佔用600+MB(64KB * 10000)內存,加上線程上下文切換和GIL,基本就是噩夢。

ayncio核心概念

以下是學習asyncio時需要理解的四個核心概念,更多細節請看

1. event loop。單線程實現非同步的關鍵就在於這個高層事件循環,它是同步執行的。

2. future。非同步IO有很多非同步任務構成,而每個非同步任務都由一個future控制。

3. coroutine。每個非同步任務具體的執行邏輯由一個coroutine來體現。

4. generator(yield & yield from) 。在asyncio中大量使用,是不可忽視的語法細節。

如您也是萬千世界裡的「攻城獅」,想學習更多IT知識來增長IT技術,您可留言你喜歡的技術文章或前往51Testing軟體測試網 ,了解更多IT類文章~


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Python 的精彩文章:

帶大家來了解Python解釋器幫助你趕快入門
Python-GUI Tkinter模塊

TAG:Python |