面對海量請求,緩存設計需要考慮哪些問題?
許多人認為,「緩存」是內存的一部分,許多技術文章都是這樣教授的,但是還是有很多人不知道緩存在什麼地方,緩存是做什麼用的。
其實,緩存是CPU的一部分,它存在於CPU中。CPU存取數據的速度非常的快,一秒鐘能夠存取、處理十億條指令和數據(術語:CPU主頻1G),而內存就慢很多,快的內存能夠達到幾十兆就不錯了,可見兩者的速度差異是多麼的大。
緩存是為了解決CPU速度和內存速度的速度差異問題,內存中被CPU訪問最頻繁的數據和指令被複制入CPU中的緩存,這樣CPU就可以不經常到象「蝸牛」一樣慢的內存中去取數據了,CPU只要到緩存中去取就行了,而緩存的速度要比內存快很多。
今天我們就來說說:面對海量請求有哪些緩存設計問題需要考慮問題?
不得不說,從第一個緩存框架 Memcached 誕生以來,緩存應用的領域越來越寬泛。 比如 PC 電腦中的內存、CPU 中的二級緩存、HTTP 協議中的緩存控制、CDN 加速技術都是使用了緩存的思想來解決性能問題。
那什麼時候需要考慮緩存問題呢?如果你的應用流量很小,那麼使用緩存可能並不需要做多餘的考慮。但如果你的應用流量達到了成百上千萬,那麼你就不得不考慮深層次的緩存問題: 緩存穿透、緩存擊穿與緩存雪崩 。
緩存穿透
什麼是緩存穿透?一般的緩存系統,都是按照key去緩存查詢,如果不存在對應的value,就應該去後端系統查找(比如DB)。如果key對應的value是一定不存在的,並且對該key並發請求量很大,就會對後端系統造成很大的壓力。這就叫做緩存穿透。
例如我們請求一個 UserID 為 -1 的用戶數據,因為該用戶不存在,所以該請求每次都會去讀取資料庫。在這種情況下,如果某些心懷不軌的人利用這個存在的漏洞去偽造大量的請求,那麼很可能導致DB承受不了那麼大的流量就掛掉了。
對於緩存穿透,有幾種解決方案,一種是事前預防,一種是事後預防。
事前預防。其實就是對所有請求都進行參數校驗,把絕大多數非法的請求抵擋在最外層。在我們舉的這個例子中,那麼就是做參數校驗,對於 UserID 小於 0 的請求全部拒絕。但即使我們做了全面的參數校驗,還是可能存在漏網之魚,會出現一些我們沒想到的情況。
例如我們的 UserID 是遞增的,那麼如果有人請求一個 UserID 很大的用戶信息(例如:1000000),而我們的 UserID 最大也就 10000。這個時候,你不可能限制 UserID 大於 1 萬的就是非法的,或者說大於 10 萬就是非法的,所以該用戶ID肯定可以通過參數校驗。但該用戶確實不存在,所以每次請求都會去請求資料庫。
其實上面只是我所能想到的一種情況,我們沒想到的情況肯定還有很多。對於這些情況,我們能做的就是時候預防。
事後預防。事後預防說的就是當查詢到一個空的結果時,我們仍然將這個空的結果進行緩存,但是設置一個很短的過期時間(例如一分鐘)。在這裡我們可以看到,其實我們並沒有完全預防非法請求,只不過是將非法請求的風險讓承受能力更強的redis去承擔,讓承受能力稍弱的資料庫更安全。
通過上面這兩種處理方式,我們基本可以解決緩存穿透的問題。事前預防解決80%的非法請求,剩下的20%非法請求則使用Redis轉移風險。
緩存擊穿
如果你的應用中有一些訪問量很高的熱點數據,我們一般會將其放在緩存中以提高訪問速度。另外,為了保持時效性,我們通常還會設置一個過期時間。但是對於這些訪問量很高的KEY,我們需要考慮一個問題:當熱點KEY在失效的瞬間,海量的請求會不會產生大量的資料庫請求,從而導致資料庫崩潰?
例如我們有一個業務 KEY,該 KEY 的並發請求量為 10000。當該 KEY 失效的時候,就會有 1 萬個線程會去請求資料庫更新緩存。這個時候如果沒有採取適當的措施,那麼資料庫很可能崩潰。
其實上面這個問題就是緩存擊穿的問題,它發生在緩存KEY的過期瞬間。對於這種情況,現在常用的解決方式有這麼兩種:互斥鎖、永遠不過期。
互斥鎖
互斥鎖指的是在緩存KEY過期去更新的時候,先讓程序去獲取鎖,只有獲取到鎖的線程才有資格去更新緩存KEY。其他沒有獲取到鎖的線程則休眠片刻之後再次去獲取最新的緩存數據。通過這種方式,同一時刻永遠只有一個線程會去讀取資料庫,這樣也就避免了海量資料庫請求對於資料庫的衝擊。
而對於上面說到的鎖,我們可以使用緩存提供的一些原則操作來完成。例如對於 redis 緩存來說,我們可以使用其 SETNX 命令來完成。
上面的 key_mutex 其實就是一個普通的 KEY-VALUE 值,我們使用 setnx 命令去設置其值為 1。如果這時候已經有人在更新緩存KEY了,那麼 setnx 命令會返回 0,表示設置失敗。
永遠不過期
從緩存的角度來看,如果你設置了永遠不過期,那麼就不會有海量請求資料庫的情形出現。此時我們一般通過新起一個線程的方式去定時將資料庫中的數據更新到緩存中,更加成熟的方式是通過定時任務去同步緩存和資料庫的數據。
但這種方案會出現數據的延遲問題,也就是線程讀取到的數據並不是最新的數據。但對於一般的互聯網功能來說,些許的延遲還是能接受的。
緩存雪崩
緩存雪崩是指在我們設置緩存時採用了相同的過期時間,導致緩存在某一時刻同時失效,請求全部轉發到資料庫,最終導致資料庫瞬時壓力過大而崩潰。
例如我們有 1000 個KEY,而每個 KEY 的並發請求不大,只有 10 次。而緩存雪崩指的就是這 1000 個 KEY 在同一時間,同時失效,這個時候就突然有 1000 ** 10 = 一萬次查詢。
緩存雪崩導致的問題一般很難排查,如果沒有事先預防,很可能要花很大力氣才能找得到原因。對於緩存雪崩的情況,最簡單的方案就是在原有失效時間的基礎上增加一個隨機時間(例如1-5分鐘),這樣每個緩存過期時間的重複率就會降低,從而減少緩存雪崩的發生。
總結
對於緩存穿透、緩存擊穿、緩存雪崩這三個情景,許多人會搞不明白,甚至會混淆。
「緩存穿透」指的是請求不存在的數據,從而使得緩存形同虛設,緩存層被穿透了。例如我們請求一個 UserID 為 -1 的用戶數據,因為該用戶不存在,所以該請求每次都會去讀取資料庫。在這種情況下,如果某些心懷不軌的人利用這個存在的漏洞去偽造大量的請求,那麼很可能導致DB承受不了那麼大的流量就掛掉了。
「緩存擊穿」指的是並發量很高的 KEY,在該 KEY 失效的瞬間有很多請求同同時去請求資料庫,更新緩存。例如我們有一個業務 KEY,該 KEY 的並發請求量為 10000。當該 KEY 失效的時候,就會有 1 萬個線程會去請求資料庫更新緩存。這個時候如果沒有採取適當的措施,那麼資料庫很可能崩潰。
「緩存雪崩」則是指緩存在同一時間同時過期,就像所有雪塊同一時刻掉下來,像雪崩一樣。例如我們有 1000 個KEY,而每個 KEY 的並發請求不大,只有 10 次。而緩存雪崩指的就是這 1000 個 KEY 在同一時間,同時失效,這個時候就突然有 1000 ** 10 = 一萬次查詢。
對於它們出現的情形,我們可以做一些總結:
「緩存穿透」是業務層面的漏洞導致非法請求,與請求量、緩存失效沒關係。「緩存擊穿」則只會出現在熱點數據上,發生在緩存失效的瞬間,與業務沒多大關係。「緩存雪崩」則是因為多個 KEY 同時失效,導致資料庫請求太多。非熱點數據也會導致緩存雪崩,只要同時失效的 KEY 足夠多。
本文來源:陳樹義,文章有所改動。
對編程感興趣,想了解更多的編程知識,關注頭條號一起玩轉編程
更多編程資訊、乾貨持續更新中~