分散式之緩存擊穿

什麼是緩存擊穿

在談論緩存擊穿之前，我們先來回憶下從緩存中載入數據的邏輯，如下圖所示

因此，如果黑客每次故意查詢一個在緩存內必然不存在的數據，導致每次請求都要去存儲層去查詢，這樣緩存就失去了意義。如果在大流量下資料庫可能掛掉。這就是緩存擊穿。

場景如下圖所示:

我們正常人在登錄首頁的時候，都是根據userID來命中數據，然而黑客的目的是破壞你的系統，黑客可以隨機生成一堆userID,然後將這些請求懟到你的伺服器上，這些請求在緩存中不存在，就會穿過緩存，直接懟到資料庫上,從而造成資料庫連接異常。

在這裡我們給出三套解決方案，大家根據項目中的實際情況，選擇使用.

講下述三種方案前，我們先回憶下redis的setnx方法

SETNXkeyvalue

將 key 的值設為 value ，當且僅當 key 不存在。

若給定的 key 已經存在，則 SETNX 不做任何動作。

SETNX 是『SET if Not eXists』(如果不存在，則 SET)的簡寫。

可用版本：>= 1.0.0

時間複雜度：O(1)

返回值：設置成功，返回 1。設置失敗，返回 0 。

效果如下

該方法是比較普遍的做法，即，在根據key獲得的value值為空時，先鎖上，再從資料庫載入，載入完畢，釋放鎖。若其他線程發現獲取鎖失敗，則睡眠50ms後重試。

至於鎖的類型，單機環境用並發包的Lock類型就行，集群環境則使用分散式鎖( redis的setnx)

集群環境的redis的代碼如下所示:

優點:

思路簡單

保證一致性

缺點

代碼複雜度增大

存在死鎖的風險

在這種方案下，構建緩存採取非同步策略，會從線程池中取線程來非同步構建緩存，從而不會讓所有的請求直接懟到資料庫上。該方案redis自己維護一個timeout，當timeout小於System.currentTimeMillis()時，則進行緩存更新，否則直接返回value值。

集群環境的redis代碼如下所示:

優點:

性價最佳，用戶無需等待

缺點

無法保證緩存一致性

1、原理

布隆過濾器的巨大用處就是，能夠迅速判斷一個元素是否在一個集合中。因此他有如下三個使用場景:

網頁爬蟲對URL的去重，避免爬取相同的URL地址

反垃圾郵件，從數十億個垃圾郵件列表中判斷某郵箱是否垃圾郵箱（同理，垃圾簡訊）

緩存擊穿，將已存在的緩存放到布隆過濾器中，當黑客訪問不存在的緩存時迅速返迴避免緩存及DB掛掉。

OK，接下來我們來談談布隆過濾器的原理

其內部維護一個全為0的bit數組，需要說明的是，布隆過濾器有一個誤判率的概念，誤判率越低，則數組越長，所佔空間越大。誤判率越高則數組越小，所佔的空間越小。

假設，根據誤判率，我們生成一個10位的bit數組，以及2個hash函數（f 1 ,f 2 f1,f2 ），如下圖所示(生成的數組的位數和hash函數的數量，我們不用去關心是如何生成的，有數學論文進行過專業的證明)。

假設輸入集合為(N 1 ,N 2 N1,N2 ),經過計算f 1 (N 1 ) f1(N1) 得到的數值得為2，f 2 (N 1 ) f2(N1) 得到的數值為5，則將數組下標為2和下表為5的位置置為1，如下圖所示

同理，經過計算f 1 (N 2 ) f1(N2) 得到的數值得為3，f 2 (N 2 ) f2(N2) 得到的數值為6，則將數組下標為3和下表為6的位置置為1，如下圖所示

這個時候，我們有第三個數N 3 N3 ，我們判斷N 3 N3 在不在集合(N 1 ,N 2 N1,N2 )中，就進行f 1 (N 3 )，f 2 (N 3 ) f1(N3)，f2(N3) 的計算

若值恰巧都位於上圖的紅色位置中，我們則認為，N 3 N3 在集合(N 1 ,N 2 N1,N2 )中

若值有一個不位於上圖的紅色位置中，我們則認為，N 3 N3 不在集合(N 1 ,N 2 N1,N2 )中

以上就是布隆過濾器的計算原理，下面我們進行性能測試，

2、性能測試

代碼如下:

(1)新建一個maven工程，引入guava包

(2)測試一個元素是否屬於一個百萬元素集合所需耗時

輸出如下所示

也就是說，判斷一個數是否屬於一個百萬級別的集合，只要0.219ms就可以完成，性能極佳。

(3)誤判率的一些概念

首先，我們先不對誤判率做顯示的設置，進行一個測試，代碼如下所示

輸出結果如下

如果上述代碼所示，我們故意取10000個不在過濾器里的值，卻還有330個被認為在過濾器里，這說明了誤判率為0.03.即，在不做任何設置的情況下，默認的誤判率為0.03。

下面上源碼來證明：

接下來我們來看一下，誤判率為0.03時，底層維護的bit數組的長度如下圖所示

將bloomfilter的構造方法改為

即，此時誤判率為0.01。在這種情況下，底層維護的bit數組的長度如下圖所示

由此可見，誤判率越低，則底層維護的數組越長，佔用空間越大。因此，誤判率實際取值，根據伺服器所能夠承受的負載來決定，不是拍腦袋瞎想的。

3、實際使用

redis偽代碼如下所示

優點:

思路簡單

保證一致性

性能強

缺點

代碼複雜度增大

需要另外維護一個集合來存放緩存的Key

布隆過濾器不支持刪值操作

希望本文對你有幫助，求幫轉，謝謝

公眾號推薦：

公眾號：VOA英語每日一聽

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 IT技術精選文摘 的精彩文章:

※通過語音和語言技術打造AI教育平台

TAG:IT技術精選文摘 |

分散式之緩存擊穿

什麼是緩存擊穿

解決方案

1、使用互斥鎖

2、非同步構建緩存

3、布隆過濾器