HTTP 內容編碼,也就這 2 點需要知道
承香墨影
最快捷的技術進階之路
題圖:by Martin Adams
Hi,大家好,我是承香墨影!
HTTP 協議在網路知識中佔據了重要的地位,HTTP 協議最基礎的就是請求和響應的報文,而報文又是由報文頭(Header)和實體組成。大多數 Http 協議的使用方式,都是依賴設置不同的 HTTP 請求/響應 的 Header 來實現的。
本系列《實用 HTTP》就拋開常規的 Header 講解式的表述方式,從實際問題出發,來分析這些 HTTP 協議的使用方式,到底是為了解決什麼問題?同時講解它是如何設計的和它實現原理。
HTTP 協議是一種無狀態的「鬆散協議」,它不會記錄不同請求的狀態,並且因為它本身包含了兩端(客戶端和服務端),根據請求和響應來區分,它大部分的內容都只是一個建議,其實雙邊是可以不遵守此建議的。
「這裡寫了建議零售價 2 元…」
「哦,不接受建議!」
在上一篇文章中,聊到了HTTP 的緩存機制,其實緩存的主要起因就是為了減少網路請求次數,來達到快速響應的目的。而除了減少網路請求之外,其實我們還可以通過對實體內容,進行編碼壓縮的方式,減少傳輸的內容大小,從而加快響應的速度。
本文就就繼續來聊聊 HTTP 的實體內容壓縮編碼機制。
二、HTTP 的內容編碼
2.1 為什麼要對內容進行編碼?
編碼的目的就是為了壓縮報文實體內容的大小,而通過壓縮伺服器響應報文傳輸的內容實體,在一定程度上就可以加快響應的速度。
畢竟傳輸一個 10kb 的內容,會比傳輸一個 100kb 的內容快很多。這就是需要使用內容編碼進行壓縮的原因。
2.2 壓縮編碼
說到壓縮編碼,就先簡單聊聊壓縮演算法,對於壓縮演算法而言,分為兩類:
無損壓縮演算法
有損壓縮演算法
從名稱上就可以理解,無損壓縮意味著它是可以被還原的,通常被應用在文本,而有損壓縮會對原始數據進行修改,以加大壓縮率的目的,對文件進行有損失的壓縮,這是一種不可逆的操作,通常一些對質量要求不高的圖片和視頻上,雖然壓縮以後可能會導致文件模糊,但是勉強還可以看。
而在 HTTP 協議中,通常我們只會對文本內容,進行壓縮編碼。一個主要的原因在於,壓縮本身是會消耗伺服器資源的,而文件比多媒體文件輕便了很多。並且多媒體文件多數情況下,本身就已經是高度壓縮的二進位格式,再次進行壓縮的意義也不大。
2.3 設計一個「壓縮協議」
前面提到,HTTP 協議是一種鬆散的 「協商協議」,需要客戶端和服務端雙端配合,才可以生效。而壓縮演算法有很多種,到底應該選擇哪一種,也是需要雙方協商的。
如果我們嘗試設計一下這個 HTTP 的 「壓縮協議」,主要需要關注這兩點。
1.通知服務端,客戶端支持的壓縮演算法
一個 HTTP 事務,總是由客戶端發起請求,而服務端將響應返回。那麼客戶端就要在發起請求的時候,率先告知服務端,當前客戶端支持的壓縮演算法。
通常客戶端會支持多種壓縮演算法,為了讓服務端有選擇的空間,應該允許傳遞多個支持的壓縮演算法。既然有多選的空間,那麼就一定要有優先順序的概念。
類似於我們在市場上交易,我接受人民幣、美元、比特幣的交易,但是因為我使用人民幣更方便,所以我需要指明交易方,如果方便的話最好通過人民幣交易。
2.服務端選擇支持的壓縮演算法壓縮內容
服務端接受到客戶端的請求後,辨識出客戶端支持的壓縮演算法,現在當前環境最優的一種壓縮演算法對響應內容體進行要鎖,然後將壓縮後的內容返回。
為了讓客戶端接收到響應後,能明確知道服務端使用的壓縮演算法,還需要在響應中明確指明,當前的響應實體的數據使用的壓縮演算法(當然也可以不壓縮)。
2.4HTTP 的「壓縮協議」
前面我們自己設計的兩個條件,都是基於 HTTP 報文中的報文頭來實現的。接下來我們看看 HTTP 協議中,是如何設計「壓縮協議」的。
1.請求頭中的 Accept-Encoding
客戶端為了告知服務端當前支持的壓縮編碼,可以在請求頭中,增加 這個頭部欄位,用來指定當前客戶端支持的壓縮編碼,如果有多個可以使用逗號 進行分割。
為了滿足優先順序,其實是可以通過 分割的順序來指定的。HTTP 協議中,還可以使用 Q 值來說明編碼的優先順序,Q 值的取值範圍是 0.0 ~ 1.0。0.0 表示客戶端不想接受此編碼,而 1.0 則表示希望使用此編碼,不過通常我們不需要明確的指定它,大家了解一下即可。
2.響應頭中的 content-encoding
服務端為了在響應報文里體現當前對內容壓縮使用的編碼格式,會在響應頭中使用 標記,它是一個明確值,所以只可能有一個。
編碼的目的就是為了壓縮,所以當服務端選擇壓縮內容實體的時候,同時還會修改 來明確表示當前實體被編碼壓縮後的長度。
發兩張壓縮前和壓縮後的流程圖,就清晰了。
壓縮前:
壓縮後:
三、HTTP 的編碼類型
3.2 HTTP 編碼類型
HTTP 定義了一些標準的內容編碼類型,並且可以擴展更多的編碼類型。由互聯網號碼分配機構(IANA)對各種編碼進行標準化,它給每個內容編碼演算法分配一個唯一的代號。
Content-Encoding 就是用這些標準化的代號來說明編碼使用的演算法。
比較常用的演算法有:
gzip:表明實體採用 GNU zip 編碼。
compress:表明實體採用 Unix 的文件壓縮程序。
deflate:表明使用是用 zlib 的格式壓縮的。
br:表明實體使用 Brotli 演算法的壓縮格式。
identity:表明沒有對實體進行編碼,為默認值。
在這些演算法中,除了 identity 之外,都是無損壓縮,他們都是需要可還原成原始的文本內容的。gzip 通常是效率最高的,使用最廣泛的。
但是 gzip 對媒體文件的壓縮效果相對較差,本身 JPG/PNG 這類文件已經是一種高度壓縮的二進位文件,開啟 gzip 效果甚微還會浪費大量 CPU 資源。
瀏覽器的默認實現中,這些壓縮編碼通常只會作用在文本內容上,就是 為 text/Xxx 的請求上,而對於一些媒體文件,則不會使用這種方式對其進行壓縮。
3.2 GZIP
既然 gzip 是 HTTP 的內容編碼中,比較常用的一種編碼方式,這裡拋磚引玉,簡單介紹一些 gzip,其他編碼方式,有興趣的可以自行查閱相關資料。
gzip 編碼是採用的 GNU Zip 編碼,是一種無損的壓縮演算法,用於減少傳輸報文實體的大小,它是可逆的壓縮演算法,不會導致信息損失。
gzip 的壓縮效率相對較高,並且使用也是最為廣泛的,我們在工作中如果不特殊說明,說到的 HTTP 壓縮,通常就是指的 gzip。
gzip 的原理,簡單來說,就是會去掃描整個文本的字元串,找到一樣的字元串,就只保留一個並分配一個標識,然後將其他相同的字元串使用這個標識替換,使整個文件變小。在還原的時候,只需要將每個標識代表的字元串,替換還原,就可以還原成最初的內容實體。
這種壓縮演算法,非常適用於現在的互聯網產品,HTML、CSS、JavaScript 以及 Json 中,都包含了大量重複的字元串,所以在這裡使用 gzip 是非常合適的。
gzip 具體能壓縮多少,完全取決於壓縮的實體內容,內容文本中,包含越多相同的字元串,壓縮率就越高,相反則越低。在理想狀態下,gzip 的壓縮率能高達 70%。
四、內容編碼的完整過程
到此我們就算了解清楚 HTTP 對內容編碼的完整流程了。大致流程如下圖。
再總結幾個關鍵點:
1.請求頭中,通過 Accept-Encoding 來指定客戶端支持的內容編碼格式。
2.服務端選擇一個支持的內容編碼去壓縮原始響應內容實體。
3.修改響應頭,增加 Content-Encoding 用於指定使用的編碼方式,並且修改 Content-Length 來表明壓縮後的內容大小。
4.內容壓縮的演算法有很多,但是 gzip 是最常用的。
5.內容壓縮演算法,都是基於無損壓縮,最終都需要在客戶端將內容還原。
五、小結
一個報文通常會包含報文頭部和報文實體,而本文介紹的 HTTP 壓縮編碼,主要是針對報文實體內容中,文本內容的壓縮編碼,並為涉及到報文頭部的壓縮。主要是因為在 HTTP/1中,報文頭部始終是以 ASCII 文本傳輸,沒有經過任何壓縮,而在 HTTP/2 中才對其實現了解決方案,所以 HTTP 的編碼壓縮只是針對報文實體的,這句話並不全對,這個有機會以後再說。
除了內容編碼之外,HTTP 還有傳輸編碼,這個同樣也是有機會再說。
在本文中,說明了 HTTP 對報文實體內容的壓縮策略和方法,希望對你有幫助。
「聯機圓桌」一年 50 個優質問題,上桌聯機學習。
TAG:承香墨影 |