區塊鏈系列：散列演算法

最新 03-05

你大概了解到，計算機中一切的數據都是由0或1組成的，最小的數據單位就是一個比特（bit，或位），它也是0或許1。想像一下，一台計算機擁有著很多的燈泡，而這個燈泡的形態有兩種，亮（1）或許滅（0）。而不同的數據，由燈泡顯示的圖案也是不同的。

你大概了解到，計算機中一切的數據都是由0或1組成的，最小的數據單位就是一個比特（bit，或位），它也是0或許1。想像一下，一台計算機擁有著很多的燈泡，而這個燈泡的形態有兩種，亮（1）或許滅（0）。而不同的數據，由燈泡顯示的圖案也是不同的。大數據如視頻，就運用了相當多的燈泡，而一個冗長的電子郵件，其所需要的燈泡就較少。一個單一的燈泡代表著一個比特。另外，你能夠聽說過一個詞叫位元組，一個位元組就相當於8個燈泡的組合。而1MB的數據約為100萬個位元組，也就相當於800萬個燈泡。

如今，家庭使用的電腦就擁有了數十億甚至萬億級數量的燈泡。同時我們發現，即便只是由256個燈泡組成的集合，也足以代表宇宙中可以察看到的任何顆粒。想像一下256個燈泡組可以發生的一切圖案，那將是一個天文數字：也就是2^256種可能性。

一個散列函數（hash function），即取任何的輸出，就可以產出一個特定大小的輸入。這個運用散列函數，然後產出某些數據的進程，我們叫它為散列法（hashing）或音譯為哈希法。而散列函數的輸入，我們稱作一個散列（hash）。一個特定散列函數的根本特徵，就是它產出輸入的大小。比如說本文中的示例，我們運用一個產出輸入為256 bits（32位元組）的散列函數。當然也有散列函數可以產出較小的輸入，或許也可以產生較大的輸入，也存在另外一些可以產出256 bits的散列函數，但這個例子中，我們並不關心細節所運用的散列函數。

運用這個例子的散列函數，當一部N兆（MB）的視頻被散列運算時，那它的輸入後果是：256個燈泡中有一些燈泡是點亮的。當一個冗長的電子郵件被散列運算時，這256個燈泡的輸入顯示，則是另外的一種圖案。在某些方面，散列法看起來就像是壓縮。複雜地解釋下這兩者之間的區別，散列法總是會發生相反數量的燈泡，而壓縮一部N兆（MB）視頻的結果，同樣會發生數以百萬計燈泡的一個輸入。一個壓縮過的視頻，可被解壓縮然後取得原始的視頻。而當一個視頻被散列到僅僅只要256個燈泡時，從這個散列來重新構建原始視頻的可能性就很小了。這也許聽起來並不是理想的，但實際上這正是散列函數的一個強力功能。

一個安全的加密散列函數，它的一個關鍵特徵就是，它是單向的。這意味著，從數學和計算機學角度下去看講，從輸入來反推輸入，這簡直是不可能的。也就是說，給定一個散列，想要理解或查到提供應這個散列函數的輸出數據，它應該是不可能的。技術術語下去講，我們稱它為逆原像阻力（pre-image resistance）。

結果是，無論是散列法運算一個較大或許一個較小的輸出，散列函數應耗費大約相反的工夫量。另一個理想中的後果是，這個散列，也就是由散列函數而發生的燈泡圖案，似乎應是隨機的，對數據「password1」停止散列法運算，其發生的燈泡圖案，與對數據「password2」停止散列法運算而發生的燈泡圖案，兩者是有很大不同的。否則，假如圖案是類似的，那對方就可以推斷出輸出也是相似的，而假如相關的詞（如「pass」，「word」）被發現時，那密碼也很容易被找到。安全的散列函數，即便輸出僅相差一個bit，也會發生明顯不同的輸入。

安全的理想行為，是給定一個散列，而獨一找到輸出數據的辦法，就是經過對一切輸出的組合停止散列法運算，直到正確的輸出是被散列運算了。假如輸出是隨機的，那找到它的工夫既是不確定的。

雖然找到一個散列的輸出應該是十分困難的，它需求破費很長的工夫，但計算一個散列卻是很快就能完成的。一個帶有少量輸出的散列函數，能夠在不到一秒的工夫內，就能失掉輸入。思索到明天智能手機，每秒可以停止數十億次的計算，1秒關於計算而言，就相當於很長的工夫了。

加密散列函數也應該是抗碰撞的（collision resistant）。一個碰撞進程，意指當一個散列函數為超越1個輸出停止運算，而產出相反輸入的後果。假如用散列法運算數據1（能夠是一份電子表格），而用散列法運算數據2（能夠是一張圖片），這兩者發生了相反的輸入，那麼這個碰撞抵觸就發作了。

加密散列函數，其安全性的重要性，在我們描繪區塊鏈和散列法局部時，會顯得更為清楚。

散列法（Hashing）普遍地使用於區塊鏈，這裡也有一些例子。

區塊鏈上的地址，是由散列法運算公鑰而失掉的。一個以太坊的賬戶地址，是以Keccak-256（開發者應該閱讀下它與SHA3-256的關鍵區別）散列法運算一個公鑰而得出的。而一個比特幣地址，則是經過SHA2–256和RIPEMD160來散列法運算一個公鑰而得出的。

散列函數的抗碰撞性是重要的，由於假如2團體發生了相反的地址（發作了抵觸），那任何一方都可以破費這個地址上的錢。

簽名也是區塊鏈的根本組成局部。相似於簽署一張支票，加密簽名決議哪些買賣是無效的。簽名是由私鑰和需求被簽名的數據散列而生成的。

買賣散列在區塊鏈中是十分分明的。比如說描繪一筆買賣：「Alice在D日T時，向Bob發送了X單位的貨幣」，那麼買賣就會被提交為他們的散列，例如5c504ed432cb51138bcf09aa5e8a410dd4a1e204ef84bfed1be16dfba1b22060 是以太坊區塊鏈中的一筆買賣。買賣散列也是更為間接可用的，例如「在1337個區塊中的第1024筆買賣」這樣的描繪，你只需求複製這個散列，並粘貼到一個區塊鏈閱讀器中，然後就可以檢查這筆買賣的細節。

形而上學地講，區塊鏈中的區塊是由它們的散列來確定的，其充任了鑒別和完好驗證的雙重角色。一個辨認字元串還會提供它自有的完好性，被稱為自認證標識符。

關於運用挖礦機制的區塊鏈來說，任務量證明（Proof-of-Work）就是一個數字，我們稱它為隨機數（nonce），當它和其他散列過的數據停止兼并時，會發生一個比規則目的值更小的值。挖礦使得散列法成為一種疾速運算、單向不可逆的演算法。找到一個無效的隨機數需求工夫，由於（礦工）沒有可用的線索來協助它們找到一個足夠小的散列，而獨一找到一個小於目的值的辦法，就是計算很多的散列：在比特幣中，目前存在了超越10^25(10 septillion)數量級的散列。當一個（nonce）隨機數被找到時，驗證它的工夫就需求1秒，然後這個新區塊會在網路中播送，構成最新的共識和區塊鏈。

在區塊鏈上的存儲數據是永世性的，但把少量的數據存儲在區塊鏈上則是不明智的，而適用的區塊鏈存儲辦法，是將固定大小（通常是小的）的數據代表存儲在區塊鏈上，我們稱之為「數據的散列」。區塊鏈的一個使用是作為一個工夫戳效勞。假定你想要證明一張以後存在的圖片，保證在將來時它不是假造出來的。你可以將圖片的散列存儲在區塊鏈上，一年當前，當法官問起這張圖片能否在一年前真實存在時，你可以提供這個圖片，然後法官就可以散列運算這張圖片，並與你存儲在區塊鏈上的散列停止比照。

散列法還觸及到更多初級的例子，例如區塊鏈、可擴展性、輕錢包創新的基本 —— 梅克爾樹（Merkle tree）。

安全加密散列函數是單向、疾速計算，並且抗碰撞的。結合這些特點後，它們會處置任何類型的輸出，然後發生一個固定大小的輸入，稱之為散列，散列作為任何數據的標識而言，是十分有用的。長度256 bits的散列，代表了一個地理數字的組合，將它們用於全球物聯網的獨一標識符，那也是綽綽不足的，即便是在納米技術規模下，這些散列也可以被寫為64個字元（十六進位），這使得它們足以作為標識符來運用。在區塊鏈中，散列是作為區塊、買賣和地址的標識符。

散列還享有安全與隱私的劣勢。假如一首歌是以數字格式被記載的，並且這首歌的散列是被記載在區塊鏈之上的，那任何別人都無法宣稱是他們是第一個發明了這首歌，並生成了這個散列，他們也不會曉得歌曲自身：某人不能寫歌，也沒法竄改這個散列。異樣地，除非歌曲或其他數字化財富或數據被標明了，展現在區塊鏈上的僅僅是散列自身而已。一切權記載也可以存儲在區塊鏈上，舉個複雜的例子，車輛註銷處可以將汽車數據散列（照片，VIN, 車牌）存儲在區塊鏈上，只要車輛一切者，保險公司以及政府會曉得這個車輛的實踐細節。

設計加密散列函數，需求藝術與迷信的結合。為了證明它們的安全性，就需求用到先進的數學與計算機迷信。區塊鏈是為廣闊人群提供的，第一個充溢散列的用戶界面。好的用戶體驗，其面前隱藏著很多的散列，但正如我們明天看到的各種 id和序列號，有時分散列會是替代長篇大論的最佳標識符。隨著加密技術與物聯網技術變得愈加普及化，希望在將來可以看到更多64字元的散列！

原文：https://medium.com/@ConsenSys/blockchain-underpinnings-hashing-7f4746cbd66b#.94m1n6n3b

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 點點網路信息科技 的精彩文章:

※區塊鏈系列：為什麼要考慮投資區塊鏈

TAG:點點網路信息科技 |

區塊鏈系列：散列演算法

加密散列函數（或加密哈希函數）

區塊鏈和散列法

用於安全辨認的散列

深化實際，普遍使用