比DNA存儲更可怕！你的照片居然可以存儲在氨基酸分子溶液里

新聞 07-09

【新智元導讀】前幾天，一個DNA分子存儲16G維基百科的新聞刷新了我們的三觀，引發人們對於未來數據存儲的大討論。近日，布朗大學的研究人員受此啟發發現：DNA並不是唯一可以用於數字存儲的分子，含有糖、氨基酸和其他小分子的溶液也可以取代硬碟。意外不意外？

原來，不只DNA能夠存儲數據，小分子溶液也可以。

上周，新智元報道了DNA數據存儲的新聞，不僅16G的維基百科能夠存儲到一個DNA分子上，就連存儲全球的數據也只需要1kg DNA。

而近期，布朗大學的研究人員受此啟發並發現：DNA並不是唯一可以用於數字存儲的分子。事實證明，含有糖、氨基酸和其他小分子的溶液也可以取代硬碟。

比DNA存儲更可怕！你的照片居然可以存儲在氨基酸分子溶液里

論文地址：

https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0217364&type=printable

在DNA的下游，代謝組(metabolome)是一個信息豐富的分子系統，它具有不同的化學維度，可以用來存儲和處理信息。

為了證明小分子後基因組( small-molecule postgenomic)數據存儲的原理，研究人員利用機器人液體處理將數字信息寫入化學混合物，並利用質樸分析提取數據。

研究人員還提出了幾個存儲在合成代謝體中的千位元組(kilobyte-scale)級圖像數據集，使用多質量邏輯回歸可以對其進行解碼，其精度超過99%。

比DNA存儲更可怕！你的照片居然可以存儲在氨基酸分子溶液里

布朗大學工程學院教授、該研究的高級作者Jacob Rosenstein說：

這是一個概念驗證，我們希望讓人們考慮使用更廣泛的分子來存儲信息，在某些情況下，我們在這個
研究中使用的小分子可以比DNA擁有更大的信息密度
。另一個潛在的優勢在於，多種小分子可以相互反應形成新的化合物。這為分子系統創造了潛力，
不僅可以存儲數據，還可以操縱數據

——在代謝物混合物中執行計算。

縮略圖大小的圖像，存儲在比DNA還小的分子上

為了上述的想法，研究人員用常見代謝物做了一種混合物——含有糖、氨基酸和其他小分子的溶液，人類和其他生物利用這些小分子來消化食物和執行其他重要的化學功能。

他們的想法是利用混合物中特定代謝物的存在或不存在作為二進位的1和0來編碼數字信息。

比DNA存儲更可怕！你的照片居然可以存儲在氨基酸分子溶液里

圖1 該方法將數字數據的1和0映射到溶液中特定分子的存在或不存在。研究人員使用該方案對圖像文件進行了編碼。

例如，為了生成北山羊的圖像，研究小組使用了6種不同代謝物的混合物，這些混合物由液體處理機器人點綴在一個小金屬板上。他們總共製作了1024個液滴，每個液滴中6種代謝物或缺失或存在，提供了足夠的二進位信息來編碼6142像素的圖像。

然後，金屬板被烘乾，留下微小的代謝物分子點，每個點都保存著數字信息。

然後，這些數據可以用質譜儀讀出，質譜儀可以識別存在於板上每個點的代謝物，並對數據進行解碼。

比DNA存儲更可怕！你的照片居然可以存儲在氨基酸分子溶液里

研究人員將這張貓的圖像保存在小分子溶液中

研究人員通過用質譜儀分析每個點的化學成分，能夠以99%的準確率檢索到這些數據。他們還用12種代謝物的混合物，解碼了一張解析度更高的貓的照片。

密集數據

他們使用手掌大小的標準板來編碼縮略圖大小的圖像。但是據Rosenstein介紹，代謝物存儲設備的物理尺寸可以更小。

代謝物分子比DNA和蛋白質小得多，而且種類繁多。他說，這意味著它們可以比DNA更密集地表示少量數據。

Rosenstein說：「一旦數據被記錄下來，它們就不需要任何能量了。根據分子和環境條件的不同，這些數據可以保存數月或數年。」事實上，在極端溫度、壓力和機械力等條件下，分子存儲可能比電子存儲更穩定，這取決於分子的特性。

分子存儲還可以使離線存儲大量數據成為可能，而不是存儲在雲中，從而防止黑客入侵。

到目前為止，Rosenstein和他的同事們發明的技術與電子計算機相比速度還比較慢。

研究人員指出，這種技術也有一些局限。例如，當多種代謝物分子被放在同一溶液中時，它們之間會發生化學反應，這可能導致錯誤或數據丟失。但這個bug最終可能成為一個功能。也許可以利用這些反應來操縱執行數據的計算。

Rosenstein表示：

與DNA相比，我們的代謝物數據具有較低的延遲，從而可以從頭到尾快速地讀寫數據集。」他也補充說 DNA 目前在編碼大型數據集方面有優勢。這些想法在研究實驗室中使用已經可行，但我們需要加快速度，縮小分析硬體的尺寸，然後才能在實驗室外實施。這類研究挑戰了人們在分子數據系統中所看到的可能性。DNA不是唯一可以用來存儲和處理信息的分子。認識到還有其他潛力巨大的可能性是令人興奮的。

實驗原料和方法

化學庫的製備

將36種不同代謝化合物的試劑級樣品（S1文件中的表A）在二甲基亞碸（DMSO，無水）中稀釋，標稱濃度均為25mM。將一些代謝物首先溶解在替代溶劑（去離子水，可選擇加入0.5M或1M的鹽酸）中，以促進化合物在DMSO中的溶解。將10μL每種化合物等分到384孔的微量培養板（Labcyte384LDV）上。

數據混合物的準備

在規格為76mm×120mm不鏽鋼MALDI板上製備化學數據混合物。使用聲學液體處理器（LabcyteEcho 550型）將化合物從培養板轉移到MALDI板上。儀器標稱的單液滴體積為2.5nL，但為了降低液滴體積變化對結果的影響，通常每種化合物使用2滴（5nL）。液滴以標準的2.25mm點距排布，共計1536個位置（32×48）。

將化合物按編好的位置滴到MALDI板上之後，需要將MALDI基質材料添加到每個位置上。我們選擇9-氨基吖啶作為基質材料，因為它與代謝物庫能夠共存，它在小分子體系中具備低背景（low background）特徵，同時支持正離子和負離子模式。將MALDI板放置在乾燥環境中，大約在一夜時間即可完成結晶（最多10小時）。乾燥後，可將板儲存在濕度控制櫃中，或進行MALDI-FT-ICR質譜分析。

數據板的質譜分析

實驗中使用傅里葉變換離子迴旋共振（FT-ICR）質譜儀（SolariX 7T，Bruker）分析結晶代謝物數據混合物。精確的成分結果是每個頻譜上的測量時間的函數。這些實驗中通常耗時0.5-1秒，產生的分辨精度<0.001Da。該儀器將連續測量48x32網格上的每種混合物的質譜。測定全部樣本只需要不到2個小時。

為了從質譜中讀取編碼數據，將代謝物存在的概率建模為多個預測質量的組合。利用多項邏輯回歸方法，考慮偏移量的自然指數，加上所有識別質譜信噪比之和，每個信噪比均與訓練的權重係數相乘。在給定每種代謝物的n個最佳峰值輸入的情況下，使用有限記憶BFGS演算法來預測邏輯精度評分。

在實驗中，對所有代謝組合成分重複以上過程。

實驗結果：檢索準確率高達99％！

編寫合成代謝組分

我們的合成代謝組由36種化合物組成，包括維生素、核苷、核苷酸、氨基酸、糖和代謝途徑中間體。為了將數據寫入代謝物混合物中，我們使用聲學液體處理器以2.5nL的增量將純代謝物溶液傳輸到鋼製MALDI板上預先定義的位置。選擇2.25 mm節距網格，以與標準wellplate協議兼容。這產生了一個不同代謝物混合物的空間陣列，其中每種混合物中每個化合物的存在（或不存在）編碼一位信息。

在蒸發溶劑後，每個數據板包含多達1536個乾燥點（圖1b），我們可以使用基質輔助激光解吸電離（MALDI）質譜（MS）進行分析。為了預先篩選合成代謝組中的每種化合物，在1400個獨特的點上，用36種代謝物的組合混合物寫出圖版。由於MALDI方案具有化學特異性，因此我們不希望在一組條件下，整個化合物庫具有相同的鑒定準確度。我們使用此預篩選來確定具有相同方案的每種代謝物的MS鑒定準確度。

代謝物混合物的離子回旋加速器質譜

使用傅里葉變換離子迴旋共振（FT-ICR）質譜儀（SolariX 7T，Bruker）分析結晶混合物陣列。在FT-ICR MS中，脈衝RF激發離子進入周期軌道，其頻率由磁場強度和離子質量決定，這使得質量解析度比飛行時間（ToF）更精細。儀器。在這些實驗中，質量解析度通常為0.001Da。使用FT-ICR MS，即使它們的質量僅相差milli-Daltons ，也可以區分代謝物。

在圖2（a）中，顯示了包含鳥苷（go）和9-氨基吖啶（9A）基質的斑點的一個正離子MALDI-FT-ICR質譜。質子化的基質加合物在峰1和6（藍色）處鑒定，連同鳥苷的加合物，標記為（2：Na，3：K，4：2K-H和5：異丙醇（IPA）+ H）。觀察到的強度因加合物和種類而異，在圖2（b）中，在1024個點上顯示了第一個峰值（m / z = 195.0916±0.001處的質子化基質）的強度。

比DNA存儲更可怕！你的照片居然可以存儲在氨基酸分子溶液里

圖2.用質譜分析化學數據板。

許多開放獲取工具可用於代謝峰的檢測和MS質譜的分配。為了清楚地將質譜與二進位數據聯繫起來，我們考慮了一個基本的檢測方案：如果代謝物的質量強度高於某個特定的閾值，則聲明它存在，並且其地址的二進位狀態設置為1（或0，如果它的質量峰值不存在）。該方法在圖2（b）中的1024個斑點中識別出1020個基質質子化峰（≈99.6％）。

作為初始演示，我們選擇了6種代謝物的庫子集，用於將Nubian ibex的6,142像素二進位圖像編碼為1024個混合物的陣列。偽隨機交織後，將數據映射到存在或不存在山梨醇（SO）、谷氨酸（GA）、色氨酸（TP）、胞苷（CD）、鳥苷（GO）和2-脫氧鳥苷水合物（GH）中。如方法中所述，使用FT-ICR-MS對板進行書寫和分析。

圖3a顯示了240個獨立點觀測到的質譜背景雜訊的空間圖和直方圖。在進一步分析之前，我們將每個質譜除以其背景σ，這樣可以更直接地比較多個位置的信號強度。信號強度是樣品製備、分析物和加合物的複雜函數。歸一化後，6種代謝物的目標峰顯示在圖3b中。第一行是其數據包含六位[1 0 0 0 0 0]的點，因此僅存在與第一代謝物（山梨糖醇）相關的m / z峰。類似地，顯示了五個其他「一次觸發」模式，可以無錯誤地解碼。

比DNA存儲更可怕！你的照片居然可以存儲在氨基酸分子溶液里