新的深度學習方法從氨基酸序列預測蛋白質結構

健康 04-18

蛋白質通過摺疊成無數精確的3D結構而發揮作用。

圖片來源：Mohammed AlQuraishi

生命所必需的幾乎所有基本生物過程都是由蛋白質完成的。它們創造並保持細胞和組織的形狀; 構成催化維持生命的化學反應的酶; 充當分子工廠，運輸工具和電機; 用作蜂窩通信的信號和接收器; 以及更多。

蛋白質由長鏈氨基酸組成，通過將自身摺疊成精確的3D結構來控制它們與其他分子的相互作用，從而完成這些無數的任務。由於蛋白質的形狀決定了它的功能及其在疾病中的功能障礙程度，因此闡明蛋白質結構的努力是所有分子生物學的核心 - 特別是治療科學以及拯救生命和改變生命的藥物的發展。

近年來，計算方法在基於其氨基酸序列的知識預測蛋白質如何摺疊方面取得了重大進展。如果完全實現，這些方法有可能改變生物醫學研究的幾乎所有方面。然而，目前的方法在可以確定的蛋白質的規模和範圍方面受到限制。

現在，哈佛醫學院的一位科學家使用了一種稱為深度學習的人工智慧來預測基於其氨基酸序列的任何蛋白質的三維結構。

系統生物學家Mohammed AlQuraishi於4月17日在Cell Systems上在線報道，詳細介紹了一種計算確定蛋白質結構的新方法 - 實現與當前最先進方法相當的精確度，但速度提高了一百萬倍。

「在過去的半個世紀里，蛋白質摺疊一直是生物化學家最重要的問題之一，這種方法代表了應對這一挑戰的一種全新方式，」AlQuraishi說，他是HMS Blavatnik研究所系統生物學講師，同時也是系統藥理學實驗室。「我們現在有一個全新的遠景來探索蛋白質摺疊，我想我們剛剛開始劃傷表面。」

容易說明

雖然非常成功，但使用物理工具識別蛋白質結構的過程既昂貴又耗時，即使使用低溫電子顯微鏡等現代技術也是如此。因此，絕大多數蛋白質結構 - 以及引起疾病的突變對這些結構的影響 - 仍然在很大程度上是未知的。

計算蛋白質摺疊方式的計算方法有可能顯著降低確定結構所需的成本和時間。但是，經過近四十年的緊張努力，這個問題很難解決。

蛋白質由20種不同氨基酸的文庫構建。這些行為像字母表中的字母，組合成單詞，句子和段落，以產生天文數字的可能文本。然而，與字母不同，氨基酸是位於3D空間中的物理對象。通常，蛋白質的部分將在物理上接近，但在序列方面間隔很遠，因為其氨基酸鏈形成環，螺旋，片和扭曲。

「這個問題引人注目的是它很容易陳述：採取一個序列並找出形狀，」AlQuraishi說。「一種蛋白質起源於一種非結構化的細胞系，必須具有三維形狀，一根細繩可以摺疊成可能形狀的形狀是巨大的。許多蛋白質長達數千個氨基酸，並且複雜性很快超過了人類直覺甚至是最強大的計算機。「

很難解決

為了應對這一挑戰，科學家利用氨基酸根據物理定律相互作用的事實，尋找能量有利的狀態，如滾球下坡到山谷底部。

最先進的演算法通過在超級計算機上運行來計算蛋白質結構 - 或者在Rosetta @ Home和Folding @ Home等項目中利用眾包計算能力來模擬氨基酸相互作用的複雜物理通過蠻力。為了減少大量的計算需求，這些項目依賴於將新序列映射到預定義的模板上，這些模板是先前通過實驗確定的蛋白質結構。

其他項目，如谷歌的AlphaFold，通過利用人工智慧的進步來預測蛋白質的結構，最近產生了巨大的興奮。為此，這些方法解析了大量的基因組數據，其中包含蛋白質序列的藍圖。他們尋找可能一起進化的許多物種的序列，使用這樣的序列作為與指導結構組件緊密物理接近的指示物。

然而，這些AI方法不能僅基於蛋白質的氨基酸序列預測結構。因此，它們對於沒有先驗知識的蛋白質，進化獨特蛋白質或人類設計的新蛋白質具有有限的功效。

深入培訓

為了開發新方法，AlQuraishi應用了所謂的端到端可微分深度學習。人工智慧的這一分支極大地降低了解決圖像和語音識別等問題所需的計算能力和時間，從而實現了Apple的Siri和Google Translate等應用程序。

本質上，可微分學習涉及單一的，巨大的數學函數 - 高中微積分方程的更複雜版本 - 被安排為神經網路，網路的每個組成部分向前和向後饋送信息。

該功能可以在難以想像的複雜程度上反覆調整和調整自身，以便「精確地」學習蛋白質序列在數學上與其結構的關係。

AlQuraishi開發了一種深度學習模型，稱為複發幾何網路，側重於蛋白質摺疊的關鍵特徵。但在它可以進行新的預測之前，必須使用先前確定的序列和結構進行訓練。

對於每種氨基酸，該模型預測將氨基酸與其鄰居連接的化學鍵的最可能角度。它還預測圍繞這些鍵的旋轉角度，這會影響蛋白質的任何局部區域與整個結構的幾何關係。

這是重複進行的，每次計算都通過每個其他氨基酸的相對位置進行通知和改進。一旦整個結構完成，模型通過將其與蛋白質的「基礎事實」結構進行比較來檢查其預測的準確性。

對於數千種已知蛋白質，重複整個過程，模型學習並在每次迭代時提高其準確性。

新的遠景

一旦他的模型被訓練，AlQuraishi測試了它的預測能力。他將其性能與最近幾年蛋白質結構預測的關鍵評估中的其他方法進行了比較 - 這是一項年度實驗，測試計算方法是否能夠使用已經確定但未公開發布的蛋白質結構進行預測。

他發現新模型在預測蛋白質結構方面優於所有其他方法，其中沒有預先存在的模板，包括使用共同進化數據的方法。當預先存在的模板可用於進行預測時，它也優於除最佳方法之外的所有方法。

雖然這些準確度的提高相對較小，但AlQuraishi指出，這些測試最高端的任何改進都難以實現。並且因為這種方法代表了一種全新的蛋白質摺疊方法，它可以補充現有的計算和物理方法，以確定比以前更廣泛的結構。

引人注目的是，新模型的預測速度比現有的計算方法快6到7個數量級。訓練模型可能需要數月，但一旦訓練，它可以在幾毫秒內進行預測，與使用其他方法所花費的時間相比。這種顯著的改進部分是由於它所基於的單一數學函數，只需要幾千行計算機代碼而不是數百萬。

AlQuraishi說，這種模型預測的快速速度使得以前緩慢或難以實現的新應用成為可能，例如預測蛋白質在與其他分子相互作用時如何改變其形狀。

「深度學習方法，不僅僅是我的方法，將繼續增強其預測能力和普及性，因為它們代表了一種簡單，簡單的範例，可以比現有的複雜模型更容易地整合新思想，」他補充道。

AlQuraishi說，新模型還沒有立即用於藥物發現或設計，因為它的準確度目前大約在6埃左右 - 距離解決完整原子結構所需的1到2埃還有一段距離。一種蛋白質。但他說，有很多機會可以優化這種方法，包括進一步整合化學和物理學的規則。

「準確有效地預測蛋白質摺疊一直是該領域的聖杯，我希望並期望這種方法與已開發的所有其他卓越方法相結合，能夠在不久的將來實現這一目標，「AlQuraishi說。「我們很快就可以解決這個問題，而且我認為五年前沒有人會這麼說。這是非常令人興奮的，同時也是令人震驚的。」

為了幫助其他人參與方法開發，AlQuraishi通過GitHub軟體共享平台免費提供他的軟體和結果。

「AlQuraishi工作的一個顯著特點是，嵌入哈佛醫學院和波士頓生物醫學界豐富的研究生態系統的單一研究人員可以與谷歌等公司在計算機科學最熱門的領域競爭，」彼得說。 Sorger，HMS Otto Krayer HMS Blavatnik研究所系統藥理學教授，HMS系統藥理學實驗室主任和AlQuraishi的學術導師。

「低估像AlQuraishi這樣的優秀研究員在公共領域使用開源軟體的破壞性影響是不明智的，」Sorger說。

該研究得到了國立普通醫學科學研究所和美國國立衛生研究院國家癌症研究所（P50GM107618和U54CA225088）的支持。

（來源：哈佛醫學院）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 今日科學 的精彩文章:

※擬打造成中國「貝爾實驗室」
※我科學家成功製備廉價高效電解水氧析出催化劑

TAG:今日科學 |