當前位置:
首頁 > 最新 > 深度學習在藥物發現領域的興起

深度學習在藥物發現領域的興起

摘要

過去的十年中,深度學習(DeepLearning,DL)在各種人工智慧研究領域取得了顯著的成功。從以前對人工神經網路的研究演變而來,該技術在諸如圖像和語音識別,自然語言處理等領域表現出優於其他機器學習(Machine Learning,ML)演算法的性能。近年來,深度學習在醫藥研究中的第一波應用出現了,它的用途超出了生物活性預測的範圍,並且在解決藥物發現中的各種問題方面顯示出了前景。


一、介紹

各種形狀和大小的數字數據呈指數級增長。據美國國家安全局稱,互聯網每天處理1826PB的數據。在2011年,數字信息在短短五年內增長了9倍;到2020年,其在全球的數量預計將達到35萬億千兆位元組。探索和分析大數據的高需求鼓勵使用像深度學習(DL)這樣的數據挖掘的機器學習演算法。DL在計算機遊戲、語音識別、計算機視覺、自然語言處理和自動駕駛汽車等廣泛的應用領域取得了巨大的成功。可以說,DL正在改變我們的日常生活。在Gartner選擇的2018年前十大技術趨勢中,DL代表的AI技術位居榜首。

過去的十年里,已經在可用的化合物的活性和生物醫學數據的量顯著增加。如何有效地挖掘大規模的化學數據成為藥物發現的關鍵問題。更大的數據量與更多的自動化技術相結合促進了機器學習的進一步應用。除了支持向量機(SVM)、神經網路(NN)和隨機森林(RF)等已建立的方法,這些方法已被用於開發QSAR模型很長一段時間,矩陣分解和DL等方法已經開始被使用。DL利用了數據量的增加和可用計算機功率的不斷增加。大多數其他機器學習方法和DL之間的區別在於DL中NN體系結構的靈活性。將在本問中討論的架構是卷積神經網路(CNN),遞歸神經網路(RNN)和完全連接的前饋網路。單層神經網路已經用於QSAR建模很長一段時間;隨著數據尺寸和計算能力的增加,自然而然地應用多層前饋網路進行生物活性預測。隨著高通量成像設備的採用,CNN在計算機視覺領域取得了顯著的成功,並成為生物圖像處理的自然選擇。在藥物研發領域應用DL的領域正在迅速發展,幾乎每周都有新的文章發表。最近,有關計算化學和生命科學領域的DL應用的一些評論已經發表。這裡,我們更關注藥物開發中的DL應用,特別是化學信息學和生物圖像分析領域,並強調目前在藥物開發中使用的DL結構。

DL是一類機器學習演算法,其使用具有用於學習數據表示的多層非線性處理單元的人工神經網路(ANN)。最早的ANN可以追溯到1943年,當時Warren McCulloch和Walter Pitts基於數學和演算法為閾值邏輯開發了神經網路的計算模型。現代ANN的基本結構受到人腦結構的啟發。ANN中有三個基本層:輸入層、隱藏層和輸出層。根據ANN的類型,相鄰層中的節點(也稱為神經元)可以完全連接或部分連接。輸入變數由輸入節點進行,變數通過隱藏節點進行變換,最終輸出值在輸出節點進行計算。

ANN的訓練是通過迭代修改網路中的權重值來完成的,通常通過反向傳播方法來優化預測值和真值之間的誤差。現代人工神經網路演算法是在20世紀60年代至80年代期間開發的,並且自那時起就出現了應用。但傳統的人工神經網路方法存在諸如過擬合、遞減梯度等問題,並且在很大程度上被其他機器學習演算法取代。DL的最近發展使ANN得以復興。DL與傳統ANN之間的主要區別在於神經網路的規模和複雜性。由於計算機硬體在早期的局限性,DL使用大量的隱藏層,而傳統的ANN通常只能提供一個或兩個隱藏層。由於更強大的CPU和GPU硬體的出現,DL可以承擔在每層中使用更多的節點。DL中還有許多演算法改進,例如使用丟失和DropConnect方法來解決過度擬合問題,應用整型線性單元(ReLU)以避免消除梯度並將卷積層和池層引入新穎的網路體系結構,以便使用大量的輸入變數。大多數DL軟體包都是開源的。這裡簡要介紹DL中使用的幾種流行的NN架構。首先是完全連接的深度神經網路(DNN),它包含多個隱藏層,每層包含數百個非線性處理單元。DNN可以採用大量的輸入特徵,並且DNN的不同層中的神經元可以自動提取不同層級的特徵。

(a)完全連接的深度神經網路(DNN),(b)卷積神經網路(CNN),(c)遞歸神經網路(RNN)和(d)自動編碼器(AE)

另一種非常流行的NN是CNN,它被廣泛用於圖像識別。它通常包含幾個卷積層和子採樣層。卷積層由一組具有較小感受域和可學習參數的過濾器組成。在正向過程中,每個過濾器在輸入體積的寬度和高度上進行卷積,計算過濾器條目與輸入體積中的接受域之間的點積,並生成該過濾器的2D特徵映射,子採樣層用於減小特徵映射的大小。最後,特徵映射被連接成完全連接的層,相鄰層中的神經元全部連接,就像在傳統的ANN中一樣,以提供最終的輸出值。由於每個濾波器共享相同的參數,CNN在很大程度上減少了所學習的自由參數的數量,從而降低了消耗的內存並提高了學習速度。它在圖像識別中勝過了其他類型的機器學習演算法。

ANN的另一個變體是RNN。與前饋神經網路不同,它允許同一隱藏層中的神經元之間的連接形成有向循環。RNN可以將順序數據作為輸入特徵,這非常適合於時間相關的任務,如語言建模。使用稱為長期短期記憶(LSTM)的技術,RNN可以減少消失梯度問題。

第四種ANN結構稱為自動編碼器(AE)。AE是用於無監督學習的NN。它包含一個編碼器部分,它是一個NN,用於將從輸入層接收的信息轉換為有限數量的隱藏單元,然後將解碼器NN與具有與輸入層相同數量的節點的輸出層耦合。代替預測輸入實例的標籤,解碼器NN的目的是從較少數量的隱藏單元重建其自己的輸入。通常,AE的目的是為了降低非線性維數。最近,AE概念已經越來越廣泛地用於從數據學習生成模型。


包括ANN在內的機器學習方法已經應用於化合物活性預測中。DL方法被用來首先解決活性預測問題。當通過相同數量的分子描述符呈現化合物時,直接的方法是使用完全連接的DNN來構建模型。達爾等人使用大量的2D拓撲描述符在默克Kaggle挑戰數據集上應用DNN;並且DNN在15個靶標中的13個中顯示比標準RF方法略好的性能。這項研究的一些關鍵知識是:(i)DNN可以處理數千個描述符而不需要特徵選擇;(2)Dropout可以避免傳統人工神經網路面臨的過度擬合問題;(iii)超參數(層數、每層節點的數量、激活函數的類型等)優化可以最大化DNN性能;(iv)多任務DNN模型比單任務模型執行得更好。邁爾等人報告他們的多任務DNN模型在包含12的數據集上贏得了Tox21挑戰12000種化合物用於12種高通量毒性分析。他們使用具有靜態描述符(3D、2D描述符,預定義的毒素)的大型特徵集以及動態生成的擴展連接指紋描述符(ECFP)來使DNN在訓練過程中進行自我特徵推導。更有意思的是,專門使用ECFP的 DNN模型進行統計學關聯分析,並且與已知的毒性基因顯著相關的子結構在每個隱藏層都可以被識別。這些基準測試結果證明了與單任務DNN和傳統機器學習方法相比,多任務DNN的優勢。

Ramsundar等進行了一項系統研究,以構建多任務DNN並將其性能與單任務DNN模型進行比較。他們的研究結果表明,多任務模型比單任務模型和射頻模型表現更好。Koutsoukas 等將DNN模型與一些常用的機器學習方法(如SVM,RF等)相比較,選擇了ChEMBL中的七個數據集。發現DNN在統計學上優於其他(基於Wilcoxon統計檢驗的P值

此外有人報告了使用DNN二維拓撲描述來製作預測研究BACE活性模型和實現0.82的分類精度和PIC的標準誤差50 ~0.53所述驗證集。Aliper 等人建立了DNN模型,用於預測藥物的藥理學特性以及利用來自LINCS項目的轉錄組數據的藥物再利用,以及路徑信息。已經表明,使用途徑和基因水平的信息,DNN模型在預測藥物適應症方面實現了高精度,因此它們可用於藥物再利用。

即使NN能夠直接從分子結構中學習,而不是使用預定義的分子描述符。這個想法最初是由Merkwirth等人探索的。2005年幾年後,開發了兩種不同的方法來解決這個問題。Lusci 等報道了一種採用稱為UGRNN的RNN變體的方法,該方法首先將分子結構轉換為與分子表示相同長度的矢量,然後將它們傳遞到完全連接的NN層以建立模型。向量中的位值是從數據集中學習的。顯示UGRNN方法能夠建立預測溶解度模型,其準確性與用分子描述符建立的模型相當。徐等人應用相同的方法模擬藥物性肝損傷(DILI),DL模型是基於475種藥物構建的,並在198種藥物的外部數據集上進行驗證。最好的模型達到了0.955的AUC,超過了先前報道的DILI模型的精確度。

另一種方法稱為圖形卷積模型,其基本思想類似於UGRNN方法,該方法使用NN來自動生成分子描述向量,並通過訓練NN來學習向量值。由摩根圓形指紋法啟發,Duvenaud 等提出了神經指紋方法作為創建圖形卷積模型。

該方法的工作流程:首先,讀取2D分子結構以形成狀態矩陣,其包含每個原子的原子和鍵信息。狀態矩陣然後通過單層神經網路進行卷積運算以生成固定長度的矢量作為分子表示。通過考慮相鄰原子的貢獻,卷積操作可以在不同的級別運行,這相當於不同鄰近級別的圓形指紋。由不同卷積運算產生的載體首先經歷softmax變換,然後被總結以形成化合物的最終載體,該化合物是編碼分子水平信息的神經指紋。神經指紋通過另一個完全連接的NN層來生成最終輸出。神經指紋中的比特值通過訓練學習並且是可微分的。在Duvenaud的三個測試案例中,使用神經指紋獲得比Morgan指紋更好的結果,更重要的是,圖形卷積模型中的影響性子結構可以被可視化以解釋模型。圖卷積模型的優點是描述符在訓練過程中自動生成,並且不需要任何預定義的分子描述符。這樣的描述符不是一般的描述符,而是特定任務和完全可區分的,因此可以提供更好的預測。其他分子圖卷積方法由Kearnes報道使用神經指紋比使用摩根指紋獲得更好的結果,更重要的是,圖形卷積模型中的影響性子結構可以被可視化以解釋模型。

除了基於圖的表示學習方法外,還探索了基於其他類型分子表示的DL方法。Bjerrum使用SMILES字元串作為LSTM RNN的輸入來構建預測模型,而不需要生成分子描述符。更有趣的是,有人觀察到通過使用多個SMILES字元串來表示相同的化合物來擴大數據集比使用規範的SMILES獲得更好的結果。吳作棟等將CNN應用於分子2D圖形的圖像,並獲得令人驚訝的與ECFP培訓的DNN模型相當的結果。而且當圖像增加了一些基本的化學信息時,模型性能得到進一步改善。直接從結構中學習表示的能力不需要使用任何預定義的結構描述符,這是將DL與其他機器學習方法區分開來的一個重要特徵,它基本上不需要傳統的特徵選擇和縮減過程。


DL在化學信息學中另一個有趣的應用是通過神經網路產生新的化學結構。Gómez-Bombarelli等提出了一種使用變分自動編碼器(VAE)生成化學結構的新方法。第一步是使用VAE進行無監督學習,將ZINC資料庫中的化學結構(SMILES字元串)映射到潛在空間。一旦VAE訓練完成,潛在空間中的潛在載體就成為分子結構的連續表示,並且可以通過訓練好的VAE可逆地轉化為SMILES字元串。通過任何優化方法搜索連續潛在空間中的最優潛在解,然後將搜索到的潛在解解碼為SMILES,可以實現具有期望特性的新結構的生成。繼Gómez-Bombarelli的作品之後,Kadurin 等人使用VAE作為分子描述符發生器與生成敵對網路(GAN)耦合,一種特殊的神經網路架構以產生新的結構。布拉施克等利用VAE產生具有預測的抗多巴胺受體 2型活性的新型結構。

RNN在自然語言處理領域一直非常成功。Segler 等人報道他們的研究使用RNNs來產生新的化學結構。在大量SMILES字元串上訓練RNN之後,RNN方法在生成未包含在訓練集中的新有效SMILES字元串方面出人意料地發揮了非常好的作用。RNN通過學習SMILES字元串中字元的潛在概率分布來寫結構上有效的SMILES ,在這種情況下,RNN可以被看作是分子結構的生成模型。Segler 等還探討了使用RNN生成特定目標文庫的可能性,方法是首先通過對一小部分特定目標活性化合物進行轉移學習,首先訓練一般先驗模型,然後進行精細調整的重點模型。在對兩種抗生素靶標進行回顧性分析的研究中,他們的重點模型能夠產生金黃色葡萄球菌 18%看不見的真正活性物和惡性瘧原蟲28%。

Jaques等人將一種名為Deep Q-learning的強化學習技術與RNN一起應用,生成具有理想分子特性的SMILES。然而,他們的方法需要一種獎勵功能,其結合手寫規則來懲罰不良類型的結構,否則將導致對獎勵的利用,從而導致不現實的簡單分子。為了克服這個缺點,Olivecrona等提出了一種基於策略的強化學習方法來調整預先訓練的RNN,以產生具有給定用戶定義屬性的分子。在一個測試實例中,將模型調整為產生預測對多巴胺受體2型有活性的化合物,該模型產生的結構中> 95%被預測為活性的。


綜合預測的歷史可以追溯到20世紀60年代的基於規則的方法。最近在使用DL方法的反應預測中報告了一些有希望的結果。儘管沒有與其他機器學習方法進行明確比較,但結果表明,DL可以實現與基於規則的方法相媲美的性能或優於基於規則的方法。概括地說,機器學習可以解決兩類問題:一種類型是正向反應預測,其中產物預測給定一組反應物,而另一種類型是反向合成預測,其中給出最終產物,預測產物的反應步驟。Coley 等人根據美國專利的15 000個反應的訓練集,利用NN對一組反應的候選產品進行排序。將反應分類為模板,並且訓練後的模型正確地將主要產品等級為1 分配為71.8%,等級≤3分別為86.7%和等級≤5分別為90.8%。為了克服基於模板的反應預測方法所面臨的覆蓋率和效率問題,在同一研究組的後續研究中提出了無模板方法。他們使用Weisfeiler-Lehman差異網路對生成的候選反應進行評分,並且與基於反應模板的方法相比,實現了卓越的性能。Segler 等人使用350萬個反應作為DNN的訓練集。反應預測的前十位準確率為97%,逆合成分析的準確率為95%。另一項研究中,他們將策略網路和蒙特卡羅樹搜索結合起來,利用由科學文獻中的1200萬反應組成的訓練集進行逆合成預測。他們的系統可以像基於規則的方法那樣解決兩倍於分子的重新合成計劃。


評估蛋白質和配體之間的相互作用是分子對接計劃的關鍵部分,並且基於力場或現有蛋白質-配體複合物結構的知識開發了許多評分函數。受到CNN在圖像分析中成功的啟發,最近發表了幾篇關於應用CNN評分蛋白質-配體相互作用的研究。一個典型的例子是由Ragoza等人進行的研究蛋白質-配體結構被離散成解析度為0.5的網格。柵格的每邊都是24 埃,並以結合位點為中心。用一個函數描述每個原子,並且生成網格上的原子密度以形成輸入矩陣。使用Caffe DL框架定義和訓練多層CNN模型。CNN評分在CSAR靶標間姿勢預測數據集 上優於AutoDock Vina,但對姿勢的靶標內部排名表現更差。雖然卷積網路已經取得了一些令人鼓舞的結果,但與目前使用的評分函數相比,他們是否能持續改進結果還不清楚。


圖像識別領域的快速發展不僅可以歸因於新演算法的出現,而且可以歸因於典型和大型數據集的存在。標準化數據集將使社區能夠方便地對開發的機器學習方法進行基準測試或評估。每年ImageNet大規模視覺識別競賽(ILSVRC)已經見證了許多有影響力的CNN體系結構的誕生。

雖然有幾個開源的化學信息學數據集可用,但由於這些數據集的規模有限,缺乏多種分離培訓和測試集的方式,它們對機器學習方法開發的影響仍然有限,更重要的是,缺乏提議的新演算法的標準評估平台。通過WordNet的啟發和ImageNet 等人通過策劃許多不同的集合,包括量子力學、物理化學、生物物理學和生理數據集,並開發一套實現許多已知分子表示和機器學習演算法的軟體,推出了MoleculeNet數據集。MoleculeNet建立在開源軟體包DeepChem上,可以輕鬆訪問DeepChem中現有的一些流行的DL演算法。這將在很大程度上促進未來新型機器學習演算法的比較和開發。


藥物發現過程中,生物成像和圖像分析廣泛應用於從臨床前研發到臨床試驗的各個階段。成像使科學家能夠看到宿主(人或動物)、器官、組織、細胞和亞細胞組分的表型和行為。通過數字圖像分析,揭示了隱藏的生物學和病理學以及藥物作用機制。成像模式的實例是熒游標記的或未標記的顯微圖像、計算機斷層掃描(CT)、MRI、正電子發射斷層掃描(PET)、組織病理學成像和質譜成像(MSI)。DL也在生物圖像分析方面取得成功,許多研究報告與經典分類器相比具有優越的性能。

對於顯微圖像,已使用CNNs對單個熒游標記細胞進行分割和亞型分型,以及來自相位縮小顯微鏡的未標記圖像。臨床前設置的其他傳統艱巨任務,如細胞追蹤和菌落計數,也可以使用DL自動進行。由於組織形態豐富,與熒游標記圖像相比,來自組織病理學的圖像本質上通常是複雜的。儘管如此,在細胞水平上,用蘇木精和曙紅(H&E)染色染色的乳腺和結腸組織可以實現單個細胞的分割和分類。在組織區域水平,通過DL鑒定來自H&E染色的乳房組織的腫瘤區域,而白細胞和脂肪組織的額外類別也可以被識別。除了基本的圖像分割,DL已經被用於H&E和免疫組織化學染色組織的組織病理學診斷。

DL的應用也用於CT、MRI和PET成像的分析。除了圖像分割和分類的流行應用外,其實程序還在基於內容的圖像檢索中,並且據報道DL方法勝過了流行的ISOMAP和彈性網方法。

對於新興的MSI,類似於DL在組織病理學中的應用,腫瘤亞型可以通過高解析度基質輔助激光解吸/電離(MALDI)MSI進行。鑒於MSI可以將組織的代謝信息可視化,已經可以通過DL檢測到具有解吸電噴霧電離(DESI)MSI 代謝異質性的腫瘤的亞區域。最後,在一個不尋常的成像領域:流式細胞術,DL使細胞分類實時用於高通量應用。用於成像的DNN訓練非常耗時且需要專門的GPU處理。此外,在高通量成像篩查的情況下,高質量的訓練集很少見。


機器學習方法和DL通常需要大數據集來訓練;然而,人腦只有幾個例子才有學習的能力。如何只用少量的可用數據進行學習是機器學習中最熱門的話題之一。利用輔助數據改進僅有少數數據點的模型的DL示例是匹配網路,其被提出作為單次學習的變體。當包括輔助數據時獲得改進的結果。像一次性學習這樣的方法與藥物發現有關,藥物化學家通常在可用數據有限的情況下開展新靶點研究。Altae-Tran等在化學信息學數據集上使用LSTM方法來構建具有非常小的訓練集的模型,並且報告了有希望的結果。最近,DL在記憶增廣神經網路中使用了一種新型架構,用可微分神經計算機(DNC)顯著改善了這種結構。已經將DNCs應用於幾個問題,如問答系統和查找圖表中的最短路徑。然而,這些更先進的架構迄今尚未應用於藥物研發。


結語

機器學習自20世紀90年代後期以來一直用於藥物研發,並已成為藥物發現的有用工具。機器學習工具最近的一個擴展是DL;與其他方法相比,DL具有更靈活的架構,因此可以創建針對特定問題量身定製的NN架構。缺點是DL通常需要非常大的訓練集。一個相關的問題是:DL是否優於其他機器學習方法?我們認為現在得出任何確定的結論還為時尚早,迄今為止的結果表明,DL對於圖像分析等特定任務來說是優越的,對於de novo分子設計和反應預測非常有用。對於具有結構化輸入描述符的任務,DL似乎至少與其他方法一樣。最相關的例子是生物活性預測,DL似乎通過多任務學習實現了更好的整體表現。但是,其他機器學習方法也在不斷改進。因此,實際上用於生物活性預測的方法的選擇可能取決於建模者最熟悉的方法。如果不同的機器學習方法達到大致相同的精度,那麼使用機器學習模型可以實現的限制可能取決於數據和數據集大小的實驗不確定性,而不是所使用的具體演算法。

參考資料

Chen H, Engkvist O, Wang Y, et al. The rise of deep learning in drug discovery[J]. Drug Discovery Today, 2018.


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

關於哀傷的思考
世界上最快的四門豪華轎車,這裡有一個!

TAG:全球大搜羅 |