岳峰、唐繼軍組報道基於卷積神經網路的3D染色質結構數據的解析工具——頡偉點評
染色質的三維空間結構(3D Genome organization)是表觀遺傳學領域中的一個重要分支。近幾年一系列的報道證實了染色質空間結構變化在細胞分化,重編程,以及人類發育疾病中都起到了很重要的作用。2015年,美國NIH投入超過1億2千萬美金成立了4D Nucleome 項目,資助了超過30個科研機構的參與,來共同研究三維基因組在基因調控和疾病形成中的作用。儘管目前可以用於研究三維基因組的實驗手段越來越多,其中最重要的還是Hi-C(High-Throughput Chromatin Confirmation Capture)技術。Hi-C的最大優勢在於它可以能夠提供全基因組三維空間信息,但是由於人類基因組的龐大,想達到高解析度(kb resolution)的Hi-C數據,需要超過數十億的測序深度,耗費非常巨大。所以目前發表的大部分的Hi-C數據由於測序深度的限制,解析度比較低,無法用於研究基因和其調控原件的關係。所以如何更有效地利用HiC的數據,挖掘更精確的有生物學意義的信息仍然是個巨大的挑戰。
卷積神經網路(Convolutional Neuron Network )是深度學習領域中的一個重要構架。近幾年來深度學習在語音識別,圖像識別甚至是醫療製藥和研究型基因組學等領域已經彰顯了其超越傳統機器學習的價值(相關報道:人工智慧或將超越臨床專家丨張康組Cell報道基於深度學習的視網膜疾病診斷工具——附專家點評)【1-3】。
深度神經網路通過多層的擬神經訓練原件將原始數據進行拆解與重組,進而從原始的海量數據信息中提取關鍵的抽象化特徵信息。在計算機視覺中的超解析度(super-resolution)研究中,通過在高清圖片中訓練一個多層神經網路,即可實現對低清圖片的解析度進行提高的效果。Hi-C數據和圖片有一定的相似性,但是其特點又有很大的不一樣,無法直接套用超解析度研究中的方法。儘管如此,多層神經網路在超分辨研究中的成功,顯示其在深度挖掘HiC數據中也有著巨大潛力。
日前,由來自賓夕法尼亞州立大學醫學中心的的岳峰課題組與南卡羅萊納大學/天津大學唐繼軍教授課題組合作在Nature Communications雜誌上發表了題為「Enhancing Hi-C data resolution with deep convolutional neural network HiCPlus」的論文,該研究搭建了一個基於神經網路的提高Hi-C數據精準度的數據分析工具(HiCPlus),這個工作是深度學習3D基因組學上的先驅性的應用,其結果可以極大的提高現有的HiC數據的可用性,從而挖掘出更多的生物學意義,最終為3D基因組的的原理機制提供探索的依據。鑒於該工作的重要意義,BioArt特別邀請到了長期從事三維基因組學研究的清華大學頡偉教授點評,以饗讀者!
對於任何一種機器學習的工具而言,高質量的訓練數據集起著至關重要的作用,從而決定了其在實際問題中的準確性。在該研究中,研究員們利用迄今為止發表過的最高精度的Hi-C數據 (來自GM12878——人B淋巴細胞和IMR90——人胚肺成纖維細胞),用一種切割原始數據的訓練方法,以便獲得更多的訓練數據集。切割之後所得到的高質量數據集大約10,000左右圖像,達到以往深度學習所要求的級別。接下來作者們證明僅用6%左右的測序深度,HiCPlus就可以預測出和原始測序深度質量相近的HiC數據矩陣。同時他們還證明,在一種細胞中訓練出來的模型,可以用來預測和增強別的細胞和組織中的HiC數據, 這表明三維結構的形成原理在不同的細胞是有共通和保守性的。
HiC數據的難度在於它有著很強的系統性和技術性偏差,尤其是基於染色質的聚合物本性所帶來的物理性距離效應(distance-effect)。目前並沒有有效的辦法能夠撲捉到空間相近但直線上分散在不同間距之間的協同數據分布特性。HiCPlus恰好在這一點上彌補了之前演算法的空白,利用多層神經網路 成功模擬了測序數據在多距離間(multiple-distance)上的共同分布,從而能夠更真實地反應染色質發生空間逼近時在數據上所反映的空間效應,使得比較性的研究中幫助區分多種細胞類型或者正常細胞與疾病狀態之間的生物學意義上面的差異。最後,通過對深度學習增強過的HiC數據分析,研究員發現了在原本低解析度中看不到的染色質聯結,而這些聯結恰好是位於增強子和基因啟動子之間 ,從而有力地證明了HiCPlus的實際應用價值。
為了推動可重複性數據分析,研究員們已經將源代碼放在了公開的網路源代碼集成網站Github上面,以方便科研社區人員共同探討。同時研究員們已經系統性地對之前發表的人類20多種組織的細胞類型進行了信號增強,增強後的數據可以在目前很流行的3D Genome Browser (3dgenome.org) 網站瀏覽和下載。另,對岳峰老師實驗室工作感興趣的同學敬請瀏覽:http://yuelab.org/。
專家點評:
頡偉(清華大學生命科學學院、清華-北大生命科學聯合中心PI,國家「傑青」)
Comments:Hi-C作為在分子水平研究染色質三維結構的最重要研究方法之一近年來得到了廣泛關注和應用。然而Hi-C實驗和數據分析現在仍然有很多技術難題。比如一個常見的限制因素是它的解析度相對偏低,很多精細的染色質調控在普通測序深度下經常很難檢測。已有的部分研究是通過極其深度的測序(高達billion量級的測序量)來回答這個問題。而岳峰課題組的這個工作通過一個很巧妙的計算方法來幫助解決這個問題。很多Hi-C數據分析最終可以歸結為二維圖像識別問題。而深度學習在圖像識別領域有很多突破和很好的應用。恰好岳峰在這兩個方面都很有經驗:他是計算機系的博士,對神經網路等深度學習方法比較熟悉。同時之前在UCSD任兵老師實驗室做博後期間和在Penn State 做PI期間做了很多利用Hi-C研究染色質三維結構如TAD的出色工作。這個剛剛發表的工作通過計算方法就可以把Hi-C的精確度提高至少十倍以上,從最後結果來看效果非常好,充分體現了領域交叉的優勢。更重要的是,增強後的HiC數據可以更清晰的呈現增強子和基因的關係,這樣對很多和基因調控和疾病相關的研究會很有幫助。另外,他們實驗室還有優秀的3D genome browser,能夠對這些增強後的Hi-C數據進行可視化,方便使用和比較。非常cool的工作!
參考文獻:
1、LeCun, Y., Bengio, Y. & Hinton, G. Deep learning.Nature521, 436–444 (2015).
2、Goodfellow, I., Bengio, Y. & Courville, A. Deep Learning. (MIT Press, 2016).
3、Silver, D. et al. Mastering the game of Go with deep neural networks and tree search.Nature529, 484–489 (2016).
※多能幹細胞命運與早期胚胎髮育中的代謝網路調控
※張康組Cell報道基於深度學習的視網膜疾病診斷工具——附專家點評
TAG:BioArt |