Nanopore測序在基因組 de novo中的應用
自1977年第一代sanger測序問世來,經過幾十年的發展,測序技術得到了極大的發展。從第一代測序到第二代測序再到第三代測序,測序技術的每一次變革都對基因組學的研究產生了巨大的推動作用。利用第一代測序技術人類完成了擬南芥、線蟲、果蠅等模式物種的基因組測序;第二代測序使得幾百個動植物基因組完成了測序,但是第二代測序讀長較短,無法跨越基因組中的高重複、高雜合區域,所以用二代測序完成的物種基因組組裝質量大都不是很高,甚至一些複雜的物種用二代測序難以獲得基因組序列。而近幾年興起的三代測序,具有讀長長的特點,能夠有效解決二代測序的組裝難題,對動植物基因組de novo測序帶來了很大的轉機。
目前最廣泛應用的三代測序是PacBio三代單分子熒光測序和Nanopore單分子納米孔測序。三代Nanopore測序平台雖然興起的時間不長,但因其具有便攜性、測序成本低、測序讀長長等特點,近年來在基因組組裝上可謂大放異彩,下面小編就帶大家看下Nanopore測序在幾個物種de novo上的應用。
1
擬南芥基因組
第一個擬南芥基因組(Col-0)是通過sanger法測序於2000年完成的,隨後經過完善,成為擬南芥乃至真核生物基因組的「金標準」。但是其最新組裝版本中依然包含29個大的沒有組裝的區域,有117個gaps,缺失25Mb的重複序列。
方法:
使用MinION對擬南芥KBS-Mac-74進行測序,並對高質量的DNA進行了1個flow cell的測序,共產生了3.4G的序列,reads的平均讀長為11.4Kb,其中有4條reads長度超過200Kb,14條長度超過100Kb,2317條長度超過50Kb。使用Canu和minimap/miniasm組裝raw ONT reads,並與使用Falcon對PacBio數據組裝的結果進行了比較。使用ONTmin組裝的序列長度最短為110.9Mb,contigs數目最少(62),N50居第二(11.5Mb),單個contig最長(13.8Mb)。
之後,使用3輪racon和1輪pilon進行polish,發現racon顯著提高了序列的總長,並將N50長度提升到12.3Mb,提高了序列的質量。
採用265個光學基因組圖譜,評估修正ONT組裝序列質量。最終將ONTmin組裝的序列由115.9Mb提升到了118.4Mb,並將FP/FN比值從0.33/0.12降到0.01/0.04。通過進一步的分析發現polish後的序列質量和連續性與使用PacBio數據組裝的結果相當。
2
高粱基因組
高粱,是一種重要的經濟作物,具有極強的乾旱和高溫適應性。高粱基因組大小約為730Mb,比玉米(~2.3Gb)和大豆(~1.2Gb)等作物基因組小,重複序列約為61%,且含有大量的轉座子。同時之前用sanger法測序獲得了其基因組序列(BTx623)。這也成為基於ONT組裝質量評估的有利資源。
使用高粱Tx430提取高質量DNA,構建文庫,MinION測序,共產生了33.5Gb數據,最長read長767K。對序列採用Canu糾錯後用Smartdenovo進行組裝,經過組裝及2輪Pilon polishing後,最終組裝基因組為671.8Mb,contig N50為~3Mb,含有723個contig。其中最長的400條contigs長651.3Mb,占基因組序列的97%。
將Tx430的Illumina數據與ONT contig比對,通過唯一比對的Illumina reads評估ONT組裝的準確性。結果顯示唯一比對的reads為92.94%。經過幾輪Pilon polishing後,唯一比對的Illumina reads比例提升到了99.62%。
採用BioNano DLS構建了79個高粱Tx430的圖譜,長度達732.1Mb,其中32個圖譜佔BTx623總長度的99.5%。利用DLS光學圖譜與723個contigs混合組裝以改善組裝質量,極大地提高了組裝結果的完整性,最終得到29條scaffolds長度為661.06Mb,N50由3Mb提升到了33.35Mb,並實現將序列組裝到染色體水平。具體結果見下表。通過將這29條scaffolds比對到高粱V3.0.1基因組上評估混合組裝的完整性(見圖3)。
3
菊花基因組
菊科植物大約含24000到35000個物種,具有非常高的植物多樣性,占整個被子植物的10%左右。菊屬是一個非常大的植物分類單位,包括菊組和苞葉組兩大分支。菊屬植物染色體結構複雜,包含從2n=18到8n=72之間的各種染色體組結構。菊花是中國的傳統名花之一,具有極大的觀賞價值;同時也是重要的健康食品和中草藥,具有很大的經濟價值。菊花基因組大約為3.07Gb,雜合度和重複序列含量都高,屬於複雜基因組,採用二代Illumina測序很難獲得基因組序列。而Nanopore測序能夠獲得超長的序列長度,這些長序列比基因組中大部分的重複序列長度要長,從而能夠有效組裝基因組中的重複序列。本研究利用Nanopore測序數據和二代Illumina數據混合組裝,得到了菊花的基因組序列。菊花基因組測序對於揭示菊屬物種的起源進化及物種多樣性具有重要意義。
採用Nanopore進行測序,共得到了39個flow cells,產生了570條單分子的reads(平均長度為17.7Kb),總數據量為105.2Gb。採用99.5Gb數據用於組裝,並使用362.3Gb的Illumina短讀長數據對ONT數據進行較正並混合組裝,最終組裝得到了24,051個congtigs,N50為130.7Kb,序列總長度為2.53Gb,占預估基因組大小的82%。 鑒定到了56,870個蛋白編碼基因。進行重複序列注釋發現菊花基因組中重複序列佔69.6%,其中長末端重複反轉錄轉座子最多,LTR/Copia佔據基因組的25.4%,其次是LTR/Gypsy repeats(21.5%)。
隨後進行了比較基因組學的分析,發現菊花在進化過程中發生了多次的全基因組複製事件;近期複製事件可能導致了與花發育和重要藥效成分合成相關基因的擴張。菊花基因組的破譯將極大地推動藥用植物基因組研究的進程,是本草基因組學研究的一項重要突破。
以上就是Nanopore測序儀在幾個物種de novo中的應用,可以看到無論是像擬南芥這樣的簡單基因組,還是像菊花這樣的複雜基因組,用Nanopore測序數據進行組裝都有非常不錯的結果,相信隨著試劑的升級、軟體的更新等,Nanopore測序會在基因組測序上發揮更大的作用,極大地推動組學的發展。
參考文獻:
1.Michael T P , Jupe F , Bemm F , et al. High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell [J]. Nature Communications, 2018, 9(1):541.
2.Lin HN, May G, et al. A chromosome-scale assembly of the sorghum genome using nanopore sequencing and optical mapping [J]. Nature Communications, 2018 Nov 19;9(1):4844
3.Song C , Liu Y , Song A , et al. The Chrysanthemum nankingense Genome Provides Insights into the Evolution and Diversification of Chrysanthemum Flowers and Medicinal Traits[J]. Molecular Plant, 2018.
微分基因是一家藉助於國際領先的高通量測序平台,為生命科學研究和基因檢測提供整體解決方案的高新科技企業。致力於將生命科學研究和健康管理與疾病診療領域的測序數據進行產業化應用,推動基因科技成果轉化。
2017年3月,微分基因入駐國家大基因中心,成為國家大基因中心「基因檢測平台」運營企業,並成立安徽微分基因科技有限公司。8月,位於安徽巢湖的標準潔凈實驗室及醫學檢驗所啟動運營,佔地約2100平方米。10月,全貫穿的基因檢測平台、大數據處理平台、高通量自動化樣本處理平台、一流的生物樣本庫開始正式運作。
在生物醫藥晉陞為「 國家戰略性新興產業」 的行業背景下, 微分基因依託獨具優勢的高通量基因測序和大數據挖掘技術, 為各大高校、醫院、科研單位以及第三方健康管理服務平台, 提供專業的基因檢測和數據分析解讀服務。
健康|醫療|基因|科普
微分基因科技服務
記得這是一個有溫度的公眾號
※微分基因喜迎安師大生科院實習生
※孩子到底更像誰?爸媽不用爭論了,做個測試就知道了
TAG:微分基因 |