一睹為快!PacBio Iso-Seq揭示家兔轉錄組學的複雜性
近日,來自於四川農業大學Song-Jia Lai團隊在Scientific Reports雜誌上發表了一篇運用PacBio SMRT測序技術,對家兔(Oryctolagus cuniculus)轉錄組進行測序分析的文章。
家兔(Oryctolagus cuniculus)是兔形目,兔科中非常重要的物種。家兔這一哺乳動物,以其與人的系統發育密切相關,並且生命周期短,性格溫順等特點,在生物醫學研究中通常作為典型的模式生物。目前組裝的家兔基因組大小為2.66Gb,經Ensembl genebuild演算法預測有22668個基因,包含了24964個轉錄本。然而正如作者在文中所提到的,「大多數現有的基因模型,實際上只不過是用計算機對可變的isoform以及非翻譯區域進行的預測,而這種計算機預測卻又極度的缺乏可信注釋。」因此對兔子的研究,正受到了來自基因水平的數據缺乏所帶來的挑戰。
作者將來自三隻紐西蘭白兔不同器官和組織的RNA樣品混合建庫,並在PacBio RS II平台上進行測序。過濾後,得到了來自14474個基因的36186個高可信度的轉錄本。
表1. PacBio文庫,SMRT cell和測序結果。
在PacBio RS II平台上,運用分段建庫的測序方式,共使用了13個SMRT cell。
小編悄悄地透露一下,若採用PacBio新一代Sequel測序系統完成同樣的轉錄組測序項目,相比RS II測序系統而言,具有更高的測序通量和更簡化Iso-Seq實驗流程,大大縮短項目周期,顯著降低成本噢!
圖1. PacBio轉錄本(藍色)的基因結構與Illumina短讀長覆蓋度分析(灰色)的比較。
通過對PacBio轉錄本的分析,作者發現,「超過23%的基因以及超過66%的isoform在現有的參考基因組中還沒有注釋。」並且,還找到了有關可變剪切的結果:最終得到的轉錄組包含了24797個可變剪切事件,以及11184個可變聚腺苷酸化事件。相比通過Ensembl演算法分析參考基因組,得到的2398個可變剪接事件的分析結果,可變剪切事件的數量整整放大了一個數量級。同時,這篇文章還發現,非編碼RNA占轉錄本的17%,這同樣也是一個非常可觀的數量。
表2. 可變剪切分析。通過PacBio進行轉錄組的de novo測序,作者得到了24794個可變剪接事件,包含了3479個內含子保留事件(intron retention,IR),7096個外顯子跳躍事件(exon skipping,ES),6906個5』端可變剪接事件,以及7316個3』端可變剪接事件。
作者對這些發現進行了幾次驗證研究,包括主要組織相容性複合物(Major Histocompatibility Complex,MHC)中的基因分析。他們的分析證明了「通過PacBio測序得到的轉錄本,在10個MHC基因中重建高度同源序列的能力明顯高於來自短讀長組裝的轉錄本數據」。而「短讀長通過de novo組裝,往往容易得到片段化或是混亂的轉錄本」。
圖2. 10個MHC基因的PacBio轉錄本和短讀長序列組裝的轉錄本比較。
黑色:Ensembl分析結果;紅色:PacBio 轉錄本結果;綠色:Cufinks組裝分析的結果;橄欖綠:Trinity分析結果。相比之下,通過短讀長序列組裝得到的轉錄本,在基因結構的重建和isoform數量方面明顯著低於PacBio技術得到的轉錄本結果。
作者通過PacBio全長轉錄本測序技術得到了更具表徵的家兔轉錄組學數據。在這一過程中,避免了短讀長轉錄本數據拼接時容易遇到的陷阱。文中作者提到,「我們選擇這一技術來對兔的多聚腺苷酸化RNA進行測序,並提供了與基因模型和可變isoform相關的轉錄組水平的全貌。」
原文信息:
Chen, Shi-Yi, et al. "A transcriptome atlas of rabbit revealed by PacBio single-molecule long-read sequencing."Scientific Reports7 (2017).
TAG:基因快訊 |