RNA-seq測序基本知識
上次已經描述了RNA-seq的測序平台(最全RNA-seq測序平台簡介,不好意思遺漏國之重器BGI-seq測序平台,在此更正),並且已經提出了一些典型的應用,那麼具體的情況中自然而然就要問應該選擇哪個平台。一個簡單的解決方法是參考PubMed已發布的文獻選擇與其相同或相似的測序平台。當然總是建議在進行科學研究之前,一定要查閱文獻,看看過去的研究如何處理目前的問題。然而盲目追隨過去的先例的弱點是,一般來說,NGS測序特別是RNA-seq正在迅速改變實驗的設計和執行方式。由於技術的飛速發展,可以公平地說,對於一個特定問題沒有單一的正確答案。而且許多RNA-seq項目有多個目標,例如,可能需要鑒定樣本中的新基因融合轉錄物,對已知基因的丰度進行量化,並鑒定已知基因中的任何SNP。
因此,根據研究設計原則提供指導是更為合理的,用戶既可以對預期成果充滿信心地計劃項目,也可以理解為什麼做出某些選擇。在一項研究中所使用的覆蓋範圍和平台的數量可能需要進行權衡,而且由於實驗室資源有限,因此需要進行權衡。
1 選擇RNA-seq平台和測序模式的八項基本原則
1.1精確度:測序需多精確?
如果目標是檢測RNA種類中的SNPs或單核苷酸編輯事件,那麼我們必須選擇一個錯誤率較低的平台,實際上我們應該能夠區分真正的SNPs和測序錯誤。在人類SNP頻率約1/800的情況下,這對應於99.9%的準確率。只有SOLID平台宣稱準確率超過了這個水平,有些平台則差得多。但是,我們應該記住,我們可以通過測量更多的reads來彌補低精確度。所以對同一段RNA測量10次準確率為99.9%的reads,可以有效地提供99.99%的準確度。
如果目標是確定已知的蛋白質編碼基因,改善基因結構模型的注釋以及定量轉錄本,並且可能發現新的基因,那麼我們需要的準確度非常低。實際上,將reads映射到已知基因模型的程序允許一個或者甚至兩個不配對的匹配。實際上,如果我們的reads是50nt,並且允許一個不匹配,我們允許98%的準確性。在這個級別上,大多數常用平台都可以使用:SOLID、Illumina、454、IonTorrent。
1.2 reads數:需要多少。
在我們的RNA-seq研究中計算覆蓋率統計是一個很好的做法。粗略計算,人類基因組有3000Mnt,其中大約1/30被用於蛋白質編碼基因。這意味著要測序的RNA大約在100M nt。如果我們使用單端測序100nt(或雙端測序50nt),則1M reads給出100M nt序列數據,其等於1×覆蓋。普通平台的典型Read輸出是30Mreads,將提供30×覆蓋。因此,如果reads為30M,那麼我們可以預計會有大量的表達基因,對大多數基因有很好的覆蓋率,並且可能會遺漏一些低表達或很少表達的基因。為了計算reads映射到特定基因的概率,我們可以假定平均基因大小為4000nt(100Mnt除以25,000個基因)。30M reads相當於30×覆蓋率,單端測序100nt(或雙端測序50nt)長度,我們可以預計一次reads映射到平均表達和長度基因4000nt×30覆蓋/100 nt 1200倍。因此,如果基因與平均基因相比在1/1200的水平上表達,那麼我們有50:50的概率來讀取它的圖譜。在實踐中,30M reads是非常合理的,能捕獲大多數但可能不是所有的樣本中表達的基因。由於大多數平台可以產生高達30M的reads,所以這通常不是限制。如果需要更好的覆蓋範圍,需要替代外顯子使用和其他基因模型細節或罕見事件的數據,那麼更容易產生大量reads的平台是優選的。最近開發的一種名為「捕獲測序」的方法已被用於在人類基因組的少量位點富集RNA。該方法基本上使用印刷的Nimblegen微陣列從有限數量的基因座捕獲RNA[21]。在這個例子中,作者捕獲了大約50個基因位點,包括蛋白質編碼基因和長的非編碼RNA。利用捕獲策略,他們能夠有效地獲得>4600倍的基因位點覆蓋率,並且能夠發現未注釋的外顯子和剪接模式,甚至可以研究已被充分研究的基因。簡單的結論是,你可能永遠沒有足夠的覆蓋率來獲得一個基因位點的每一個可能的轉錄本。
解決問題的另一種方法是考慮需要多少reads能確認轉錄本的存在。關於這個問題沒有一致意見,文獻中充滿了例子,一個reads就足以說明一個分子的存在,相反文獻中
1.3 讀長:Read要多長讀長?
為了簡單地將reads映射到生物體中已知的基因,甚至14nt就足夠了。但是,由於某些reads可能映射到>1個位點,因此需要更長的reads。50nt時,一小部分reads仍然會映射到>1個位點,但通常非常少(
1.4 SR orPE: 單端測序還是雙端測序?
如果在文庫製備的任何步驟(RNA的片段化,接頭的連接,鏈的方向)上沒有偏差,並且cDNA合成將產生代表RNA樣品的完全隨機片段,則我們將獲得來自SR就像我們從PE那裡得到的那樣。但是,這些庫準備步驟中存在偏差,增加待測序片段的隨機化的一種方法是對克隆文庫的兩端進行測序。這起到雙重目的,因為來自短片段的PE序列可以重疊,從而提供對序列的額外確認。現在大多數的數據分析程序都能同時處理SR和PR數據,所以在下游分析中甚至沒有阻礙。不幸的是,並非所有的平台都允許在兩端進行測序,所以如果可用的話,使用雙端測序是一個好主意。
1.5 RNA還是DNA:我要測RNA還是DNA?
如前所述,大多數平台對來自樣品中逆轉錄雙鏈cDNA和PCR擴增的RNA分子進行測序。在RNA-seq中存在這樣的情況,如在研究項目中RNA結構的修飾是重要的,例如mRNA加帽,RNA將被優先選擇進行測序,如最近的Nanopore納米孔測序直接測序RNA而不是cDNA。
1.6 樣本:我需要準備多少樣本?
現在由於可能從單個細胞中測序總RNA,人們不禁要問需要的樣品材料是否有下限。使用擴增的雙鏈cDNA的測序平台基本上沒有材料的下限,但是這並不意味著應該為測序平台提供最少的樣本,增加材料也應該增加樣品中的RNA種類。大多數合成測序平台現在都有專門的試劑盒,可以從納克級的總RNA中製備文庫。單分子平台只需要一個分子進行測序。因此,這對不同的測序平台似乎不是限制。
1.7 花銷:我需要花費多少金額?
由於測序成本在過去十年中急劇下降,所以成本不應該被考慮在內。但是現實情況是,發表文章的要求和質量標準也在不斷提高,所以始終存在成本問題。將RNA-seq文庫上傳到商界、國家或當地的核心NGS設施是降低成本的好方法。如果資金充足,購買個人實驗室測序儀目前是可行的。實際上,Illumina的MiSeq和Ion Torrent的個人染色體檢測儀和二代測序儀都生產出個人實驗室測序儀,即使資金不足的實驗室現在也可以負擔得起。價格下限可能還沒有達到,所以人們可能期望在沒有商業動機的測序平台上有更多的選擇。實際上,商業性和非營利性核心設施對樣品的高度要求意味著價格壓力繼續下降。
1.8 時間:多久能測完?
工作生活中有一句古語,說「任務需要在昨天完成」。基因組學是一個快速發展的領域,理想情況是樣本準備好,文庫建立好,測序沒有任何停留或延遲。實際上,許多平台(Illumina,SOLID,454)都有排隊,這並不是因為機器正在運行,而是因為沒有足夠的文庫填充流動池來進行單次運行,所以已經構建並提交了測序。可以這麼說,在實踐中,工作隊列可能不是來自儀器,而是因為文庫建設的準備工作,收集了足夠數量的文庫來啟動儀器的運行。在工作流程的另一端,一旦生成了序列數據,工作才剛剛開始,數據分析才能開始。在大型項目中,數據分析階段可能需要幾天,幾個月或幾年的時間,使得測序儀器運行時間相對較短。
2. 總結
總之,人們可以看到大量的選項用於執行RNA-seq實驗。每個平台都有自己獨特的屬性,與其他的不同。如果幸運的話,可以有多個平台可供選擇。事實上,一些研究利用每個平台的最佳性能,不同的平台適合不同的目的。例如,Illuminareads可能用於覆蓋率,SOLID用於準確度,Roche454或PacificBiosciences用於讀長。人們可以很容易地想像一個未來,在一個特定項目中多個平台的使用是典型的,選擇平台的因素是多維的,但是為特定的應用確定最合適的平台並不是不可能的。利用這裡提供的信息以及儀器和當前定價,應該有可能對RNA-seq實驗的適當使用平台及其使用模式做出明智的決定。
參考文獻:
1. NagalakshmiU., Wang Z., Waern K. et al. Te transcriptional landscape of the yeast genomedefned by RNA sequencing. Science 320(5881):1344–1349, 2008.
2. Sultan M., Schulz M.H., Richard H. et al. A global view of gene activity andalternative splicing by deep sequencing of the human transcriptome. Science321(5891):956–960, 2008.
3. Wilhelm B.T., Marguerat S., Watt S. et al. Dynamic repertoire of aeukaryotic transcriptome surveyed at single-nucleotide resolution. Nature453(7199):1239–1243, 2008.
4. Wang Z., Gerstein M., and Snyder M. RNA-Seq: A revolutionary tool fortranscriptomics. Nature Reviews in Genetics 10(1):57–63, 2009.
5. Avarre J.C., Dugué R., Alonso P. et al. Analysis of the black-chinnedtilapia Sarotherodon melanotheron heudelotii reproducing under a wide range ofsalinities: From RNA-seq to candidate genes. Molecular Ecology Resources14(1):139–149, 2014.
6. Gutierrez-Gonzalez J.J., Tu Z.J., and Garvin D.F. Analysis and annotation ofthe hexaploid oat seed transcriptome. BMC Genomics 14:471, 2013.
7. Mortazavi A., Williams B.A., McCue K. et al. Mapping and quantifyingmammalian transcriptomes by RNA-seq. Nature Methods 5(7):621–628, 2008.
8. Trapnell C., Williams B.A., Pertea G. et al. Transcript assembly andquantifcation by RNA-seq reveals unannotated transcripts and isoform switchingduring cell di?erentiation.Nature Biotechnology 28(5):511–515, 2010.
9. Peltonen J., Aarnio V., Heikkinen L. et al. Chronic ethanol exposureincreases cytochrome P-450 and decreases activated in blocked unfolded proteinresponse gene family transcripts in Caenorhabditis elegans. Journal ofBiochemical Molecular Toxicology 27(3):219–228, 2013.
10. Mohd-Shamsudin M.I., Kang Y., Lili Z. et al. In-depth transcriptomicanalysis on giant freshwater prawns. PLoS ONE 8(5):e60839, 2013.
11. Majewski J. and Pastinen T. Te study of eQTL variations by RNA-seq: FromSNPs to phenotypes. Trends in Genetics 27(2):72–79, 2011.
12. Lalonde E., Ha K.C., Wang Z. et al. RNA sequencing reveals the role ofsplicing polymorphisms in regulating human gene expression. Genome Research21(4):545–554, 2011.
13. Tang F., Barbacioru C., Wang Y. et al. mRNA-seq whole-transcriptomeanalysis of a single cell. Nature Methods 6:377–382, 2009.
14. Hashimshony T., Wagner F., Sher N. et al. CEL-Seq: Single-cell RNA-seq bymultiplexed linear amplifcation. Cell Reports 2(3):666–673, 2012.
15. Edgren H., Murumagi A., Kangaspeska S. et al. Identifcation of fusion genesin breast cancer by paired-end RNA-sequencing. Genome Biology 12(1):R6, 2011.
16. Quinn E.M., Cormican P., Kenny E.M. et al. Development of strategies forSNP detection in RNA-seq data: Application to lymphoblastoid cell lines andevaluation using 1000 Genomes data. PLoS ONE 8(3):e58815, 2013.
17. Djari A., Esquerré D., Weiss B. et al. Gene-based single nucleotidepolymorphism discovery in bovine muscle using next-generation transcriptomicsequencing. BMC Genomics 14(1):307, 2013.
18. Ilott N.E. and Ponting C.P. Predicting long non-coding RNAs using RNAsequencing. Methods 63(1):50–59, 2013.
19. Faghihi M.A., Modarresi F., Khalil A.M. et al. Expression of a noncodingRNA is elevated in Alzheimer』s disease and drives rapid feed-forward regulationof beta-secretase. Nature Medicine 14(7):723–730, 2008.
20. Srinivasan J., Dillman A.R., Macchietto M.G. et al. Te draf genome andtranscriptome of Panagrellus redivivus are shaped by the harsh demands of afree-living lifestyle. Genetics 193(4):1279–1295, 2013.
21. Mercer T.R., Gerhardt D.J., Dinger M.E. et al. Targeted RNA sequencingreveals the deep complexity of the human transcriptome. Nature Biotechnology30(1):99–104, 2011.
供稿:胡庭
歡迎關注生信人
※狗年-看狗是如何從狼進化來的
※進化樹作圖專題:Newick的前世今生
TAG:生信人 |