「零基礎」學習單細胞轉錄組測序
生信人的讀者們,大家好!這裡,我們將簡要描述單細胞測序的各種方法,並對幾種常用的單細胞轉錄組測序方法進行簡單的比較,最後,我們提供基本的應用以供生信愛好者使用,同時,歡迎提供討論。
第一部分:單細胞測序基本介紹
經典的人類細胞由約33億個鹼基對的DNA和6億個鹼基的mRNA組成。現階段大部分測序是將數百萬個細胞的混合物用Sanger測序或者Illumina測序對DNA或者RNA進行測序。而通過使用來自單個細胞的DNA和RNA的深度測序,我們可以更加深入廣泛地研究細胞功能 [1]。
單細胞測序(Single Cell Sequencing,SCS)利用優化的二代測序(Next Generation Sequencing,NGS)技術檢查來自單個細胞的序列信息,可以提供更高解析度的細胞差異並更好地理解單個細胞在其微環境中的功能 [1]。其主要包括以下四個步驟:單個細胞的分離,核酸的提取和分離,測序文庫的製備,測序和生物信息學數據分析。另外,因為我們主要針對的目標是生信人,所以,在本文的後半部分,我們將以2017年的一篇Cell文章為例子,講一下單細胞轉錄組測序(Single Cell RNA Sequencing,scRNA-seq)數據分析的應用。
大數據技術在生物醫學研究中具有許多應用 [2],特別是,NGS或單細胞技術已經成為了精準醫療的一個巨大的推動力 [3-6]。Yu等人在2016年1月通過使用關鍵詞檢索上載到NCBI中Gene Expression Omnibus(GEO)子庫資料庫的scRNA數據集的年增長以及過去7年PubMed中涉及scRNA-seq和大數據的新文章數量的增加(圖1),他們預測scRNA-seq技術正在被廣泛的應用 [2]。
圖1.單細胞數據和大數據相關的論文數目和數據集數目 [2]
來自成千上萬個單細胞的數據難以一個一個分別進行分析,而一些軟體的進步使得這個過程變得更加簡單方便(圖2)。因為不存在兩個完全一樣的細胞,scRNA-seq可以揭示出導致每個細胞具有唯一性的微量變化。scRNA-seq作為研究轉錄組細胞與細胞變異的強有力的方法,可以用於揭示新的細胞類型並提供對發育過程和轉錄隨機性的觀察 [8]。然而,為了確保scRNA-seq數據能夠得到適當的分析,開發特別針對處理單細胞數據並與實驗技術進步相同步的計算方法至關重要。新的方法已經並將繼續為標準化和細胞類型識別而開發,這些方法更加註重解剖細胞表面水平的變異性。另外,還有許多新的領域工具仍有待開發 [9]。因此,scRNA面臨的挑戰主要有以下幾類:首先,scRNA-seq數據的標準化必須適當考慮細胞內轉錄的RNA總量的差異,並且對於非基於唯一分子標識(Unique Molecular Identifiers,UMIs)的方案,scRNA-seq數據的標準化必須適當考慮測序深度的差異;其次,如果scRNA-seq數據集中的生物相關信號要被強有力地發現,則需要建模已混淆變數和/或使用基於回歸的分析去除它們的方法;最後,精確模擬技術變異性(即使去除混雜變數後)也是至關重要的,因為如果沒有對scRNA-seq數據固有的基礎噪音的基本理解,下游解釋可能會嚴重受損 [9]。隨著這些問題得到不斷的解決,預計scRNA-seq方法將會在未來幾年內得到發展,從組織生理學到系統生物學等領域都會有新的發現。
圖2.單細胞測序使得一切變得簡單 [7]
第二部分:各種單細胞轉錄組測序方法比較
接下來,我們將對scRNA-seq的幾種常見方法進行簡要的討論。
已有研究顯示出:在Fluidigm(C1平台)的自動化微流體平台中可用的小體積中進行實驗,結果顯示:scRNA-seq性能要優於CEL-seq2,Smart-seq或者其他市售微升容量的試劑盒 [10, 11]。此外,Smart-seq方法針對靈敏度,甚至是全長的覆蓋度,精確度和成本均進行了優化,而這種改進的Smart-seq2方法也被廣泛使用 [12]。還有一些方法為了用於對cDNA生成的部分引物進行測序,犧牲了全長範圍的覆蓋度。這就使得文庫能夠在早期加入barcode(即引入細胞特異性barcode),從而允許多重擴增cDNA的擴增,並由此將scRNA-seq文庫的通量增加1-3個數量級 [13-16]。此外,這種方法允許引入UMI,標記單個mRNA分子的隨機核苷酸序列,因此可以區分原始分子和源自cDNA或文庫擴增的重複序列 [17]。利用UMI信息改進了mRNA分子的定量 [17, 18],並且已經在若干scRNA-seq方案中實施,例如STRT [18]、CEL-seq [10, 19]、CEL-seq2 [10]、Drop-seq [16]、inDrop [15]、MARS-seq [14]和SCRB-seq [20]。
然而,仍然缺乏scRNA-seq方法相關參數的全面系統的比較。為了解決這個問題,2017年Ziegenhain等人使用六種不同的方法重複兩次,並進行比較 [21]。使用小鼠胚胎幹細胞(mouse ESCs)的數據,用以系統地評估六種常見scRNA測序方法的靈敏性和準確性 [21]。他們使用功率模擬來比較不同方法的成本和效率,允許在現有的方法中作出明智的選擇,並為將來的比較提供框架 [21]。Ziegenhain等人從小鼠胚胎幹細胞中產生了583個scRNA-seq文庫,比較了它們的靈敏度、準確性、精確度以及效能(圖3)。
圖3.六種不同的scRNA-seq的實驗學和計算學技術路線 [21]
首先,在靈敏度方面對六種scRNA-seq方法進行比較(圖4)。結果顯示:Smart-seq2是最靈敏的方法,因為它可以檢測到每個細胞中基因的最大數目和跨細胞總數最多的基因,並且在整個轉錄本中最均勻的覆蓋率。Smart-seq/C1在每個細胞的敏感度略低,檢測到的細胞幾乎相同數量基因的覆蓋度略低。在所有3』端計數的方法中,CEL-seq2/C1和SCRB-seq檢測到的每個細胞的基因數目與Smart-seq/C1相同,而Drop-seq和MARRS-seq檢測到的基因明顯更少。
圖4.六種不同的scRNA-seq的靈敏性比較 [21]
接下來,首先,在準確性方面六種scRNA-seq方法進行比較(圖5)。為了在轉錄本水平衡量各種不同方法的準確性,Ziegenhain等人把已知的92個來源於External RNA Control Consortium(ERCCs)的轉錄本的表達值和觀測值進行對比,對於每個細胞分別並建立線性模型用來計算共相關係數(R2)。這些方法在精確性上具有顯著的差異(Kruskal-Wallis檢驗,p
圖5.六種不同的scRNA-seq的準確性比較 [21]
再然後,在精確性方面對六種scRNA-seq方法進行比較(圖6)。用UMI強烈地增加了擴增基因的精確度。結果顯示與UMI方法相比,Smart-seq2在更多細胞中檢測到共同的13,361個基因,但與預期相比,它具有比基於UMI的方法更多的放大雜訊。不論從這個分析還是從忽略scRNA-seq數據的強均方差和平均dropout依賴性的總變異係數來看,dropout率和放大雜訊的不同組合如何影響方法的功效並不明顯。
圖6.六種不同的scRNA-seq的精確度比較 [21]
再然後,在效能方面對六種scRNA-seq方法進行比較。SCRB-seq對於一百萬個reads和五十萬個reads的數據量而言,是最有效的方法,但是CEL-seq2/C1對於250,000個reads序列深度是最強大的方法。
圖7.六種不同的scRNA-seq的效能比較 [21]
最後,對這六種scRNA-seq實驗方法的花費和效能進行了整合的評估。Drop-seq、MARS-seq、SCRB-seq和Smart-seq2方法的花費效率具有相似的高的特徵。
表一.推斷scRNA-seq實驗的花費和效能 [21]
第三部分:scRNA-seq數據分析的應用
scRNA-seq分析分為兩個層次:細胞層面的分析和基因層面的分析。具體到細胞層面的分析,又包括了聚類和細胞起源推斷等;而具體到基因層面的分析,又包括了識別不同細胞類型的marker、基因表達的動態分析以及根據基因-基因的表達相關性推薦基因調控網路 [22, 23]。
接下來,我們根據Zheng等人的研究「Landscape of Infiltrating T Cells in Liver Cancer Revealed by Single-Cell Sequencing」重點說明scRNA-seq技術的應用。Zheng等人通過使用scRNA-seq測序分析來自肝癌細胞患者的T細胞群揭示了不同的亞型和浸潤淋巴細胞的克隆擴增 [24]。我們重點關注於以下幾個分析:
(1) 細胞聚類和亞型分析
為了揭示整體T細胞群的內在結構和潛在功能亞型,Zheng等人使用SC3中實施的譜系聚類方法對所有的T細胞進行無監督的聚類分析(圖8)。結果顯示共出現了11個穩定的簇,其中包括了CD8+的5個簇和CD4+細胞的6個簇,並且每個簇具有其獨特的標籤基因。
圖8.使用t-SNE映射對來源於HBV+病人的T細胞進行亞型分析 [24]
(2) 差異基因表達分析
在33個常見的Treg標籤基因中,其中的31個基因同時可以被Zheng等人的研究所鑒定出來(圖9)。因此證明此scRNA-seq數據是可靠的穩定的。
圖9.使用Volcanno plot和Violin plot顯示腫瘤浸潤細胞中的差異表達基因 [24]
參考文獻
1.Eberwine, J., et al., The promise of single-cell sequencing. Nat Methods, 2014. 11(1): p. 25-7.
2.Yu, P. and W. Lin, Single-cell Transcriptome Study as Big Data. Genomics Proteomics Bioinformatics, 2016. 14(1): p. 21-30.
3.Campton, D.E., et al., High-recovery visual identification and single-cell retrieval of circulating tumor cells for genomic analysis using a dual-technology platform integrated with automated immunofluorescence staining. BMC Cancer, 2015. 15: p. 360.
4.Vicini, P., et al., Precision medicine in the age of big data: The present and future role of large-scale unbiased sequencing in drug discovery and development. Clin Pharmacol Ther, 2016. 99(2): p. 198-207.
5.Yadav, S.S., et al., Next-generation sequencing technology in prostate cancer diagnosis, prognosis, and personalized treatment. Urol Oncol, 2015. 33(6): p. 267 e1-13.
6.Zhang, X., et al., Investigating evolutionary perspective of carcinogenesis with single-cell transcriptome analysis. Chin J Cancer, 2013. 32(12): p. 636-9.
7.Perkel, J.M., Single-cell sequencing made simple. Nature, 2017. 547(7661): p. 125-126.
8.Svensson, V., et al., Power analysis of single-cell RNA-sequencing experiments. Nat Methods, 2017. 14(4): p. 381-387.
9.Stegle, O., S.A. Teichmann, and J.C. Marioni, Computational and analytical challenges in single-cell transcriptomics. Nat Rev Genet, 2015. 16(3): p. 133-45.
10.Hashimshony, T., et al., CEL-Seq2: sensitive highly-multiplexed single-cell RNA-Seq. Genome Biol, 2016. 17: p. 77.
11.Wu, A.R., et al., Quantitative assessment of single-cell RNA-sequencing methods. Nat Methods, 2014. 11(1): p. 41-6.
12.Picelli, S., et al., Smart-seq2 for sensitive full-length transcriptome profiling in single cells. Nat Methods, 2013. 10(11): p. 1096-8.
13.Hashimshony, T., et al., CEL-Seq: single-cell RNA-Seq by multiplexed linear amplification. Cell Rep, 2012. 2(3): p. 666-73.
14.Jaitin, D.A., et al., Massively parallel single-cell RNA-seq for marker-free decomposition of tissues into cell types. Science, 2014. 343(6172): p. 776-9.
15.Klein, A.M., et al., Droplet barcoding for single-cell transcriptomics applied to embryonic stem cells. Cell, 2015. 161(5): p. 1187-1201.
16.Macosko, E.Z., et al., Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets. Cell, 2015. 161(5): p. 1202-1214.
17.Kivioja, T., et al., Counting absolute numbers of molecules using unique molecular identifiers. Nat Methods, 2011. 9(1): p. 72-4.
18.Islam, S., et al., Quantitative single-cell RNA-seq with unique molecular identifiers. Nat Methods, 2014. 11(2): p. 163-6.
19.Grun, D., L. Kester, and A. van Oudenaarden, Validation of noise models for single-cell transcriptomics. Nat Methods, 2014. 11(6): p. 637-40.
20.Soumillon, M., Cacchiarelli, D., Semrau, S., van Oudenaarden, A., and Mikkelsen, T.S., Characterization of directed differentiation by highthroughput single-cell RNA-seq. bioRxiv., 2014.
21.Ziegenhain, C., et al., Comparative Analysis of Single-Cell RNA Sequencing Methods. Mol Cell, 2017. 65(4): p. 631-643 e4.
22.Picelli, S., Single-cell RNA-sequencing: The future of genome biology is now. RNA Biol, 2017. 14(5): p. 637-650.
23.Haque, A., et al., A practical guide to single-cell RNA-sequencing for biomedical research and clinical applications. Genome Med, 2017. 9(1): p. 75.
24.Zheng, C., et al., Landscape of Infiltrating T Cells in Liver Cancer Revealed by Single-Cell Sequencing. Cell, 2017. 169(7): p. 1342-1356 e16.
歡迎關注生信人
TAG:生信人 |