組學定量分析中的Normalization問題
--------插播一段-----------
Normalization一詞,很多人會翻譯成正態化,認為意思是把偏態數據轉化為正態數據。其實不然,個人感覺翻譯成標準化更準確些。先來個例子吧。
一個女生和男生身高都是170cm,從數值上看是一樣高的,但事實如此嗎?女生170cm,我們會覺得挺高的,而男生170cm,只能說湊合吧。為什麼會有這樣差別呢?查了一下中國成年男性和女性的平均身高,分別為167.1cm和155.8cm。女生170cm,比平均值高了14.2cm,而男生只高了2.9。潛意思中,我們是拿14.2和2.9做比較,而非絕對值170。其實,這就體現了Normalization思想,要剔除樣本所在群體的特異性,將數值拉回到同一水平來比較。
這種思想也體現在組學的定量分析中,以轉錄組為例。轉錄組是利用比對到基因外顯子的讀段數(reads)來定基因表達量的,假設樣本A的建庫大小為1000讀段,而樣本B的建庫大小為100讀段,在兩個樣本中,比對到同一基因的讀段數都是10,我們能說這個基因在兩個樣本中的表達量一樣嗎?顯然是不能的,這就需要做Normalization,轉錄組中常用的Normalization方法有CPM(除以建庫大小)、FPKM(除以建庫大小和基因長度)、中位數法(除以樣本所有基因表達的中位數),還有一些軟體,例如edgeR和DESeq2,是通過建模性的方式做Normalization。有篇文章,A comprehensive evaluation of normalization methods for Illuminahigh-throughput RNA sequencing data analysis,對轉錄組數據中不同的Normalization方法做了比較,感興趣的朋友可以看一下。其實不止轉錄組數據,涉及到相對定量的問題,例如以前的晶元表達譜、現在的蛋白組學等,都涉及到Normalization問題,由於沒深入探究過,就不展開了。
TAG:全球大搜羅 |