我為什麼要做生物信息學分析?
我為什麼要做生信分析——這個問題回答起來其實很簡單,因為如果你做了一個晶元測序,你得到的是下面這些東西:
相信這應該不是你想要的結果吧?
你想知道的是應該是究竟是哪一個或者哪一群基因在某個生物學過程中起到了重要的作用,而要得到這樣一個可信的結論,是需要進行重重的生物信息學分析的。
生物信息學分析大致可以分為三個境界:
1、只會機械的套用已有的方法,對演算法和原理一無所知,無法運用結果解釋分析生物學問題;
2、了解生信檢驗的基本原理(作者在發明它時,最初的構想、原型、啟發),可以根據實際情況選擇不同的分析演算法,採用最優解,能夠解釋生物學問題;
3、能夠自由的組合、拼接已有的演算法,必要時創造想要的演算法。
回到晶元測序結果分析這個問題,去除晶元數據質量控制(這部分其實相當複雜),接下來就是差異基因篩選和基因功能注釋分析了。基因功能注釋屬於晶元分析流程中最末端的生物學解讀部分,相當於是臨門一腳吧。這部分也是整個分析流程中最為靈活的部分,雖然它也有自身的一些套路。
吐槽一下現在文章中非常套路的熱圖
實驗設計非常簡單,2組,3vs3,差異表達基因的定義很明了,不是上調就是下調,通過閾值篩選以後,圖形展示結果是早可以預見的,毫無意外。既然這樣,為什麼不直接列個表?回到熱圖的初衷,這是一個聚類分析,目的是找出表達輪廓相近基因,以此來推斷它們在功能上存在關聯。如果說一張熱圖僅僅是為了說明差異基因分的很開,篩選標準是OK的,我的實驗分組是OK的,那麼稱它為一張「田」字紅綠色盲測試圖並不為過。
基因功能分析用GO和KEGG這一套,簡單地羅列數據就OK了。
不是說套路有什麼錯,嬰兒學說話,剛學的時候他也是不知道其中的含義的,但是僅僅停留在套路上,還是走不遠的。
基因功能注釋的過程是先聚類再檢索功能,還是先檢索功能再聚類?聚類的時候採用什麼樣的標準?生物功能富集檢驗的時候採用什麼樣的演算法?這些都是大有可為的地方。
吐槽了這麼多,最後給大家科普一下生物功能富集檢驗的方法。
在文章Ten Years of Pathway Analysis: Current Approaches and Outstanding Challenges中,作者按照方法論的不同,將功能富集分析分為三代:
這三種方法本質上的區別在於輸入數據的形式
1、ORA:這是我們最常用的一種方法,這類方法以Fisher s exact test為代表。這類方法最為簡單, 它只需要輸入一個由差異基因構成的列表,這個列表中所有的基因都是平等的,沒有權重或者順序。
2、FCS:這類方法以GSEA為代表,小張之前也介紹過GSEA是個什麼鬼(上)?,GSEA是個什麼鬼?(下)。它不光需要輸入給定基因列表,而且需要賦予每個基因一個感興趣的統計量,一般來講,那就是t統計量或者Fold Change之類,整個的輸入,是個排序列表。
3、PT:這類方法以SPIA為代表。它的輸入需要在第一代或第二代方法的基礎上,結合實際的生物信號通路的拓撲結構,就是需要提供例如,C基因在A和B基因上游,激活A,且抑制B,這類信息。這類方法非常理想,但是存在很多問題,比如pathway的資料庫尚未完善,生物系統的pathway是在不同條件下是不斷變化的,有點像是你站在上帝視角錄入數據,所以這類方法是「政治上正確」的,目前還無法大規模實現。
那麼ORA和FCS兩種方法的優劣呢?
簡單的說,ORA所用的方法Fisher s exact test的優點是「非常簡單」——操作簡單;缺點是「非常簡單」——它需要回答「一個基因是否是差異表達」的問題,且答案只能是,Yes or No,而這個差異基因的定義,取決於人為的Cutoff,人為因素太大。
FCS的代表作GSEA就稍微複雜一些了。它的優點是能分析出一些並不具有顯著差異表達的基因的生物學功能。比如當一個轉錄因子被抑制之後,它的靶基因可能只有寥寥幾個下調顯著,其它都是微微下調,這種情況下,Fisher s exact test就不能起作用了,這些微微下調的基因會被忽略。在The Functional Consequences of Variation in Transcription Factor Binding這篇文章中還提供了相應的證據,表明上面提出的這種現象確實是存在的:
那麼GSEA分析存在哪些缺陷呢?
1、要求區別非表達與表達基因。GSEA 的期望輸入是當前條件下表達基因的排序列表,如果混入並未表達的基因,則會降低統計檢驗勢。然而複雜的是,表達基因的檢出是平台特異的,在這一層面來說的話,RNA-seq的數據更具優勢,因為表達了就是表達了,沒表達就是沒表達,很簡單。
2、只對一側富集的趨勢敏感。這是演算法本身的特性導致的,在應用到生物數據上時,則需要引起額外的注意:許多生物學過程的關鍵基因對下游,可能既有激活作用,亦有抑制作用。這在轉錄因子中,尤為常見。比如下面這個NF-kB的富集結果,左側的趨勢較右側的弱一些,可能就會漏檢。所以做GSEA的時候,做一次兩端富集,再做一次單端富集可以比較好的避免這樣的問題。
好了,今天扯這麼多其實就是想跟大家談談對生信的一些看法,生信的套路其實並不難,但是想要更進一步,還是需要付出比較多的努力的,並沒有什麼事可以隨隨便便可以成功的。我之所以要做生物信息學分析是因為我想通過嚴謹的科學方法得到一些可靠的結論,而不是出於其它的什麼目的。
關注後獲取《科研修鍊手冊》1、2、3、4、5,基金篇精華合集
※科研熱點的衝擊波什麼時候到你的領域?
※為何國內科研人員不敢這麼干?
※大牛是這樣寫標題和摘要的
※提升SCI論文逼格?試試這些方法!
※居然還有這種操作?
TAG:小張聊科研 |
※要鬧鐘還是生物鐘?
※我們真的需要生物醫學嗎
※為什麼生物不選擇永生這條進化方式呢?來聽聽生物學教授怎麼說
※AI如何幫助我們讀取體內的生物鐘信息?
※為什麼說腸道微生物很重要
※什麼是生物製品?
※外太空生存的食物如何解決?科學家稱這種微生物可解決問題!
※真相來了:孩子為什麼要「臟」著養?微生物學家有論證!
※請問生物為什麼會分兩個性別?
※地球生物都需要氧氣才能生存嗎?科學家以什麼標準尋找外星生命?
※我的世界遊戲中什麼生物最強 你最想強化哪個生物?
※什麼?它們也是浮游生物?
※定製化生物信息學分析重磅來襲!物美價廉的專屬生信報告
※從物理分子到生物分子,我們能看見什麼?
※一本分子生物學雜誌封面要不要這麼驚艷!
※為什麼生物不能永生?
※母愛是什麼?它的生物學意義是這樣的,沒有它生物將難以傳承
※生物為什麼不能實現永生?物理定律會可能打破嗎?
※除了控制人類的生物鐘,AI還可以為生物鐘做些什麼?
※看這部動漫能科普生物知識?媽媽再也不用擔心我的學習!