宏基因組學入門四部曲之初識
做宏基因組的人可能對上面的圖並不陌生,這是屬於分箱步驟中的contig可視化。我第一次來到現在的研究所,看到師兄在繪製的圖就是這個,當時感覺很漂亮很神奇。以下是我在那一年後入門宏基因組時所做的筆記:
1 宏基因組學的基本概念梳理
宏基因組學(也稱元基因組學),是環境樣品中所有微生物基因組集合的研究技術和方法。全部宏基因組測序以環 境樣品中的微生物群體基因組為研究對象,直接從環境樣品中提取全部微生物的DNA,構建宏基因組文庫,利用高通量測序技術分析環境樣品所包含的全部微生物的群體基因組成及功能和參與的代謝通路,解讀微生物群體的多樣性與丰度,探求微生物與環境,微生物與宿主之間的關係,發掘和研究新的、具有特定功能的基因。(我們實驗室研究湖泊環境中是菌藻共生關係,因此我們在採樣的時候把其他原生動物過濾掉了。)另外16S/18S rDNA測序則是以細菌16S rRNA 或者真菌18S rRNA 基因測序為主, 核心是研究樣品中的物種分類、物種丰度以及系統進化。
2 宏基因組學研究的內容
Integration with metadata: Combining biogeochemical data with organism abundace makes habitat preferences apparent.(WalshScience2009)
3 宏基因組學的分析流程
宏基因組學大數據分析的各個環節都需要運用信息學和生物信息學技術(下圖)。首先是大數據的存儲,包括環境樣品的採集(採集地點、樣本類型、地理環境、氣候季節等)和處理信息(實驗條件、處理時間等), 樣品的地球物理化學參數, 測序信息(測序反應條件、測序儀器、測序深度等)和大量的序列數據;經過分類和整理之後的數據,需要進入標準化的資料庫進行保存,以備後續分析使用。其次是大數據的前處理,即海量序列的基礎分析,包括序列質量控制、序列拼接、序列的物種分類學分析、序列功能的預測和相對定量分析。大數據的前處理是宏基因組學研究的基礎,其速度和準確性都將對實驗進度和最終結論產生很大影響。最後,經過基礎分析的數據需要進一步進行信息分析、比對與提煉,進而分析微生物的群落組成與多樣性、群落功能與遺傳變異、群落結構與物種間的相互關聯、群落與環境的相互作用,最終為環境變化的預測和治理提供理論依據。
環境微生物宏基因組學研究中的生物信息學方法(鄧曄微生物學通報2015)
Recovering complete and draft population genomes from metagenome datasets (Sangwan et al. *microbiome * 2016)
總體上說宏基因組學分析工具正在不斷地進步,優秀的分析工具也越來越多,但是there is no clear winner that suits all situations。並且在不久的將來,群體轉錄組、蛋白質組和代謝組數據的整合分析成為可能。也許最重要的多組學整合分析是建立預測模型來識別不同物種之間獨有的代謝交流。
Metagenomics:Tools and Insights for Analyzing Next-Generation Sequencing Data Derived from Biodiversity Studies(Anastasis oulasBioinformatics and biology insights2015) 單細胞測序技術的發展,可以使用單細胞基因組協同輔助宏基因組分析,已到達更精確區分每個物種的基因組。 誤差會由許多不一致的因子產生,例如DNA提取的方法、引物和擴增區域、測序平台、使用的軟體等。正因為誤差的存在,通過兩個群落宏基因組之間的比較很難取得可信的結果。
補充軟體: Assembly: Minia/HiPmer/ALE/SoAPdenovo2/sPAdes V3/iMetAMOS/MeGArge/GAM-NGS/Ray/minimus-2/MeGA-Merge/CAP3/ Bining: MetaBAT/MaxBin/ABAWACA/CONCOCT/GroopM/ Annotation: MetaPhlAn 2.0(在nature method上發表的)Functional metagenomics of extreme environments(Salvador MireteScienceDirect2016)Mitochondrial metagenomics:letting the genes out of the bottle(Crampton-Platt et al.GigaScience2016) 質粒宏基因組
4 群體分析面臨的挑戰4.1 技術障礙
大量的數據但覆蓋度低
拼接和注釋對計算的需求高
拼接、注釋、分箱的質量不確定
4.2 概念障礙
複雜的數據在噪音識別困難 數據擁有固有的多維,每一段序列屬於某個生物並且具有功能;
5 其他概念摘要5.1 預測編碼基因
目前發現編碼基因的方法有兩種。一種是基於BLAST比對的方法,這種方法通過比對已有的資料庫,可以發現宏基因組數據中有哪些已知基因的同源基因的存在,但缺陷是找不到那些和已經基因沒有同源關係的新基因。第二方法是重新預測基因的方法,這些方法大部分是基於有指導學習和統計模式識別的方法,包括隱馬爾科夫模型。GeneMark.hmm就是基於單密碼子頻率的非均一馬爾科夫模型來預測基因的軟體,當這些軟體用到宏基因組數據上時,這些軟體通常無法確定部分的ORF,即使這些 ORF是真實基因的一部分。
5.2 衡量樣本中物種的多樣性
5.3 菌群間差異分析
有幾種基於序列特徵的比較,包括樣品間GC含量的比較,微生物基因組大小的比較,系統發育關係樹的比較和功能組分的比較。許多比較分析都用到了關聯統計學的方法,通常假設有幾種元數據影響觀測到的宏基因組群體的組分。主成分分析(PCA)和非度量多維標度(NM-MDS)用來圖形化展示數據並揭示有哪些因素最影響數據。有幾種進行宏基因組比較分析的軟體:第一個是MEGAN, 可以比較兩個或幾個標準化後的樣品的GC含量;第二種是MG-RAST,提供了一種比較功能和基於序列的分析來上傳樣本;第三種是CAMERA,提供了BLAST介面讓客戶可以比對40多種現有的宏基因組數據。
5.4 宏基因組做De Novo拼接
由於宏基因組測序的覆蓋率通常是不完全的,所以組裝所需要的序列並不是很完整。並且組裝的時候,可能會把來自不同分類單元(OTU)的序列組裝在一起,產生嵌合體基因組。Phrap,Forge,Arachne,JAZZ和Celera Assembler等可用來組裝由sanger法產生的宏基因組序列。這些演算法大部分都利用mate-pair信息來參與組裝。這些演算法用頂點來代表每條read,互相重疊的read之間用邊連起來,它們的組裝問題可以轉換成「哈密爾頓路徑」搜索問題,即找到一條路徑走過所有頂點,且每個頂點只走一次。
5.5 估計宏基因組樣本中的物種組成及丰度
宏基因組中的物種分類,一般用OTU (operational taxonomic unit), 即可操作物種單元,來表示。在典型情況下,原核生物的OUT使用16S rDNA來衡量,真核生物的OUT使用18s rDNA來衡量。但選擇16S/18S rDNA鑒定物種,存在以下幾個問題:1)rDNA之間的平行轉移來干擾rDNA鑒定的可靠性。2)在單個細菌中,16r DNA可能存在序列不同的幾個拷貝,干擾估計OTU數目的準確性。所以,其他備選的標記基因,比如單拷貝的看家基因被推薦用來作為菌種鑒定的標記。
5.6 代謝通路
代謝通路分析是為了研究某一個環境中各種代謝途徑的富集程度。一般需要根據統計檢驗方法(如P-value)來篩選。常用的代謝通路資料庫有KEGG、Reactome、BioCyc、 RegulonDB、 WikiPathwans等。
寫在最後
隨著相關軟體的開發及測序技術的發展,宏基因組的研究會不斷地向前發展。我覺得地球環境宏基因組計劃、人類微生物宏基組計劃等等,他們所做的工作都非常的有趣,有意義。尤其是最後將研究結果應用到實際生活中,建立地球環境變化預測模型、指導人類日常生活都激發了我對該學科的研究興趣。希望未來我也能夠做出有價值的研究。
TAG:生信技能樹 |
※宏基因組學基本介紹
※代謝組學初入局 癌症早期精準診斷新思路
※第五屆全國功能基因組學高峰論壇盛大開幕
※科學家開發比較基因組學進化分析新方法
※第五屆全國功能基因組學高峰論壇在京開幕
※新技術結合多組學,初邁基因組完成圖新時代
※BMC基因組學旗艦期刊
※科學家構建基於癌症基因組學的非組織特異標籤的藥物重定位新方法
※《科學》刊文報道基因組學研究揭秘兒童腫瘤新線索
※華大基因:中國人基因組學大數據研究成果發布
※中國基因組學團隊 揭秘草藥卷柏復甦耐旱機制
※史上最全的基因組學概述
※柳葉刀子刊:科學家首次揭示哮喘的大型全基因組學研究
※中科院趙方慶團隊提出環形非編碼RNA組學大數據挖掘新技術
※最大規模中國人基因組學大數據研究成果發布
※沃特世:同中國科學家深度合作共促糖組學創新
※準確識別影響RNA剪接的突變基因!這家公司將AI引入基因組學
※南方醫科大學張其威組在人55型腺病毒的比較基因組學研究取得進展
※科學家繪製肝癌藥物基因組學「藍圖」
※基因組學等進步振興衰弱形態學