性狀定位之重測序GWAS
近日,《美國人類遺傳學雜誌》(The American Journal of Human Genetics,AJHG)以「10 Years of GWAS Discovery: Biology, Function, and Translation」為題回顧了近10年全基因組關聯分析(GWAS)的成果,並對GWAS下個十年的發展及應用方向進行了展望。文章預測:在未來的10年,GWAS研究將會被大規模用於基於陣列的數據,尤其隨著大型全測序panel的出現,進行全基因組測序數據的樣本將多達數以百萬計。文章指出,GWAS的結果已經揭示了數百個複雜的疾病性狀,大多數關於性狀和疾病的研究中,基因組中的突變目標會顯得很大,因此,未來的GWAS將以全基因組測序為基礎。
GWAS研究方法包括基因晶元、簡化基因組測序、基因組重測序。基因晶元是根據已有的SNP信息定製晶元,不能發現新的SNP位點。簡化基因組測序覆蓋度只佔基因組5%左右,會遺漏很多SNP位點。基因組重測序可以在全基因組範圍內發現SNP位點且不會導致SNP位點的遺漏。相比於晶元GWAS和簡化GWAS,重測序GWAS具有以下顯著的優勢:
1)變異信息更全面。重測序是基於整個基因組進行變異位點的掃描和檢測,而簡化測序雖然可以均勻覆蓋基因組,但是整體覆蓋度不到基因組的5%,會有大量變異信息的丟失,為了獲得更豐富的變異信息,應該選擇重測序GWAS。
2)定位結果更準確。10X深度的重測序,SNP位點的準確性可以得到保證,20X以上的重測序還可以進行SV的分析,通過SV與性狀關聯,輔助SNP關聯結果,使定位效果更加準確。
3)分析內容更豐富。重測序數據可以對群體的LD衰減進行更準確的判斷,可以獲得準確的單體型信息,有助於後續驗證。
4)文章影響因子更高。重測序GWAS的文章影響因子大多在10分以上,簡化GWAS和晶元GWAS的文章一般是5分左右,為了提高文章水平應該選擇重測序GWAS。
鑒於重測序GWAS優勢如此顯著,小編特意為大家整理了重測序GWAS的研究方案。
重測序GWAS研究思路:
重測序GWAS研究策略:
材料選取原則:動植物自然群體,樣本具有代表性,且不能有明顯的亞群分化(例如生殖隔離等),質量性狀盡量為0、1二值性狀,數量性狀盡量精確量化記錄,並使表型總體呈近似正態分布,推薦樣本量200個以上。
測序原則:全基因組重測序,Illumina HiSeq,PE150,建議每個樣本測序深度>5×,具體測序深度參照下表。
模型選擇:GLM、MLM、EMMAX、Fast-LMM、Farm CPU等。具體模型根據群體結構做相應調整。
案列分析
Yano K, Yamamoto E, Aya K, et al. Genome-wide association study using whole-genome sequencing rapidly identifies new genes influencing agronomic traits in rice. Nature Genetics,2016.
材料:176個日本粳稻品種。
測序策略:Illumina HiSeq,PE100,5.8X,MLM模型。
結果解析:
1、共獲得383.8Gb的數據,平均測序深度5.8X,基因組覆蓋度達91.2%,獲得426,337 SNPs和67,544 indels,其中,43,323S個SNPs為非同義突變,1,678個indels為移碼突變,1,656個indels為非移碼突變。
2、從圖1a-d的表型數據分析可以看出,4種表型數據(抽穗期、植株高度、圓錐花序的長度、葉寬)均呈正態分布,多樣性豐富,圖1e的PCA分析顯示176個日本粳稻品種沒有明顯的群體結構。
圖1 日本水稻的表型多樣性和遺傳結構
3、文章通過混合線性模型進行GWAS關聯分析,鑒定到了與抽穗期相關的26個位點(?log10 P ≥4.77),我們關注的5個區域分別位於染色體1、3、6、7、11(圖2a),其中,位於染色體3和7的峰點與已報道的抽穗期相關基因Hd6和Hd2的QTL定位結果一致。位於1號染色體的候選區域被錨定在36.30Mb到36.65Mb之間(346Kb)(圖2b),包括91個與抽穗期關聯的位點,這些位點分布於7個基因上,其中基因LOC_Os01g62780(圖2c)與擬南芥的HESO1基因同源,該基因在擬南芥中表現為延遲開花,分析發現主要是328位的纈氨酸突變為異亮氨酸形成了兩種單倍型,含有單倍型B的品種抽穗時間遲於單倍型A的品種(圖2d)。分別將單倍型A和單倍型B的基因序列導入日本晴,導入單倍型B序列的日本晴開花時間遲於導入單倍型A序列的日本晴和對照組,說明水稻中的新基因LOC_Os01g62780與延遲開花相關。
圖2 GWAS分析1號染色體上與抽穗期關聯的基因
4、同理,作者對水稻的株高、穗長、穗數、葉寬、分櫱數等性狀也進行了全基因組關聯分析,獲得了與株高及穗長相關的鋅指轉錄因子GATA,首次發現了NAL1基因導致水稻穗數的減少,除此之外,還獲得了許多控制上述農藝性狀的候選基因。
點擊展開全文
※如何查找已知lncRNA信息?有圖有步驟
※選擇性清除分析在牛的遺傳進化分析中的應用
※手把手教你用EXCEL做「關鍵基因」搜索及分析
※百邁客雲全面解析水稻抗旱分子機制
※「淺嘗」全轉錄組研究套路!
TAG:百邁客雲 |