當前位置:
首頁 > 最新 > LAI:評估基因組質量一個標準

LAI:評估基因組質量一個標準

裝的基因組越多,越對結果保持懷疑。我用Canu組裝PacBio,糾錯後reads錯誤率在0.035和0.040得到N50分別是4.2M和12.9M,這個差異讓我非常吃驚。

基因組組裝完成之後,就需要對最後的質量進行評估。我們希望得到的contig文件中,每個contig都能足夠的長,能夠有一個完整的基因結構,歸納一下就是3C原則:

連續性(Contiguity): 得到的contig要足夠的長

正確性(Correctness): 組裝的contig錯誤率要低

完整性(Completeness):儘可能包含整個原始序列

但是這三條原則其實是相互矛盾的,連續性越高,就意味著要處理更多的模糊節點,會導致整體錯誤率上升,為了保證完全的正確,那麼就會導致contig非常的零碎。此外,這三條原則也比較定性,我們需要更加定量的數值衡量,目前比較常用的標準是N50和BUSCO/CEGMA。

最近有一篇文章"Assessing genome assembly quality using the LTR Assembly Index (LAI) "提出用長末端重複序列來評估基因組完整度,因為LTR比較難以組裝,於是就用作評估結果的一個參數了。那問題來了,什麼是LTR序列,LTR是在原病毒(整合的反轉錄病毒)兩末的重複序列,結構見下圖

上圖中TSD表示target site duplications,紅色三角表示LTR motif。A圖是一個完整的LTR結構,其中a,b,c是 的分析目標。

LAI指數就是完整LTR反轉座子序列總LTR序列長度的比值。

其實作為一個農學出身,看到LAI,我腦海就想到了Leaf Area Index(葉面積指數)

本文以擬南芥的基因組為例來測試一下這個軟體

軟體安裝

要想保證軟體能夠順利的安裝,需要先安裝如下這幾個軟體, 好消息是這些軟體都可以通過bioconda解決

makeblastdb, blastn, blastx

cd-hit-est

hmmserch

RepeatMasker

然後從GitHub上下載軟體

進入 文件下修改paths文件,提供每個軟體所在的文件路徑,下面是我的配置,你需要按照實際所在路徑來設置

此外,你還需要安裝GenomeTools或者LTR_FINDER,或者MGEScan_LTR才能提取出LTR序列,我這裡下載的是

軟體使用

第一步讓我們用 找到基因組的LTR序列

這裡的-D表示5"和3"LTR之間的最大距離,-d表示5"和3"LTR之間的最小距離,-L表示5"和3"LTR序列的最大長度,-l表示5"和3"LTR序列的最小長度,-p表示完全匹配配對的最小長度,-C表示檢測中心粒(centriole)刪除高度重複區域,-M表示最小的LTR相似度。如果不怎麼該怎麼設置就用默認值。

第二步運行 根據 的輸出識別LTR-RT,生成非冗餘LTR-RT文庫,可用於基因組注釋

這裡的 表示輸入來自於 ,它支持同時輸入LTRharvest的輸出( )和 MGEScan-LTR 的輸出( ). 嫌速度太慢,可以用 增加線程數

這一步會調用RepeatMasker,而RepeatMasker要求序列ID長度不大於50個字元,所以請在第一步的時候請先對ID進行修改。

第三步計算LAI。如果前面找到LTR序列太少,低於5%,這一步程序就會報錯,那麼你就需要調整第一步參數,可能是太嚴格了。

Chr From To Intact Total raw_LAI LAI

whole_genome 1 119667750 0.0079 0.0612 12.88 14.47

那到底這個結果LAI是好還是壞呢?作者將LAI值按照如下評估標準進行分類:

和例子一樣,TAIR10是中等水平。

我分析了一個260M,PacBio裝出來的contig水平的基因組,運算時間大概是24h(12 線程),得到的值是0. 我很好奇這個值能不能是負,當然根據公式應該是不可能的,不過我覺得連LAI都運行不了的組裝結果應該就算是負的。。

參考文獻:

Ou S. and Jiang N. (2018). LTR_retriever: A Highly Accurate and Sensitive Program for Identification of Long Terminal Repeat Retrotransposons. Plant Physiol. 176(2): 1410-1422.

Ou S., Chen J. and Jiang N. (2018). Assessing genome assembly quality using the LTR Assembly Index (LAI). Nucleic Acids Res. gky730: https://doi.org/10.1093/nar/gky730


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 生信媛 的精彩文章:

開源人類基因解讀資料庫,了解一下

TAG:生信媛 |