當前位置:
首頁 > 最新 > lncRNA鑒定專題-樣本和測序要求

lncRNA鑒定專題-樣本和測序要求

lncRNA測序採用 Illumina HiSeq 平台進行測序,針對有參考基因組樣本開展準確的 lncRNA 鑒定和 lncRNA 靶基因預測,同時提供針對測序數據中 mRNA 的分析,結果更全面,廣泛應用於醫學、農學研究領域。技術路線

樣本要求

lncRNA鑒定1.文件準備下載參考基因組及gtf文件,或者自己組裝的也可以使用準備cDNA或mRNA序列,如有lncRNA序列也可直接使用2.比對基因組軟體:RWA,Tophat,Hisat2每個樣本的測序數據mapping到基因組3.轉錄本組裝這裡可以選擇cufflink或者Stringtie,重點推薦Stringtie。Stringtie能夠拼接處更完整、更準確的基因,並且Stringtie採用拼接和定量同步運行,相對於其他方法,其定量結果更準確根據評測,對於從人類血液中獲得的reads,Stringtie正確組裝了10,990個轉錄本,而Cufflinks只組裝了7,187個。對於模擬的數據集,Stringtie正確組裝了7,559個轉錄本,比Cufflinks的6,310個提高了20%。此外,它的運行速度也比其他組裝軟體更快4.轉錄本合併方法:可使用cuffmerge,Stringtie merge,TACO三個軟體合併所有gtf文件。而當樣本數目急劇增加時,合併得到的轉錄本數目會增加,假陽性率也會隨之升高。這裡推薦NATmethods最新發表的軟體TACO來進行大樣本gtf文件的整合說明:當樣本較少的時候,三種軟體整合出的基因亞型相差不大。如果樣本數目大於50時,cuffmerge和Stringtie在固定的區域 會整合出長的假的嵌合體和較多的亞型,而TACO結果則保持一致的基因亞型5.lncRNA過濾a.可選步驟根據blast結果過濾與已知lncRNA大於0.9相似的轉錄本Nr,Pfam,Dfam,animal/plant nc database都可以進行blast比對來進一步過濾ORF長度預測,一般過濾大於50AA的轉錄本b.軟體特有步驟Cufflink結果中可選擇class-code為「i,j,u,o」的轉錄本作為保留Stringtie和TACO結果根據位置關係過濾掉與已知轉錄本位置和方向重合的轉錄本,保留反義轉錄本c.必備步驟過濾exon小於2,長度小於200bp,FPKM小於1的轉錄本分別用CPC,CNCI,PfamScan三個軟體來對進行編碼潛能預測,保留非編碼轉錄本d.三大主流網站CNC:https://github.com/www-bioinfo-org/CNCI鑒定標準:CPC_threshold = 0,大於0的轉錄本為mRNA,小於0的為lncRNA;CNCI_threshold = 0,大於0的轉錄本為mRNA,小於0的為lncRNA;PfamScan:比對上Pfam蛋白資料庫的為mRNA,沒有比對上的為lncRNA;注意:cpc和PfamScan需要先建立蛋白參考資料庫,cpc可以下載Uniprot/swissprot蛋白序列;PfamScan輸入的是蛋白序列,可以由cpc的預測結果得出。

參考資料基因幫:lncRNA研究思路與方法

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 生信菜鳥團 的精彩文章:

Igblast的安裝與使用

TAG:生信菜鳥團 |