每日小竅門:如何去除Read中的污染的Bacteria序列?
最新
07-22
最近做的一個項目中,Read有很多的污染(Contamination)序列。通過獲取部分read(100,000 reads)數據進行測試,我們發現污染序列大部分是來源於Bacteria。我們的方案是先把Bacteria污染的Read去掉,然後在進行下面的分析。
所以我們準備直接使用Bowtie2將read 比對到細菌基因組上,然後獲取Unmapped reads進行下游分析。
通過搜索NCBI,我們發現在NCBI中目前有10,194個對應的基因組序列。使用wget下載對應的序列後(大約需要18個小時)。對應的序列共有40G的數據(玉米基因組大小大約為2.2G)。另外我們的Read序列也比較多。如果採取將read比對至這些序列的話,那麼消耗的時間將會很大。
所以我們最後決定先從每個樣本中去除100,000 read將其比對至nt 資料庫,我們使用的比對工具是:magic-BLAST。 然後通過使用blastcmd獲得對應比對到的序列的物種。接著我們對這些物種計數,取出至少有100個read mapping的細菌物種。然後下載這些物種的基因組信息,合併後建立資料庫。然後將Read比對至這些序列,獲得Unmapped read 後進行下游分析。
後面我們會詳細講一下如何使用Magic-BLAST進行比對,然後進行獲得對應的物種信息。然後又如何使用ncbi-genome-download來下載對應的基因組序列。
※如果想 我可以給失敗找一百種理由
※「明修棧道,暗度陳倉。」
TAG:全球大搜羅 |