拷貝數變異CNV檢測-Freec
大家好,今天給大家介紹的是拷貝數變異的檢測。拷貝數變異(Copy number variation, CNV)是由基因組發生重排而導致的, 一般長度在1kb以上。對於CNV檢測,有很多軟體,比如cnvnator、freec、cnvkit等,每個軟體都有各自的優勢和不足,今天我主要介紹一下Freec(最近在做cnv軟體測試,這個已經結束,就先寫了)。
對於Freec的安裝,可以參考http://boevalab.com/FREEC/tutorial.html#install,這裡就不多說了,如果有什麼問題可以直接留言,下面主要介紹分析流程。
準備config配置文件:
對於Freec軟體,只需要一個config文件就可以搞定變異檢測,在變異檢測前,需要設定一下參數。
#chrLenFile:保存有各染色體長度信息的文件(第一列:染色體編號;第二列:染色體長度)
#chrFiles:基因組序列保存位置,如果使用一個基因組文件報錯的話,需要拆分染色體,拆分後的文件名為染色體編號.fa
#mateFile:需要call變異的bam文件
#mateOrientation:制定bam文件格式,常用的illumina雙端測序為FR,單端測序為0,如果給定的bam文件是排序之後的,該參數設置為0即可。
變異檢測流程:
config文件設置完成後就可以進行cnv變異檢測,執行如下命令:
/lustre/02.software/02.cnv/FREEC-11.4/src/freec-conf config.txt &
結果解讀:
輸出文件:
#第一列為染色體編號
#第二列是起始位置
#第三列是終止位置
#第四列是變異個數
#第五列是變異類型,gain為duplication,loss為deletion
注意:起始位置和終止位置只是範圍值,其範圍大小為config文件中設置的window大小,在此為50000
有一點需要特別注意:
選取window和breakPointThreshold是應該注意,兩個參數越小,call出來的變異越多;對於window參數,在cal變異之前,會對比對的depth進行統計,之後計算基因組每個window的GC含量,根據該GC含量對測序數據進行標準化,以此來確定變異準確度,對於基因組上的同一個片段,在不同window下GC含量差異很大(如測試時同一位點範圍從35-41%不等),導致變異數目差別很大,在實際使用中,需要考量這兩個參數,以期獲得最佳的變異結果。
今天就到這裡了,過幾天介紹一下cnvnator檢測cnv變異的流程及注意事項,歡迎圍觀。
TAG:BioInformatic |