bcftools csq分析基因突變對蛋白水平的影響
歡迎關注"生信修鍊手冊"!
命令可以分析SNP位點在基因組上的位置,同時還會預測基因突變對編碼蛋白的影響。
和其他預測基因突變對蛋白質影響的軟體不同,bcftools 將基因組劃分為不同的獨立區域(和單倍型區域概念類似),在分析蛋白質變化時,會綜合考慮該區域內的所有突變位點,示意圖如下
在圖中,該區域包含兩個SNP位點,如果單獨考慮每個位點,只能預測到氨基酸替換,由精氨酸替換為色氨酸或者谷氨醯胺, 綜合考慮兩個SNP位點時,對應的DNA序列變成了一個終止密碼子,蛋白質長度都發生了變化。
在圖中,該區域包含了2個indel 位點,單獨考慮每個indel位點時,都是發生了移碼突變,氨基酸長度發生了變化,綜合考慮兩個SNP位點時,氨基酸變化和單獨分析一個位點時,又大不一樣。
在圖中,兩個SNP位點發生在剪切位點兩側,單獨考慮每個SNP位點,氨基酸由天冬氨酸替換為天冬醯胺或者谷氨酸,綜合考慮兩個突變位點時,氨基酸由天冬醯胺替換成賴氨酸。
從示意圖可以發現,單獨考慮每個SNP位點對於蛋白質的影響,其結果是有偏差的,只有綜合考慮鄰近範圍內所有的突變位點,預測到的蛋白質變化結果才更加可靠。
csq 運行命令如下
參數指定參考基因組的fasta文件,參數指定參考基因組的gff3文件,為輸入的VCF文件,為輸出文件。
輸出文件的格式也是VCF格式,會在列中新增一個欄位,用來描述突變位點在基因組上的位置和蛋白質序列的變化,示例如下
BCSQ的信息由多個欄位構成,中間用連接,包含以下欄位
consequence type
基因突變對蛋白影響的類型,包括, , 等類型
gene
基因名稱
transcript
轉錄本名稱
biotype
基因類型
strand
正負鏈信息
amino acid positon
氨基酸的位置
variants list
預測氨基酸變化時,考慮的突變位點的集合
由於bcftools是綜合考慮多個突變位點對蛋白質的共同作用,在實際分析時,應該儘可能的過濾掉假陽性的突變位點,然後再分析蛋白水平的影響,這樣的分析結果,可信度會更高。
TAG:生信修鍊手冊 |