當前位置:
首頁 > 最新 > MACARON:一個密碼子上存在多個變異,你注釋對了嗎?

MACARON:一個密碼子上存在多個變異,你注釋對了嗎?

微信公眾號:跳躍的密碼子。期待您的關注。

如有問題或建議,請公眾號留言

核苷酸多態性在人基因組中是普遍存在的,正常人的WGS中大約包括數百萬個SNP,WES中也存在數萬個SNP。在人基因組中,SNP之間的平均距離在1.2M左右,但部分SNP位點僅間隔數個鹼基甚至相鄰。

在臨床樣本的基因測序中,分析師拿到成千上萬的變異位點後,不可能進行一一排查,必須進行注釋及過濾縮小篩選範圍才能進行下一步分析。在遺傳病檢測過程中,一般根據疾病預期的遺傳方式、變異類型(synonymous、non-synonymous、stop gain/loss、splice等)、人群頻率、有害性預測等條件過濾變異位點。因此變異位點的注釋必須準確,否則會遺漏潛在致病性變異。

目前最常用的三種注釋工具是VEP、annovar和snpeff。這三種注釋工具都基於base-to-base的方法注釋SNP。此注釋方法能準確注釋大部分變異,卻有一個明顯的缺陷。如果兩個甚至三個SNP恰好位於一個密碼子上,上述注釋方法就無法正確處理了。

例圖中,CGA編碼Arg,如果該密碼子的1號鹼基C突變為A,3號鹼基A突變為C。如果兩個變異分別注釋,AGA和CGC都編碼Arg,兩個變異都為同義變異;如果兩個變異一起注釋,則為CGA>AGC,注釋結果為錯義變異。不言而喻,後一種注釋結果是正確的。在生信分析過程中,同義變異一般被過濾掉,這樣就可能遺漏了潛在的致病位點。

MACARON是一款基於linux系統運行的python軟體。運行該軟體前需要預裝GATK和snpeff。比較好的一點是MACARON以通用的vcf作為輸入文件。

MACARON的演算法主要有兩步:

根據vcf文件中變異位點的位置信息識別位於同一密碼子上的變異位點,然後校正錯誤的氨基酸注釋信息

讀取原始bam文件進行確認

573個WES樣本經calling共得到625,984個SNV位點。然後用MACARON進行下一步分析。MACARON在194個樣本中識別到114個受多個SNV影響的密碼子。114個密碼子中83個1號和2號鹼基發生變異,23個密碼子2號和3號鹼基變異,8個密碼子1號和3號鹼基變異,無1號、2號、3號鹼基同時變異的密碼子。根據筆者試用,這個數據嚴重偏低,單個外顯子樣本中即可找到約50個類似密碼子。3個鹼基同時變異的密碼子也時有見到。

總結

MACARON可以識別2個及3個鹼基同時發生變異的密碼子,並能給出正確的氨基酸變異注釋結果。但目前常用的資料庫,如dbsnp、gnomAD、1000g、ESP,都不包括類似變異。REVEL、SIFT、CADD等預測軟體也忽略了類似變異。在缺少人群頻率和有害性預測結果的情況下,如何判定此類變異的致病性還是一個問題。希望未來可以儘快解決這個問題。

結語

本文到此結束啦,歡迎關注公眾號,及時閱讀更文。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 跳躍的密碼子 的精彩文章:

TAG:跳躍的密碼子 |