如果只關心「變異」,會漏掉什麼?
在臨床診斷實驗室中,對疑似遺傳疾病患者做基因檢測,大家的落腳點,往往在「變異」上。
什麼是變異呢?「變異」即個體和群體之間的差異。做法是將個體的序列,與人類公共參考基因組的序列進行比對,尋找到的mismatch,即錯配就是變異Variant,和參考基因組匹配的標為Reference,一般不會單獨去分析。
Reference是否就不用去關注呢
有一篇文章作者提到(在此特別感謝高勇博士和譚灝文博士提供的文獻和見解),有一些reference alleles具有臨床價值,人們往往會忽視這類位點,尤其是homozygous reference alleles更是需要重視。通過引入表型注釋,那些與疾病相對風險增加相關的alleles,應始終被描述為alternative alleles。
那麼,他為什麼要這麼提
在基因檢測分析時,往往要面對變異在對照人群或普通人群中的攜帶頻率,來幫助評估該變異的潛在致病性。通過大規模人群資料庫比如ExAC, gnomAD等的搜索,如果某個變異在某地區,比如東亞普通人群的頻率是0.01,顯著高於該地區某個疾病的發病率(比如0.00001),則該變異很可能不是導致此疾病的變異。
在查閱人群資料庫時,會發現許多變異位點的頻率很特殊,表現為reference的頻率低於同一位置的alternate的等位基因頻率。舉個例子,某個位點,有兩種鹼基T和C。T為ref,C為alt。但是如果去數C和T,發現T只有23,C有10540. Ref T被稱之為「minor reference alleles「。
這類位點有多少?作者以ExAC資料庫為基礎,發現最新的ExAC版本包含26,537個變異的reference allele頻率小於0.5(minor reference alleles)。 這些變異中約1%(2763個變異)是罕見變異(AF
ExAC的數據是基於 GRCh37/hg19的結果,所以這個數字需要再去訂正:當參考基因組從GRCh37轉換到38時,有1214 個已知的variants修訂為reference。
OK。你會說,那我就注意
1 既然GRCh37留下坑,升級會修復這種問題,所以以後盡量用GRCh38。
2 在1的前提下,如果再遇到minor/rare reference alleles,即一旦ref的等位頻率佔了少數,那樣MAF指的不是alt的頻率而是ref的頻率,需要記得數字倒轉,以免張冠李戴,把MAF給算成了reference的頻率。
但僅僅考慮到這些是不夠的。因為只是做了alternate的AF的正確計算,如果不注意,反而會因為這一步計算導致信息丟失。
因為這類位點的AF值都比較大,很容易一開始,在人群頻率篩選中被過濾掉。所以留下來進行深入分析的可能性反而不大了。
比如作者通過Clinvar注釋,挑選與致病,可能致病,危險因子等關鍵詞的位點,發現從ExAC資料庫中提取的含minor reference alleles的SNP, 有很多和疾病表型相關。
PMC5769444, Table 1部分
這些變異在人群資料庫中的allele frequency普遍大於0.5,超過疾病發生率的常規閾值,在疾病研究中,如果在測序樣本中出現這些位點,很容易在分析的初期就過濾掉了。
我們不能忽視這類位點
和表型相關的並不是alternate allele, 而是reference allele.
這裡以血栓相關的幾個SNP為例:
最經典的例子是Factor V的變異rs6025, c.1601G>A (p.Arg534Gln),在以HG19為參考的基因組中,allele A是reference allele,也是致病變異。擁有的這種突變,使得Factor V不能與抗凝血蛋白正常結合,導致高凝狀態,即患者很容易形成血栓。這個變異是歐洲人中最常見的遺傳性高凝狀態(易患凝血)。它以荷蘭城市萊頓命名,1994年由R. Bertina教授等人首次發現(PMID 8164741)。
在人類參考基因組的GRCh38版本中,allele G屬於reference, A更正為alternate, 從而解決了minor reference alleles是致病的問題,因此,患者的AA基因型可以被更加容易的識別。然而另外的幾個變異,即使更新了人類基因組版本到最新,仍然是reference allele與疾病表型相關。
比如尿激酶型纖溶酶原激活物(PLAU) 基因中的變異10:75673101 T / C (rs2227564), allele frequency在gnomAD為0.7525:
這個變異與冠狀動脈疾病患者的側支循環相關, 側支循環不良患者 (Rentrop 0-1; n = 547) 所攜帶的基因型TT,其頻率高於良側枝循環 (Rentrop 2-3; n = 129;P = 020)。變異 rs2227564 的reference T是minor reference allele, 在側支循環不良患者中比較常見(P =006)(PMID:24952395)。
一氧化氮合成酶3(NOS3)變異 rs1799983 (NM_000603.4(NOS3): c.894T>G (p.Asp298Glu),T是minor reference allele。這個變異往往和與冠狀動脈痙攣、缺血性心臟病、缺血性中風和頑固性高血壓有關(OMIM entry:163729)。
比如有人通過研究NOS3 基因 rs1799983 多態性與老年人腦卒中後痴呆的相關性(PMID:20691505)發現,純合TT基因型, 而不是 GT 或 GG 基因型,是一個發展成為痴呆的重要因素。與 GG 基因型相比, TT 基因型增加了痴呆的風險;風險比為3.14 (95% 置信區間, 1.64-5. 99; p = 0.001)。
以上列舉的這些變異,並不會因為參考基因組從GRCh37到38的更新而改變其reference,即使目前很多人默認使用GRCh38作為參考,但是還有很多研究人員的分析流程,或者富集試劑盒採用老版本的參考基因組,尤其是面對大批量樣本的時候,要保證前後參照的統一性,更改資料庫勢必需要花費額外的成本。要想使得參考基因組都換作最新的,是需要一定時間來過渡的。
而且,大部分的功能相關的minor reference alleles即使出現了參考基因組的更新, 到了新的基因組版本中還是minor reference alleles(PMC4416239)。
除了精力、成本、資料庫一致性,對於經典人類基因組版本,還是最新的參考基因組,分析的時候仍然面臨這個問題:如何尋找和疾病表型相關的reference allele.
其實並不好檢測,因為常規的變異流程是尋找「Variants」的,如果這種reference alleles是純合的,那麼分析工具不會觀察到這些位點與reference有任何差異;如果是雜合的,那麼會在過濾的時候往往又會被當成allele frequency大於預定義的閾值而被過濾掉。
為什麼reference alleles會和疾病相關?
人類基因組變異學會(HGVS)序列命名標準中,推薦的 reference序列是「a genomic reference sequencebased on a recent genome build」,即基於最近基因組構建的基因組的參考序列。reference等位基因使用「=」符號報告為「無變化」。但是,這些規則基於使用代表「正常」狀態的reference序列的假設。
而人參考基因組的序列是從主要來自歐洲的匿名個體的DNA集合中獲得的,參與者的臨床和表型信息未知。儘管在研究期間他們可能是健康的,但他們中的一些也可能是疾病風險等位基因的攜帶者。
目前的現狀是
臨床相關的reference地位比較尷尬:
ACMG指南也並未明確要求研究者評估或報告reference的位點。迄今為止,在高通量基因測序實驗中,沒有明確的鑒定reference變異的建議。
所以,這些具有臨床 相關性的位點具有reference allele,不太可能會出現在基因測序報告裡面。
然而,忽視對純合致病性 reference的分析,造成的後果是,將導致不準確的風險確定和診斷,尤其是當在標準變異識別中看到「variant「即和參考序列不一致的信息時,導致過早的結論。
對於這些位點,應該如何處理呢?
如果將reference也作為變異來看,
多樣本: 可以使用 reference-freeSNP detection策略,即測序多樣本之間直接進行基因型的比較,放棄從公共資料庫下載的人類基因組序列,來克服識別不了的 reference型變異的限制(PMC4083407)。
單樣本:可以換另外一個作者安利的軟體RAREVATOR(PMC4416239),僅用於評估罕見的變異,基於GATK的非常經典的Unified genotyper演算法。
經典 SNP 和 InDel 識別和 RAREVATOR 的變異識別方案。圖 a 和 b經典胚系和體細胞變異識別方案。圖c 和 d 是 RAREVATOR 的胚系和體細胞變異識別方案。RAREVATOR 利用 GATK Unified Genotyper來識別所有的Rare Reference Alleles位點, 並檢測含有reference allele的胚系和體細胞變異 (c 和 d)。
如果我們的眼界,僅僅是對參考基因組進行修飾,那麼會使得變異的注釋和共享變得尤其困難,因為需要增加額外的工作量來對不同的參照系的VCF執行標準化操作。
怎麼樣讓問題變得簡單?有針對性的識別是一種非常靈活的策略:可以利用針對所研究的具體問題來定製panel,比如基於具體的基因,或者基於人群的頻率。
基於人群頻率:minor reference alleles往來自於人群的特有的一些allele,如果用基於群體頻率的panel來定義變異,那麼等資料庫內容更新的時候,panel 也會得到更新。而且,對於homozygous reference的置信度,可以利用測序的質量,讀段的深度,基因型質量等來估計。
基於具體的基因:可以研究候選基因中的變異,或者與表型具有生物學相關性的基因。過濾時可以利用氨基酸的保守型信息:前人已經證明,非祖先次等位基因往往具有功能性(PMC3071924)。 非致病性alternative alleles傾向於提供保守氨基酸,而 reference(疾病相關)等位基因傾向於與近緣物種不同的氨基酸。
也就是說,對於這些位點,要和其他的變異區別對待,這樣可以一定程度上減少工作量,用來分析和更新會更加方便。
人類基因組的更新又需要注意什麼問題
到目前為止,發現與疾病相關的遺傳變異,可以說是人類基因組的最大的功勞。 在定義什麼是reference的時候,建議考慮到臨床效用,比如通過引入表型注釋,那些與疾病相對風險增加相關的alleles,應始終被描述為alternative alleles。
在人類基因組中,一些複雜區域仍然難以作為所有人群的reference。 尋找定義最佳 reference allele的共識,將極大地幫助改進對更新的人類基因組的minor reference alleles校正。
關於什麼是reference, 還應該考慮到多個層面的證據:
例如,有人發現,疾病相關的allele多為次等位和衍生(PMC3017004);儘管如此,有人認為allele frequencies應該更多的去考慮人口歷史和血統(doi:10.4172/2469-9853.S1-008);從進化的角度看,一個major ancestral allele,或者說在祖先種群中具有更高頻率的allele將是reference的最好的選擇。比如有很多在非洲發生的突變,其頻率通過非非洲人的定向選擇而上升,而非洲人則保持低水平。 因此,以祖先基因組作為基準被認為是重要的。
總結
純合 reference變異的鑒定和報告可具有臨床價值。
在這些位點中,純合的alternative變異傾向於代表非致病性等位基因,通常被忽視的純合 reference等位基因可能具有直接的臨床意義。
這些變異應該通過修改現有識別策略來尋找和評估,特別是在單樣本外顯子組和全基因組的分析。
作為一種長期解決方案,在以後的人類基因組更新時,需要對人類基因組中的「reference等位基因」狀態進行後果定義。
TAG:一起算基因 |