如果只關心「變異」，會漏掉什麼？

最新 07-22

在臨床診斷實驗室中，對疑似遺傳疾病患者做基因檢測，大家的落腳點，往往在「變異」上。

什麼是變異呢？「變異」即個體和群體之間的差異。做法是將個體的序列，與人類公共參考基因組的序列進行比對，尋找到的mismatch，即錯配就是變異Variant，和參考基因組匹配的標為Reference,一般不會單獨去分析。

Reference是否就不用去關注呢

有一篇文章作者提到（在此特別感謝高勇博士和譚灝文博士提供的文獻和見解），有一些reference alleles具有臨床價值，人們往往會忽視這類位點，尤其是homozygous reference alleles更是需要重視。通過引入表型注釋，那些與疾病相對風險增加相關的alleles，應始終被描述為alternative alleles。

那麼，他為什麼要這麼提

在基因檢測分析時，往往要面對變異在對照人群或普通人群中的攜帶頻率，來幫助評估該變異的潛在致病性。通過大規模人群資料庫比如ExAC, gnomAD等的搜索，如果某個變異在某地區，比如東亞普通人群的頻率是0.01，顯著高於該地區某個疾病的發病率（比如0.00001），則該變異很可能不是導致此疾病的變異。

在查閱人群資料庫時，會發現許多變異位點的頻率很特殊，表現為reference的頻率低於同一位置的alternate的等位基因頻率。舉個例子，某個位點，有兩種鹼基T和C。T為ref，C為alt。但是如果去數C和T，發現T只有23，C有10540. Ref T被稱之為「minor reference alleles「。

這類位點有多少？作者以ExAC資料庫為基礎，發現最新的ExAC版本包含26,537個變異的reference allele頻率小於0.5（minor reference alleles）。這些變異中約1％（2763個變異）是罕見變異（AF

ExAC的數據是基於 GRCh37/hg19的結果，所以這個數字需要再去訂正：當參考基因組從GRCh37轉換到38時，有1214 個已知的variants修訂為reference。

OK。你會說，那我就注意

1 既然GRCh37留下坑，升級會修復這種問題，所以以後盡量用GRCh38。

2 在1的前提下，如果再遇到minor/rare reference alleles，即一旦ref的等位頻率佔了少數，那樣MAF指的不是alt的頻率而是ref的頻率，需要記得數字倒轉，以免張冠李戴，把MAF給算成了reference的頻率。

但僅僅考慮到這些是不夠的。因為只是做了alternate的AF的正確計算，如果不注意，反而會因為這一步計算導致信息丟失。

因為這類位點的AF值都比較大，很容易一開始，在人群頻率篩選中被過濾掉。所以留下來進行深入分析的可能性反而不大了。

比如作者通過Clinvar注釋，挑選與致病，可能致病，危險因子等關鍵詞的位點，發現從ExAC資料庫中提取的含minor reference alleles的SNP，有很多和疾病表型相關。

PMC5769444, Table 1部分

這些變異在人群資料庫中的allele frequency普遍大於0.5，超過疾病發生率的常規閾值，在疾病研究中，如果在測序樣本中出現這些位點，很容易在分析的初期就過濾掉了。

我們不能忽視這類位點

和表型相關的並不是alternate allele, 而是reference allele.

這裡以血栓相關的幾個SNP為例：

最經典的例子是Factor V的變異rs6025， c.1601G>A (p.Arg534Gln)，在以HG19為參考的基因組中，allele A是reference allele，也是致病變異。擁有的這種突變，使得Factor V不能與抗凝血蛋白正常結合，導致高凝狀態，即患者很容易形成血栓。這個變異是歐洲人中最常見的遺傳性高凝狀態（易患凝血）。它以荷蘭城市萊頓命名，1994年由R. Bertina教授等人首次發現（PMID 8164741）。

在人類參考基因組的GRCh38版本中，allele G屬於reference, A更正為alternate, 從而解決了minor reference alleles是致病的問題，因此，患者的AA基因型可以被更加容易的識別。然而另外的幾個變異，即使更新了人類基因組版本到最新，仍然是reference allele與疾病表型相關。

比如尿激酶型纖溶酶原激活物(PLAU) 基因中的變異10:75673101 T / C (rs2227564)， allele frequency在gnomAD為0.7525：

這個變異與冠狀動脈疾病患者的側支循環相關, 側支循環不良患者 (Rentrop 0-1; n = 547) 所攜帶的基因型TT，其頻率高於良側枝循環 (Rentrop 2-3; n = 129;P = 020)。變異 rs2227564 的reference T是minor reference allele, 在側支循環不良患者中比較常見(P =006)（PMID:24952395）。

比如有人通過研究NOS3 基因 rs1799983 多態性與老年人腦卒中後痴呆的相關性（PMID:20691505）發現，純合TT基因型, 而不是 GT 或 GG 基因型，是一個發展成為痴呆的重要因素。與 GG 基因型相比, TT 基因型增加了痴呆的風險;風險比為3.14 (95% 置信區間, 1.64-5. 99; p = 0.001)。

以上列舉的這些變異，並不會因為參考基因組從GRCh37到38的更新而改變其reference,即使目前很多人默認使用GRCh38作為參考，但是還有很多研究人員的分析流程，或者富集試劑盒採用老版本的參考基因組，尤其是面對大批量樣本的時候，要保證前後參照的統一性，更改資料庫勢必需要花費額外的成本。要想使得參考基因組都換作最新的，是需要一定時間來過渡的。

而且，大部分的功能相關的minor reference alleles即使出現了參考基因組的更新，到了新的基因組版本中還是minor reference alleles（PMC4416239）。

除了精力、成本、資料庫一致性，對於經典人類基因組版本，還是最新的參考基因組，分析的時候仍然面臨這個問題：如何尋找和疾病表型相關的reference allele.

其實並不好檢測，因為常規的變異流程是尋找「Variants」的，如果這種reference alleles是純合的，那麼分析工具不會觀察到這些位點與reference有任何差異；如果是雜合的，那麼會在過濾的時候往往又會被當成allele frequency大於預定義的閾值而被過濾掉。

為什麼reference alleles會和疾病相關？

人類基因組變異學會（HGVS）序列命名標準中，推薦的 reference序列是「a genomic reference sequencebased on a recent genome build」，即基於最近基因組構建的基因組的參考序列。reference等位基因使用「=」符號報告為「無變化」。但是，這些規則基於使用代表「正常」狀態的reference序列的假設。

而人參考基因組的序列是從主要來自歐洲的匿名個體的DNA集合中獲得的，參與者的臨床和表型信息未知。儘管在研究期間他們可能是健康的，但他們中的一些也可能是疾病風險等位基因的攜帶者。

目前的現狀是

臨床相關的reference地位比較尷尬：

ACMG指南也並未明確要求研究者評估或報告reference的位點。迄今為止，在高通量基因測序實驗中，沒有明確的鑒定reference變異的建議。

所以，這些具有臨床相關性的位點具有reference allele，不太可能會出現在基因測序報告裡面。

然而，忽視對純合致病性 reference的分析，造成的後果是，將導致不準確的風險確定和診斷，尤其是當在標準變異識別中看到「variant「即和參考序列不一致的信息時，導致過早的結論。

對於這些位點，應該如何處理呢？

如果將reference也作為變異來看，

多樣本：可以使用 reference-freeSNP detection策略，即測序多樣本之間直接進行基因型的比較，放棄從公共資料庫下載的人類基因組序列，來克服識別不了的 reference型變異的限制（PMC4083407）。

單樣本：可以換另外一個作者安利的軟體RAREVATOR（PMC4416239），僅用於評估罕見的變異，基於GATK的非常經典的Unified genotyper演算法。

經典 SNP 和 InDel 識別和 RAREVATOR 的變異識別方案。圖 a 和 b經典胚系和體細胞變異識別方案。圖c 和 d 是 RAREVATOR 的胚系和體細胞變異識別方案。RAREVATOR 利用 GATK Unified Genotyper來識別所有的Rare Reference Alleles位點, 並檢測含有reference allele的胚系和體細胞變異 (c 和 d)。

如果我們的眼界，僅僅是對參考基因組進行修飾，那麼會使得變異的注釋和共享變得尤其困難，因為需要增加額外的工作量來對不同的參照系的VCF執行標準化操作。

怎麼樣讓問題變得簡單？有針對性的識別是一種非常靈活的策略：可以利用針對所研究的具體問題來定製panel,比如基於具體的基因，或者基於人群的頻率。

基於人群頻率：minor reference alleles往來自於人群的特有的一些allele，如果用基於群體頻率的panel來定義變異，那麼等資料庫內容更新的時候，panel 也會得到更新。而且，對於homozygous reference的置信度，可以利用測序的質量，讀段的深度，基因型質量等來估計。

基於具體的基因：可以研究候選基因中的變異，或者與表型具有生物學相關性的基因。過濾時可以利用氨基酸的保守型信息：前人已經證明，非祖先次等位基因往往具有功能性（PMC3071924）。非致病性alternative alleles傾向於提供保守氨基酸，而 reference（疾病相關）等位基因傾向於與近緣物種不同的氨基酸。

也就是說，對於這些位點，要和其他的變異區別對待，這樣可以一定程度上減少工作量，用來分析和更新會更加方便。

人類基因組的更新又需要注意什麼問題

到目前為止，發現與疾病相關的遺傳變異，可以說是人類基因組的最大的功勞。在定義什麼是reference的時候，建議考慮到臨床效用，比如通過引入表型注釋，那些與疾病相對風險增加相關的alleles，應始終被描述為alternative alleles。

在人類基因組中，一些複雜區域仍然難以作為所有人群的reference。尋找定義最佳 reference allele的共識，將極大地幫助改進對更新的人類基因組的minor reference alleles校正。

關於什麼是reference, 還應該考慮到多個層面的證據：

例如，有人發現，疾病相關的allele多為次等位和衍生（PMC3017004）；儘管如此，有人認為allele frequencies應該更多的去考慮人口歷史和血統（doi:10.4172/2469-9853.S1-008）；從進化的角度看，一個major ancestral allele，或者說在祖先種群中具有更高頻率的allele將是reference的最好的選擇。比如有很多在非洲發生的突變，其頻率通過非非洲人的定向選擇而上升，而非洲人則保持低水平。因此，以祖先基因組作為基準被認為是重要的。

總結

純合 reference變異的鑒定和報告可具有臨床價值。

在這些位點中，純合的alternative變異傾向於代表非致病性等位基因，通常被忽視的純合 reference等位基因可能具有直接的臨床意義。

這些變異應該通過修改現有識別策略來尋找和評估，特別是在單樣本外顯子組和全基因組的分析。

作為一種長期解決方案，在以後的人類基因組更新時，需要對人類基因組中的「reference等位基因」狀態進行後果定義。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 一起算基因 的精彩文章:

TAG:一起算基因 |

如果只關心「變異」，會漏掉什麼？

一氧化氮合成酶3（NOS3）變異 rs1799983 （NM_000603.4(NOS3): c.894T>G (p.Asp298Glu)，T是minor reference allele。這個變異往往和與冠狀動脈痙攣、缺血性心臟病、缺血性中風和頑固性高血壓有關（OMIM entry：163729）。