當前位置:
首頁 > 最新 > 「垃圾」DNA究竟是垃圾還是寶藏

「垃圾」DNA究竟是垃圾還是寶藏

自DNA被發現以來就一直被譽為「生命天書」,對這本無字天書的完全解讀也成為了無數科學家畢生追求的夢想。但隨著人們對書中內容不斷探索,卻意外發現那些影響我們高矮胖瘦、生老病死等關鍵信息的基因只佔基因組DNA的極少部分,而絕大部分看似不會編碼蛋白質的DNA,有的人形容它們為「垃圾」DNA。但這個充滿功利性的命名也就此引起了一場愈演愈烈的討論。最近在《Cell》上發表的一篇重磅文章[1],不僅將「『垃圾』DNA究竟是基因組垃圾堆還是珍貴的寶藏」這個議題拉回大眾視野,而且也隱隱預示著一場盛大的「淘金運動」正悄然進行。

「垃圾」DNA的前世今生

19世紀60年代,孟德爾(Gregor Mendel)通過實驗預示了基因的存在。隨後分別於1869年和1944年,DNA被首次提取和證明為構成基因的基礎物質。DNA即脫氧核糖核酸,而基因則是具有遺傳效應的特定DNA序列,通俗地講,基因就是一段編碼某種蛋白質的DNA。

到了20世紀60年代後期,越來越多人發現,真核生物的DNA包含了數量龐大的重複DNA,而且這些DNA似乎並不會編碼蛋白質。1972年,大野 乾(Susumu Ohno)正式將基因組中的非編碼DNA命名為「垃圾」DNA。這個充滿負面情感的名字也充分體現了當時科學家對於這些非編碼DNA的看法,人們甚至認為這些序列沒有積極功能,只是一些自私的DNA序列並熱衷於自我擴張,這一理念也在1989年隨著道金斯(Richard Dawkins)成名作《自私的基因》的大賣而廣為人知。

眾人皆醉我獨醒,在大部分人都將「垃圾」DNA棄如敝履的時候,那些獨具慧眼的人總能從「垃圾堆」中發現何氏之璧,隋侯之珠。經過這些科學家孜孜不倦地探索,從20世紀90年代初開始,人們對於「垃圾」DNA的看法才慢慢有了轉變。在完成了「人類基因組計劃(HGP)」的草圖之後,科學家發現人類基因只有2-3萬個左右,占基因組總長度僅約1%,而剩餘的99%均為非編碼DNA,也就是人們通常所說的「垃圾」DNA。這99%的「垃圾」DNA猶如斯芬克斯之謎一樣一直困擾著人們。直到2012年,一項名為「DNA元件百科全書(Encyclopedia of DNA Elements,ENCODE)」的項目[2]接連用多篇科學論文向人們宣布,在人類基因組中超過80%的DNA都是有功能的!從此,人們更加相信「垃圾都是放錯地方的資源」,只是我們沒有全面了解「垃圾」DNA起作用的真正方式,並紛紛開始嘗試挖掘「垃圾堆」中被掩藏的瑰寶。

「垃圾」DNA——有待發掘的寶藏

所謂的「垃圾」DNA其實是個相當籠統的稱呼,它的真實內涵十分豐富,包括了非編碼的功能RNA、順式/反式調控元件、內含子、假基因、端粒、中心粒以及含量最多的轉座子和串聯重複序列等。隨著人們逐步深入地探索,也發現了它們各不相同的真實功能。

目前關於「垃圾」DNA的研究,主要分成兩大方向,一個方向主要是關注「垃圾」DNA的各種特殊功能及其對生理進程的影響。

1

「垃圾」DNA中可能潛藏癌症病原[3]

隨著測序成本直線下降,極大地促進了個人基因組測序的發展。要從海量DNA變異數據中篩選出有用信息是一項意義重大的挑戰,尤其是在癌症基因組中,許多的關鍵DNA變異體更是處在非編碼的「垃圾」DNA區域。研究人員通過結合「千人基因組項目(the 1000 Genomes Project)」和ENCODE的數據,開發出一套分析流程,並成功鑒定了那些隱藏在「垃圾」DNA中可能導致癌症發生的DNA變異體。

2

「垃圾」DNA還能決定你的盛世美顏[4]

人臉的外形是人類最顯著的特徵之一,面部形態的差異在社會互動、心理學、法醫和臨床遺傳學等領域都有著重要的意義。顱面部形狀是高度遺傳的,包括形態變異的正常譜以及主要顱面部出生缺陷的易感性。有研究者利用染色質免疫共沉澱技術及測序技術對小鼠胚胎面部組織的發育過程進行研究,探討了轉錄增強子在顱面部複合體發育中的作用。這種增強子可以在距離其靶基因數百kb的地方,遠距離調控靶基因表達的空間模式、水平和時間。

Fig.1 顱面發育增強子對顱面形態有一定的作用

3

「垃圾」DNA通過編碼lncRNA參與調控抑制致癌基因[5]

「垃圾」DNA編碼產生的長非編碼RNA(IncRNAs)具有調節基因表達的作用。研究者使用多個小干擾RNA(siRNAs)來沉默GNG12-AS1基因表達。研究發現,當大多數siRNAs沉默GNG12-AS1轉錄後,siRNA互補於GNG12-AS1的第一個外顯子抑制其轉錄。在轉錄過程中,GNG12-AS1的沉默會引起DIAS3(抑瘤因子)的上調,證明其在轉錄干擾中的作用。

Fig.2 siRNA抑制轉錄干擾

4

「垃圾」DNA成員LTR被異常激活會觸發原癌基因[6]

哺乳動物基因組中包含大量重複序列,其中長末端重複(long terminal repeats,LTRs)一直以來都被認為可能與腫瘤發生有關。這篇文章表明LTRs的脫抑制化作用與人類淋巴瘤的發病機制有關,這一發現具有十分重要的診斷、預警和治療意義。

5

「垃圾」DNA編碼的microRNA能促進胚胎髮育[7]

嚴格控制內胚層、中胚層和外胚層的分離對於所有物種的正常胚胎髮育都至關重要。研究者通過對全基因組microRNA文庫進行系統性掃描,發現其中兩個microRNA家族會以犧牲內胚層為代價促進中胚層的生長,這意味著「垃圾」DNA編碼的microRNA在胚層規劃中具有十分關鍵的作用。

6

「垃圾」DNA是一種精心設計的基因表達控制機制[8]

人們普遍認為內含子保留(Intron Retention,IR)是由於信使RNA前體錯誤剪切內含子序列導致的。研究者通過對轉錄組和蛋白質組的數據進行生物信息學分析,發現在正常血液白細胞分化的過程中,內含子保留其實是一種通過觸發無義介導的衰變途徑(nonsense-mediated decay,NMD pathway)進行基因表達控制的生理機制。

7

「垃圾」DNA可能改變基因的剪切方式[9]

為了更深入了解基因的剪切調控機制,研究者通過一種基於細胞的篩選方法,從內含子中鑒定了10個能抑制剪切的不同模體結構。所有模體結構都表現出了外顯子剪切增強或沉默的活性,依據它們的分布進一步將其進行分組分析,最後發現分組產生的集群具有明顯的內容依賴(context-dependent)作用模式。

8

「垃圾」DNA影響表觀遺傳的穩定性

這篇文章深入闡釋了人類基因組中的「垃圾」DNA之一,HSATII(high-copy satellite II)可以結合併影響核染色質調控蛋白的分布,這往往導致癌症的發生[10]。

另外,DNA甲基化精密地調控基因組織特異性表達及關鍵的生物進程。然而,缺乏可靠手段檢測基因組中龐大的DNA甲基化信息成為系統分析其功能的一大阻礙。另一篇文章的研究者通過利用一個深度學習模型網路研究DNA甲基化的調控編碼規則,並利用此網路預測序列變異對CpG附近位置DNA甲基化的影響[11]。

由此可見,另一個方向的主要關注點則是如何快速高效獲取「垃圾」DNA序列信息,編碼規則和預測模式等結構意義上的研究。

9

「垃圾」DNA可能形成具有轉錄活性的功能基因

研究者通過「蛋白-轉錄組」方法(proteo-transcriptomics approach)結合RNA測序及蛋白組學數據,證明大量的Alu外顯子具有轉錄活性,且能產生靈長目特異,甚至人類特異的亞型蛋白,揭示了「垃圾」DNA參與基因異構體(isoforms)形成的潛在機制[12]。

另一篇綜述文章則著重討論了近幾年關於新出現基因的鑒定和驗證等問題,並預測該領域將來的研究方向可能集中在新蛋白編碼基因的功能、結構解析以及其出現機制等[13]。

Fig.3 蛋白質組學Ribo-seq數據證明

Alu-外顯子能夠編碼蛋白質

10

高速發展的測序技術結合多種研究方法助推「垃圾」DNA的深入探索

研究者提出,結合基因組和轉錄組數據能有效促進孟德爾疾病遺傳機理的研究。另外,許多研究已表明,「垃圾」DNA會參與轉錄剪切和調控進程,因此作者也提醒,在分析相關內容時,一定要注意研究對象的生長時期,以及微小的調控效應,這些因素可能會對研究結果產生明顯的影響[14]。正如本文最開始提及的那篇重磅《Cell》文章所描述的,「垃圾」DNA代表之一的LINE1基因會在小鼠胚胎早期發育過程中的胚胎幹細胞有高表達,這一特殊時期的奇異現象引起了研究者的重視,才誕生了這篇意義重大的文章,同時也為「垃圾」DNA的正名提供了強有力的證據。「垃圾」DNA不僅不是垃圾,相反它是生命體不可或缺的重要部分,假如沒有LINE1序列,受精卵將永遠停留在兩細胞的狀態,無法完成複雜的生長分化過程[1]。

另一篇文章利用第二代測序技術鑒定了與神經系統疾病相關的「垃圾」DNA變異體。了解神經發育和神經精神障礙的遺傳因素是醫學研究的一個主要的挑戰[15]。雖然大規模的基因組測序在這一領域取得了重大進展,但對許多疾病來說,其遺傳基礎仍是十分複雜且知之甚少的秘密,特別是對於占基因組絕大部分的「垃圾」DNA區域,其結構複雜、重複率高等特點都嚴重阻礙了二代測序對該區域DNA有效信息的獲取和利用。

隨著第三代測序的不斷發展,測序通量不斷提高,測序錯誤率不斷下降,擁有超長讀長、有效覆蓋重複序列、無GC偏好性且能直接檢測DNA甲基化等諸多優點的第三代測序技術簡直就是解決這一難題的完美工具,相信已經有許多研究者正著手利用這些新興技術攻克圍繞「垃圾」DNA的各種難關。如果說第一代測序和第二代測序催生了以「人類基因組計劃」為代表的基因挖掘運動,那麼第三代測序所推動的將是一場涉及多技術共同協作,規模空前盛大的「淘金運動」。

未來組擁有PacBio SMRT、Oxford Nanopore、BioNano光學圖譜及Hi-C染色體構象捕獲等技術和平台,並於2016年完成了首個基於三代測序的亞洲人基因組「華夏一號」,擁有豐富的三代測序項目經驗,三代研究文章已有多篇發表於國際知名期刊。在承諾高標準交付指標的同時,未來組將進一步大幅壓縮項目服務周期,為合作夥伴提供優質專業的服務。

參考文獻

[1] Percharde M, Lin C J, Yin Y, et al. ALINE1-Nucleolin Partnership Regulates Early Development and ESC Identity[J].Cell, 2018.

[2] https://www.encodeproject.org/

[3] Khurana E, Fu Y, Colonna V, et al.Integrative annotation of variants from 1092 humans: application to cancergenomics[J]. Science, 2013, 342(6154): 1235587.

[4] Attanasio C, Nord A S, Zhu Y, et al. Finetuning of craniofacial morphology by distant-acting enhancers[J]. Science,2013, 342(6157): 1241006.

[5] Stojic L, Niemczyk M, Orjalo A, et al.Transcriptional silencing of long noncoding RNA GNG12-AS1 uncouples its transcriptionaland product-related functions[J]. Nature communications, 2016, 7: 10406.

[6] Lamprecht B, Walter K, Kreher S, et al.Derepression of an endogenous long terminal repeat activates the CSF1Rproto-oncogene in human lymphoma[J]. Nature medicine, 2010, 16(5): 571.

[7] Colas A R, McKeithan W L, Cunningham T J,et al. Whole-genome microRNA screening identifies let-7 and mir-18 asregulators of germ layer formation during early embryogenesis[J]. Genes &development, 2012.

[8] Wong J J L, Ritchie W, Ebner O A, et al.Orchestrated intron retention regulates normal granulocyte differentiation[J].Cell, 2013, 154(3): 583-595.

[9] Wang Y, Xiao X, Zhang J, et al. A complexnetwork of factors with overlapping affinities represses splicing throughintronic elements[J]. Nature structural & molecular biology, 2013, 20(1):36.

[10] Lin L, Jiang P, Park J W, et al. Thecontribution of Alu exons to the human proteome[J]. Genome biology, 2016,17(1): 15.

[11] Schmitz J F, Bornberg-Bauer E. Fact or fiction:updates on how protein-coding genes might emerge de novo from previouslynon-coding DNA[J]. F1000Research, 2017, 6.

[12] Zeng H, Gifford D K. Predicting the impactof non-coding variants on DNA methylation[J]. Nucleic acids research, 2017,45(11): e99-e99.

[13] Hall L L, Byron M, Carone D M, et al.Demethylated HSATII DNA and HSATII RNA foci sequester PRC1 and MeCP2 intocancer-specific nuclear bodies[J]. Cell reports, 2017, 18(12): 2943-2956.

[14]Valente E M, Bhatia K P.Solving Mendelian Mysteries: The Non-coding Genome May Hold the Key[J]. Cell,2018, 172(5):889.

[15] Devanna P, Chen X S, Ho J, et al. Next-gensequencing identifies non-coding variation disrupting miRNA-binding sites inneurological disorders[J]. Mol Psychiatry, 2018, 23(5):1375-1384.

圖片來源於網路|侵刪

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Nextomics 的精彩文章:

動物基因組界的霸者

TAG:Nextomics |