當前位置:
首頁 > 最新 > DNA的「神偷卡門」:三體怪獸水熊蟲基因組傳奇

DNA的「神偷卡門」:三體怪獸水熊蟲基因組傳奇

全文11431字,建議閱讀時間10分鐘

今天,生信人為大家帶來一段基因組測序的傳奇故事——水熊蟲基因組事件。

傳奇的故事離不開傳奇的主人公。在小說《三體》里,每逢危急時刻,三體人便會大喝一聲:脫水,於是便進入休眠狀態,待到外界條件恢復正常再蘇醒。其實,具有這種「特異功能」的生物真的存在,它,就是我們故事的主人公——水熊蟲。水熊蟲的英文是water bears,也可以稱為tardigrades(緩步動物,見下文)。其體型微小,大概就是幾十微米到幾百微米之間。水熊蟲是地球上已知最為頑強的生物,上至海拔5000米高山,下至4000米的海底都有分布。其可以忍受從-270到150攝氏度的高溫,也可以在輻射暴露、低溫的外太空真空環境里生存十天(Jonsson et al., 2008)。據稱,1948年,義大利學者Tina Franceschi發現博物館乾苔蘚中的水熊蟲在隱居一個世紀又二十年後,接觸水可以即刻復活(reviewed in (Jonsson & Bertolani, 2001))(儘管該說法從未被證實)。總之,水熊蟲就是這樣一個上得刀山、下得火海、出得太空、受得輻射,忍得了一時之痛苦、耐得住萬古之凄涼的「三體怪獸」。可以說,想殺死它,除了物理碾壓,幾乎是無計可施。

「三體怪獸」水熊蟲。圖片來自維基百科。

好了,這樣一種奇幻的生物,自然吸引了眾多學者的注意力。首先就是探索水熊蟲是如何適應各種極端環境並在極端環境褪去後蘇醒的機制。此外,分類上水熊蟲屬於緩步動物門(Tardigrada),同線蟲動物門和節肢動物門等一道組成了蛻皮動物(Ecdysozoa),注意經典模式生物秀麗隱桿線蟲(Caenorhabditis elegans)和黑腹果蠅(Drosophila melanogaster)也都包含在蛻皮動物中,由此可見對於水熊蟲的研究在進化生物學上也有重要意義。

2015年11月的一天,英國愛丁堡(Edinburgh,Britain)

為了在基因組層面一窺水熊蟲的奧秘,英國愛丁堡大學(University of Edinburgh)的教授Mark Baxter所領導的團隊(簡稱愛丁堡團隊)早在2012年前後就對這種神奇的生物展開了全基因組測序工作,並且建立了資料庫tardigrades.org對數據進行共享(Blaxter, 2016)。對線蟲基因組有一定了解的讀者大概並不陌生,Blaxter教授在線蟲進化和基因組領域絕對是響噹噹的名字。前面說了,水熊蟲在分類上與線蟲算是比較接近的,因此Blaxter教授參與到水熊蟲基因組測序的工作中大概也是不足為奇的。

然而,2015年11月的一天,一封電子郵件讓Blaxter教授頓時陷入了前所未有的不安之中(the biggest sinking feeling)(Blaxter, 2016)。來信的是來自美國北卡羅來納大學教堂山分校(University of North Carolina at Chapel Hill; UNC)的Bob Goldstein教授。Goldstein教授在信中說,他們完成了對於同一種水熊蟲的測序,並且文章即將發表在《美國科學院院報》(簡稱PNAS;頂級學術期刊,小編注)(Blaxter, 2016)。

實際上,Blaxter教授並非不知道來自大西洋彼岸的競爭對手(Blaxter, 2016)。或許是水熊蟲這種神奇的生物太具魔力,兩個團隊為破解其基因組暗中發力,在此期間幾乎沒有什麼合作(Blaxter, 2016)。可想而知,這個打擊對於Blaxter教授來講是巨大的,對於一項基因組測序工作,第二個完成的,很可能就意味著——失敗,因為基因組DNA就擺在那裡,先測後測,序列都是一樣。Blaxter教授後來表示,當時自己十分後悔沒能早一點完成,但也很無奈,因為沒有足夠多的時間和經費去更好地完成這項研究。不過,Blaxter決定,還是等待北卡團隊文章的在網上刊出(Blaxter, 2016)。

2015年11月23日,美國北卡羅拉納州教堂山市(Chapel Hill,NC,USA)

PNAS的編輯們沒有讓Blaxter等得太久,幾天後,三體怪獸水熊蟲的史上第一份基因組在線發表(published ahead of print)。被測序的水熊蟲拉丁名叫Hypsibius dujardini。前面說過,該基因組的測序團隊主要來自北卡羅來納大學教堂山分校(University of North Carolina at Chapel Hill; UNC)。為方便起見,我們這裡稱為北卡團隊。北卡團隊由前面剛剛提到的、在線蟲和水熊蟲發育生物學等領域享有極高聲望的Goldstein坐鎮,文章的第一和通訊作者是Boothby。

Btw:UNC的籃球非常出名,飛人喬丹、文森卡特、拉裡布朗等一干街知巷聞的NBA明星都出自這裡。

大家知道,評價基因組測序和組裝質量的兩個重要指標是contig N50和完整度(completeness)(生信人電子書合集《雜談組裝》)。北卡團隊的這份基因組採用長讀段測序(long-read sequencing)和短讀段測序相結合的測序方法,包括Moleculo、PacBio和Illumina等技術,測序的基因組平均覆蓋度達到126 X。最終的組裝N50=15.2Kb,大小為212.3Mb,包含38145個基因(Boothby et al., 2015)。常規的CEGMA分析結果顯示,真核生物核心基因(core eukaryotic genes)的完整度為95.16%(Boothby et al., 2015)。(更多關於基因組評估標準的見此文:詳細分析基因組完整性評估)

15年的時候,如果只是完成基因組的測序而沒有做進一步的分析,顯然是不能把文章發到PNAS這種級別的雜誌上的。精彩的內容開始了。北卡團隊對基因組的進一步分析得到了一個令人驚訝的結果,「Preliminary BLAST analysis showed that an unexpectedly large proportion of the genes present in the H. dujardini genome had a top hit to sequences from nonmetazoan sources」。翻譯過來就是,水熊蟲基因組內有很多基因的BLAST最佳匹配是除後生動物(也譯作多細胞動物)之外的其他物種。於是,北卡團隊的作者推測,這些基因是水熊蟲由其他生物處「偷來的」!而這種偷取基因的方式,在生物學上被稱為水平基因轉移(lateral gene transfer,LGT;horizontal gene transfer,HGT)。這個結果為何如此重要且振奮人心,下面馬上有寫。

什麼是水平轉移(lateral gene transfer,LGT;horizontal gene transfer,HGT)?說到水平,就要了解一下它和垂直的關係。一般認為,大多數基因的流動是從祖先物種,經由物種分化,傳遞到後代的物種。如果將祖先和顯存物種的關係用樹的形狀描畫出來,可以看到,這種基因傳遞的方式是一個垂直的傳遞。而水平傳遞是指,一種生物從另一種生物處直接獲得基因。打一個不太恰當的比方,垂直基因傳遞就是一個物種老老實實地繼承祖輩家產,而水平基因傳遞就好似一個物種直接從其他物種處竊取甚至打劫財物。(更多關於水平基因的介紹見此文:HGT:水平基因轉移簡單介紹)

圖中,A、B、C為三個不同物種。左為基因的垂直傳遞,右為基因的橫向(水平)傳遞。圖片來自網路

為了test這個假說(hypothesis),北卡團隊運用一種被稱為HGT indexing的方法,並通過基因樹(gene tree)加以驗證。結果顯示,占水熊蟲基因組內17.5%(6663)的基因是經水平轉移,由其他生物處得到的!請記住這個比例,差不多是六分之一稍稍多一點。這些外來基因(下圖左黃色區域,標為Foreign),絕大部分來自細菌(91.7%,下圖右橙色部分)。

等下,如何確定這些序列不是細菌污染的產物呢?能問到這個問題的朋友,大概都是行家了。北卡團隊的作者們當然也考慮到了這個問題。他們隨機選了107個被認為是水平轉移的基因,通過PCR擴增和PacBio單分子測序兩種方法,分析了這些基因是否同基因組的其他基因在組裝的得到的genome上連在一起(physically linked)。兩種辦法得到了非常相似的結果,107個中的104個基因被認為是physically linked到水熊蟲的基因組上(見原文的sd02)。北卡團隊認為,綜合以上證據,水熊蟲神偷卡門的說法,終於可以坐實了!

這絕對是一個轟動性的結果(小編以為雖然類似詞語被濫用,但這裡絕對是準確無誤的)!為什麼?要知道,水平轉移,在當時看來,是一種常見於原核生物(prokaryotes,包括bacteria+archaea)之中的現象;其在真核生物(eukaryotes)之間或者真核生物同原核生物之間的頻率要遠遠少於在原核生物中觀察到的頻率。那麼,真核生物基因組中水平轉移得到的基因一般都有多少呢。出芽酵母、秀麗隱桿線蟲、阿米巴蟲和滴蟲(Trichomonas)都不超過1%,而當時已知最高比例的真核生物,輪蟲(Rotifer)也不過8%左右 (reviewed in (Richards & Monier, 2016))。而三體怪獸水熊蟲,其高達17%的比例將當時完成測序的所有其他真核生物遠遠甩在身後。這一研究成果,將直接改變大家對真核生物基因傳遞方式的理解,並對「生命之樹」(tree of life)的概念產生很大衝擊。

北卡團隊進一步分析了這些「偷來」的基因的功能。他們發現,有不少都是在DNA repair、stress tolerance等通路中發揮功能的。於是,作者們進一步猜測,水熊蟲這種對於外來基因兼容並包的特點,使其能夠獲得很多應對不利環境和DNA損傷的基因,從而具有其他生物所不具備的超強抗打擊能力。可以說,北卡團隊的這篇文章,不僅揭開了水熊蟲基因組的神秘面紗,還對其極端環境適應力提供了基因組水平上的解釋,並直接挑戰了學界對於基因傳遞方式的理解(一箭三雕!)。實際上,這一切,從北卡團隊的文章標題(Evidence for extensive horizontal gene transfer from the draft genome of a tardigrade)就可以看出來了。

這樣的結果當然讓媒體瘋狂了一把。一時間,包括《華盛頓郵報》、《每日鏡報》在內的著名報社和Phys.org等一眾學術網站都報道了這一轟動性發現。社交媒體上,諸多學者也奔走相告。總之,這個重大突破以迅雷不及掩耳盜鈴之勢席捲了整個基因組學共同體(genomics community)。對於這樣的結果,你的心情是不是也很興奮呢?

2015年11月24日,加拿大魁北克省蒙特利爾(Montréal,Québec,Canada)

不管大家心情如何,幾乎是在第一時間了解到這篇文章的小編,當時真是心潮澎湃。當日,小編便迫不及待地同系裡的一位同學分享了這樁基因組學的轟動性事件。其實,小編之所以跟這位老兄聊起這件事還有一個原因,是因為其從事的研究和水平及因轉移有密切的關係,且是該學說的忠實擁躉。不想,聽罷之後,這位老兄直接一盆冷水迎面潑來:「我擔憂是否存在污染」。幾天後,這位老兄告訴小編,他寫信問過了作者,作者詳細地回應了質疑,但表示已經用了嚴格的培養條件,將污染降到了最低。然而,這位老兄還是表示十分懷疑。

2015年11月24日-29日,德國圖賓根(Tübingen,Germany)

表示懷疑的絕不只是小編的這位同學。讓我們回到網路。就在網路上的一片叫好之聲中,也夾雜著零星的反對聲音。來自德國馬普發育生物學研究所(Max Planck Institute for Developmental Biology)的破四道Bemm Felix在北卡組論文發表後的連續兩天里公開發推表示了自己的疑惑:

如果說對於Bemm是誰不太了解的話,請看下面的推特。

絕不是重名,水熊蟲基因組居然驚動了——Detlef Weigel(的實驗室推特賬號),擬南芥1001基因組計劃發起人——一個植物科學界響噹噹的名字。仔細看看植物學大佬(的實驗室)在推特上寫了什麼:北卡組的採用了傳統的Illumina短讀段測序加上當其時剛剛興起的長讀段測序技術(pacbio+Moleculo)——然而最終得到的N50隻有16kb——這,是不是有點兒,太短了?前面說了,當時的網路對於北卡團隊的成果幾乎全是溢美之詞,而Felix等馬普發育所的一隊人馬「跨界」到水熊蟲領域湊熱鬧發推質疑,是何居心?這裡先按下不表。

更有好事者,在推特上註冊了兩個以水熊蟲為名的賬戶(下圖可見註冊時間都是15年11月)。

其中一個還在11月29日調皮地發推表示:On my way to steal your gene(正在偷取你基因的路上)。此推甚至砍下42個轉發和50個like的超級兩雙數據,可見本次事件短短几日內已經在學界引起廣泛關注。

2015年11月23日-2015年11月30日,英國愛丁堡

讓我們回到文初提到的愛丁堡大學Blaxter教授的實驗室。不知道Blaxter教授在接到北卡團隊的來信後的每一天是不是連刷PNAS主頁,即使不是如此,這幾天也一定是在巨大的失望和不祥預感(sinking feeling)中度過。

意想不到的事出現了,在看到北卡團隊的文章後,Blaxter教授迅速產生了第二個「不詳的預感」(I had a second sinking feeling)。因為,Blaxter教授從看到北卡團隊文章標題的第一眼就迅速預感到,北卡團隊的文章,有問題!(Blaxter, 2016)

為什麼?前面說了,Blaxter團隊當時也已經對同樣的水熊蟲進行基因組測序大概四年之久,但在他們的數據中並未找到北卡團隊發現的大量的水平轉移基因。此外,Blaxter發現,北卡團隊中居然沒有對基因組是否存在細菌污染進行嚴格檢驗——而這些檢驗是愛丁堡團隊中的必備項目(Blaxter, 2016)。Blaxter教授對於北卡團隊的結果頓生懷疑。接下來的三天里(嚴格說是獲取到北卡團隊原始數據後的連續三天里,因為北卡版基因組並未在文章發表前或發表時公開),愛丁堡團隊對北卡團隊的原始數據進行了仔細的分析——他們得出了與北卡團隊完全相反的結果,沒有發現高比例的水平轉移基因。在周末,Blaxter流星趕月般完成了manuscript的寫作(Blaxter, 2016)。

2015年12月1日,英國愛丁堡

就在北卡團隊文章出爐的8天後,Mark Blaxter教授領導的愛丁堡團隊迅速地將趕製的manuscript以preprint形式投放在bioRxiv,也正式引爆了一場好戲:

其題目很簡單:水熊蟲H. dujardini的基因組。在摘要里,作者清晰地寫到他們獨立測序了和北卡團隊同一種水熊蟲的基因組,但並未發現任何大量水平轉移的證據(do not find support for massive horizontal gene transfer)。摘要的最後一句話還寫到:研究還在繼續當中——似乎表示這篇preprint是匆匆出手投放到bioRxiv的(如前文所述事實也的確如此)。總之,愛丁堡團隊與北卡團隊測了相同的基因組,但在關鍵結論上幾乎完全相反!

讓我們看看愛丁堡團隊的研究人員是怎麼說的。他們首先組裝了一個水熊蟲基因組,稱為愛丁堡1.0版基因組,v1.0的水熊蟲基因組大小為185Mb。愛丁堡團隊接下來通過一種被稱之為blobplot(姑且譯為氣泡圖)的方法對愛丁堡1.0版的水熊蟲基因組進行了檢測。該圖看似簡單,實則傳遞了非常多的信息。這種方法基於下面這個簡單的思想:真正屬於目標基因組的序列應該有相對均一的GC含量和丰度。作者們將得到的讀段(read)比對(map)回拼接得到的contig上,分析其覆蓋度(coverage,y軸)和GC含量(x軸)。如圖所示的就是愛丁堡1.0版基因組,可以看到,低覆蓋度的組裝片段(y軸方向較低)大多也具有更高的GC含量(x軸方向較大),更為蹊蹺之處在於,這些片段中的大多數在NCBI核酸資料庫里的最佳匹配是居然主要都是來自——細菌!這一結果直接表明在愛丁堡1.0版的組裝裡面存在著大量的疑似污染序列(氣泡大小代表的含義將在後面介紹)。

由於懷疑1.0版基因組被細菌污染,接下來,愛丁堡團隊對通過blobplot判斷找出的可疑序列進行了過濾,得到的新組裝就是2.3版基因組(這種把自己所犯錯誤和如何糾正的過程以記敘文方式寫出來的manuscript,真是有趣,只是小編有些擔憂到時候審稿人怎麼看待)。為了確認v2.3基因組的組裝質量,愛丁堡團隊對v2.3重新做了一次blobplot氣泡圖檢測,不出意外,之前可疑的「泡泡」都不見了(下圖)。不過可以看到,組裝得到的部分序列還是有來自細菌的可能性(如橙色氣泡所示為最佳匹配來自變形桿菌proteobacteria)。

Btw:愛丁堡團隊在後來的正式paper里為了確保從v1.0到v2.3所做的對可疑序列的「大清洗」沒有太過(overcleaned),對v1.0和v2.3兩個版本,分別進行了對於poly-A轉錄組的mapping,結果沒差。

如果北卡團隊沒有在11月23日將他們的論文發表出來,大概愛丁堡團隊的這篇preprint在此就會停住了。然而現在,愛丁堡團隊不得不將自己得到的結果(2.3版)同北卡版基因組進行對比,結果在原文的Table 3中呈現。

其中有幾個結果,非常引人注目,簡言之,就是兩方面:

1. N50:北卡版的N50在15kb左右,而愛丁堡2.3版則在50kb以上。

2. 基因組大小:北卡版為212Mb,而愛丁堡2.3版僅有135Mb。所含基因數目北卡版38000個,而愛丁堡2.3版只有23000個。

針對基因組大小問題,愛丁堡團隊還通過一種流式細胞儀技術(propidium iodide flow cytometry)對H. dujardini的基因組大小進行了估計,結果表明大小在110Mb左右;該結果也同北卡團隊早在07年的估計相仿(Gabriel et al., 2007)。這一結果顯然同北卡團隊拼接到的基因組大小有很大差別,反而和愛丁堡基因組v2.3更為接近。為了進一步說明北卡版基因組和愛丁堡版基因組組裝方面的不同,愛丁堡團隊對北卡版基因組進行了blobplot氣泡圖分析。

可以看到,北卡版基因組的pattern似乎和被認為存在嚴重細菌污染的愛丁堡v1.0版的基因組有很多相似之處:有相當比例的contig呈現出偏倚的覆蓋度和GC含量,這些contig大多對應到非真核生物特別是細菌中。這些細菌主要來自變形桿菌(proteobacteria,黃色)和擬桿菌(Bacteroidetes,橙色)。細心的朋友一定會注意到,北卡版基因組中很多疑似污染的序列都對應著很大的泡泡。實際上,在blobplot氣泡圖裡,氣泡的直徑和contig大小成正比(氣泡越大,contig越大)。由圖可見,也就是說很多大片段的contig都是來自疑似細菌的污染!

愛丁堡團隊的作者又對RNA-seq得到的轉錄組map到北卡版水熊蟲基因組上做blobplot。如下圖,不同顏色代表不通contig在轉錄組裡的覆蓋度,綠色最高,橙色最低。結果顯示,那些疑似污染的contig在轉錄組中的覆蓋度也相對較低。

通過整合以上結果和一些其他分析,到這裡,愛丁堡團隊認為找到了北卡版基因組和愛丁堡版基因組基因組大小差異的原因,那就是北卡版基因組中30%左右的序列可能是錯誤地將其他生物的DNA當做水熊蟲的DNA組裝起來了。北卡團隊認為,這直接解釋了為什麼北卡版水熊蟲基因組會出現大量的水平轉移,其實都是細菌污染惹的禍。當然,愛丁堡版基因組也並非清白——在原文Table 3中,作者同樣指出了他們自己測序的基因組中存在約6.8%的污染。

Btw:blobplot這種有趣的檢測基因組污染的方法,恰好是由Blaxter領導的愛丁堡團隊在數年前開布下的「伏兵」(Kumar & Blaxter, 2011;Geerts et al., 2013)。Blaxter後來說,其實blobplot就是多年前在水熊蟲基因組項目中發現有很多細菌的污染,而專登發明出來進行檢測用的(Blaxter, 2016)。無怪乎愛丁堡團隊可以在短短几天內就對北卡團隊的結果進行了如此迅速的檢測,原來早有準備。

針對北卡團隊所說的對水平轉移基因和其他基因在基因組上物理相連(physically linked)的結果,愛丁堡團隊表示他們重新分析了這些基因,結果發現大概有一半都是同另一個水平轉移得到的基因連在一起,也就是,愛丁堡團隊認為北卡團隊的這一分析有避重就輕之嫌,只是說明這些基因是可以在PCR中看到和其他基因一起P出來,但是這並不能證明到這些基因不是污染的;相反,如果相連的基因是另一個來自細菌的基因,那麼反而表明可能是污染所致。

愛丁堡團隊最後得出結論,水熊蟲基因組中水平轉移得到的基因,最多也就是500(1-2%)來個,遠遠小於北卡團隊報道的6000餘個。

好了,現在我們有了兩個水熊蟲基因組。一個生成大約六分之一的基因來自水平轉移,另一個表示這一數字最多不過是1-2%。究竟哪一個正確呢?為此,學界通過網路展開了熱烈的討論,媒體的報道有了新的動向。這裡揀幾個簡單說一下。

2015年12月2日,加拿大安大略省圭爾夫市(Guelph,Ontario,Canada)

2015年12月5日,美國巴爾的摩(Baltimore, MD, USA)

12月5日,來自美國馬里蘭大學(University of Maryland)的Julie Dunning Hotopp教授發表長博客,對來自北卡團隊和愛丁堡團隊的兩個基因組進行了點評。其中,Hotopp表達了對於北卡團隊基因組質量方面的懷疑,她對北卡團隊原文中的如下說法提出了質疑:Our tardigrade cultures are fed algae, not bacteria, and although our algal cultures are not axenic, we would expect little to no bacterial contamination in our sequencing data(我們用紅藻飼餵水熊蟲,儘管紅藻的培養環境並非無菌,但我們認為水熊蟲測序結果中幾乎不存在細菌污染)。還有,Hotopp認為北卡團隊對於潛在的細菌基因組被當做水熊蟲基因組混拼的情況的評估有所欠缺,特別是對其所採用的low coverage PacBio驗證錯拼的策略表示擔憂。

2015年12月底,英國愛丁堡

趕在聖誕節前,愛丁堡團隊對bioRxiv上的文章進行了更新(Blaxter, 2016)。

2016年1月8日,英國愛丁堡

愛丁堡團隊的稿件正式向PNAS投出。接下來就是焦急的等待。

2016年3月24日,英國愛丁堡

時間過去了兩個半月,愛丁堡團隊的水熊蟲基因組文章終於和大家見面了(真是夠快的)。和北卡團隊的文章一樣,也是發表於PNAS上,連負責的編輯都是同一位教授(Koutsovoulos et al., 2016)。這篇文章的主要結果同之前post到bioRxiv的內容沒有大差,只是題目更加犀利,變得完全與北卡團隊針鋒相對:

愛丁堡團隊的title:No evidencefor extensive horizontal gene transfer in the genome of the tardigrade Hypsibius dujardini

北卡團隊的title:Evidencefor extensive horizontal gene transfer from the draft genome of a tardigrade

文章刊出後,媒體上也給予了更多的支持:

好了,現在兩篇文章全都正式通過同行評議(peer review)擺在檯面上,孰是孰非,需要學界進一步的討論。難道劇情要逆轉?作為一名看客,小編當時是覺得,越來越好玩了。

2016年3月29日,美國芝加哥(Chicago, IL, USA)

就在愛丁堡團隊PNAS文章online五天之後,一篇文章在當時的新興開放獲取(open access)期刊PeerJ上發表,通訊作者為來自芝加哥大學的Murat Eren教授。在文中,作者們採用其團隊剛剛自行開發的一種叫作Anvi"o(Eren et al., 2015)的生物信息學工具對北卡版基因組原始數據進行了分析,並驚訝地發現其拼接中存在數個幾近完整的細菌基因組(主要來源於Moleculo長讀段文庫)(Delmont & Eren, 2016)。特別地,作者指出,其中一個疑似基因組被混拼的細菌來自」嗜幾丁質如命」的噬幾丁質菌屬(Chitinophaga),而幾丁質(chitin)恰是實驗室培養水熊蟲的主要食物之一(Delmont & Eren, 2016)(要不要說得這麼隱晦?)。

如圖,由內向外數,倒數第二圈代表北卡團隊報道的水平轉移基因的coverage情況,在第2-5圈(Moleculo測序)對應較高的coverage(Delmont & Eren, 2016)。

2016年5月31日,德國圖賓根 日本東京 美國北卡教堂山

16年5月的最後一天,PNAS以letter形式一次性刊登兩篇針對水熊蟲基因組的文章。其中一篇正是來自之前提到的來自德國馬普發育生物學研究所的團隊(Bemm et al., 2016)。

馬普團隊在文中表示,對北卡版基因組中發現如此高比例的水平轉移基因感到震驚(astonished),而北卡版基因組的基因組大小的詭異之處促使他們進行重新分析:北卡版基因組大小為200餘Mb,這與該團隊2007年的估算的~78Mb相去甚遠(Gabriel et al., 2007)(前文說過,愛丁堡團隊也注意到了這一點)。馬普團隊於是對北卡團隊的基因組的K-mer進行了詳細分析,並將K-mer分為兩類,一類是在所有北卡團隊的所有illumina data set中都可以找到的,稱為trusted K-mers,其餘的則歸為untrsuted K-mers。進一步分析發現,trusted K-mer同untrusted K-mer之間在coverage、GC含量等方面都存在很大差異。此外,他們也找到了同上面說到的PeerJ文章類似的現象:找到了一個大小為4.7Mb的細菌基因組。這些結果,直指北卡版基因組中可能存在嚴重的細菌污染。

在另一篇文章中,來自日本慶應義塾大學(Keio University)的Arakawa單槍匹馬。其文章較為簡單,甚至什麼數據都沒有show。Arakawa透露,他們也在對北卡團隊和愛丁堡團隊測序的相同的一種水熊蟲,也就是H. dujardini,進行測序。Arakawa表示,他們的團隊用青黴素/鏈黴素、清洗和顯微鏡檢測等方法嚴格控制,將水熊蟲腸胃微生物的污染的可能性降到最低(Arakawa, 2016)。Arakawa表示,他們的結果表示水平轉移基因的比例在4.47%以下(Arakawa, 2016)。我們這裡將Arakawa所領導的團隊成為慶大團隊(第四支隊伍了)。

與這兩篇文章同時刊出的還有來自北卡團隊的回應(Boothby & Goldstein, 2016)。北卡團隊這次打出了三板斧。他們表示,最初在網上公布的水熊蟲基因組是一個舊版本的,最新版本的基因組在後來才上傳(第一式:虛晃一招)。而這一失誤,可能影響到了包括馬普團隊在內的前面提到的兩篇文章的分析(Bemm et al., 2016;Delmont & Eren, 2016)(第二式:引蛇出洞)。故此,北卡團隊作者指出這兩篇文章里提到的問題可能是由於北卡團隊上傳序列的失誤造成的(第三式:回馬一槍)。北卡團隊對這一失誤也表示誠摯歉意。最後,北卡團隊又表示自己做了其他一些檢測,依然堅持原來的觀點,也就是支持水熊蟲基因組中存在大量水平轉移。

到這裡,不知道大家是怎麼看的。儘管北卡團隊堅持原見,事實似乎越來越清晰,那就是北卡版基因組中似乎存在著較高的細菌污染並對團隊造成誤導導致嚴重誇大了水平轉移基因的比例。弱弱問一句,莫非是這群人合夥炒作水熊蟲的概念,或是在刷PNAS文章?當然,徹底解決爭論,還是要靠新的高質量的基因組序列說話。

2016年9月20日,日本東京

就在幾支隊伍爭論不休的時候,另一支來自日本的團隊已經悄悄完成了另一種水熊蟲(Ramazzottius varieornatus)的基因組測序(注意是與北卡、愛丁堡和慶大團隊不同的水熊蟲),並且在一年多的艱苦投稿歷程之後,於2016年9月20日發表於Nature子刊Nature Communications(Hashimoto et al., 2016)。由於最後通訊作者Takekazu Kunieda來自東京大學,我們將他們稱為東大團隊。至此,本次水熊蟲基因組奇幻之旅的五支隊伍亮相完畢!

這篇文章主要有兩個結論。第一點是在水熊蟲Ramazzottius varieornatus的基因組中,水平轉移基因的比例只有1.2%。第二點同基因組學關係不大,東大團隊發現其中一種被稱為Dsup(Damage suppressor)的DNA結合蛋白可能是可以提升水熊蟲保護DNA、抵禦射線傷害的秘密武器。東大團隊在文中聲稱做過了非常嚴格的污染控制。特別地,他們移除了102個scaffold,因為有證據表明這些scaffold有可能被污染(水熊蟲這傢伙這麼容易被細菌污染?),最終得到的組裝N50=4.74Mbp,N90=1.3Mbp;基因組大小為55.8 Mbp,同用DNA染色(DNA staining)得到的估計(~55Mbp)相差不大(Hashimoto et al., 2016)。作者們繼續對可能的水平轉移基因進行了全基因組搜索。不過,東大團隊最終只找到了234個(1.2%)可能的水平轉移基因,這顯然是對愛丁堡團隊的有力支持。

不過,請注意,東大團隊所測序的水熊蟲(R. varieornatus)與北卡團隊、愛丁堡團隊和慶大團隊測序的水熊蟲(H. dujardini)並非相同的物種,甚至來自不同的屬(genus)。所以,儘管越來越多證據表明北卡團隊的文章很可能嚴重誇大了水平轉移基因的比例,但因為終歸不是相同物種,北卡團隊似乎仍有迴旋空間。

2017年6月27日,日本東京 英國愛丁堡

謎底在17年6月27日這一天揭曉了。雖然H. dujardini的基因組之前已經發布過兩次,但是由於競爭的緣故,大家都很趕時間,所以一個高質量的基因組的始終沒有release。這一次,愛丁堡團隊和慶大團隊強強聯手,對水熊蟲H. dujardini進行了基因組(重)測序,文章發表在著名生物學綜合類期刊PLoS Biology上(Yoshida et al., 2017)(實際上,本文早在17年3月1日投放到bioRxiv以preprint的形式公開)。

不出所料,這一次的結果證實該水熊蟲的基因組中沒有比其他動物更多的水平轉移發生。作者們表示,最少0.7%,最多2.3%的H. dujardini基因可能來自水平轉移,這與北卡團隊此前的估計大相徑庭(Boothby et al., 2015),而與東大團隊對於另一種水熊蟲(R. varieornatus)的估算比較接近。而這篇文章實際上也只有小部分內容針對水平轉移,更多關注點是在兩種水熊蟲的比較基因組學分析、轉錄組分析以及水熊蟲與線蟲和節肢動物之間的進化關係(大概是作者們覺得水平轉移的問題已經沒什麼爭議了吧)。

補刀:2017年9月5日,德國圖賓根

就在東大團隊和愛丁堡團隊的文章發表的兩個多月後,馬普團隊再現江湖。他們在bioRxiv上投放了對另一種水熊蟲,Milnesium tardigradum,的基因組測序和分析的manuscript。結果顯示,只有大概261個水平轉移得到的基因,可以說是對北卡版基因組又補上一刀(Bemm et al., 2017)。實際上,雖然通訊作者Bemm現在馬普發育所從事植物基因組學方面的研究,但這篇preprint的主要工作很可能是在其14年轉入馬普所前於德國伍茲堡大學(University of Würzburg)和同事一起完成的,猜測是之前不同領域的工作,所以大概不是跨界吧。

試金石

此外,北卡版基因組還不幸地成為了一些新生信軟體的試金石,以檢驗這些新工具可靠性(Mallet et al., 2017;Marcais et al., 2018)。不過小編覺得,如果在17年以後仍以北卡版基因組做標尺,這個標準是不是定得有點兒,太低了?

結局

到這裡,在清楚的事實面前,水熊蟲高比例水平轉移的說法在學界已經完全站不住腳了。北卡團隊大佬Goldstein教授對東大團隊和愛丁堡團隊新測序的水熊蟲基因組也表示了肯定:The authors" analysis methods, and their methods for getting clean DNA, are certainly an improvement over our own earlier methods(SAEY, 2017)。到最後,就連一篇Goldstein教授本人參與到的文章中,也放棄了對北卡版基因組的引用(Russell et al., 2017)。

小編在18年年初對北卡組的基因組paper的引用情況在谷歌學術上進行了一番研究。截止當時,一共有59次引用。其中,對其基因組進行正面評價(positive comment)的為7次,包括3次自印;持反面觀點(negative comment)的為22次;還有5次不置可否(ambiguous)。其餘的為對文章其他部分的引用。

縱觀本次水熊蟲的基因組故事,先後有五支團隊分別獨立地展開基因組測序,還有更多來自世界不同國家地區的學者們以不同的方式參與到了討論之中,最終在數據共享和開放科學的推動下,一起完成了對水熊蟲基因組的解讀,也為我們奉獻了一段傳奇故事。誰是整個故事的贏家?我想沒有比愛丁堡大學Blaxter教授的話更為合適的了:I think 「a victory for open science」 won the day(Blaxter, 2016)

尾聲:2018年5月15日,加拿大蒙特利爾

就在這篇推送截稿的前幾日,小編又特意找到和當時在第一時間表達對北卡團隊水熊蟲基因組質疑的那位老兄,詢問他是否了解到水熊蟲基因組事件的最新進展。得到的回應居然是一直沒關心。當我告訴這位老兄他的預言被證實到了,這位老兄輕描淡寫地說:「當時也沒有什麼證據,甚至連北卡團隊的文章也沒看,就是之前看過對水熊蟲的科普,好像記得有人說儘管水熊蟲生命力頑強但想潔凈地培養也是很難,所以我覺得(北卡版基因組)高得嚇人的水平轉移基因比例就很可疑」。

小編匆匆放下剛剛抿了半口的Tim Hortons,

拿起筆,記錄下這剛剛發生的歷史。

全 劇 終

參考資料

Arakawa K. 2016.No evidence for extensive horizontal gene transfer from the draft genome of a tardigrade.Proceedings of the National Academy of Sciences of the United States of America113(22): E3057-E3057.

Bemm F, Weiss CL, Schultz J, Forster F. 2016.Genome of a tardigrade: Horizontal gene transfer or bacterial contamination?Proc Natl Acad Sci U S A113(22): E3054-3056.

Bemm FM, Burleigh L, Foerster F, Schmucki R, Ebeling M, Janzen C, Dandekar T, Schill R, Certa U, Schultz J. 2017.Draft genome of the Eutardigrade Milnesium tardigradum sheds light on ecdysozoan evolution.bioRxiv.

Blaxter M 2016. Eight things I learnt from #tardigate.

Boothby TC, Goldstein B. 2016.REPLY TO BEMM ET AL. AND ARAKAWA: Identifying foreign genes in independent Hypsibius dujardini genome assemblies.Proceedings of the National Academy of Sciences of the United States of America113(22): E3058-E3061.

Boothby TC, Tenlen JR, Smith FW, Wang JR, Patanella KA, Nishimura EO, Tintori SC, Li Q, Jones CD, Yandell M, Messina DN, Glasscock J, Goldstein B. 2015.Evidence for extensive horizontal gene transfer from the draft genome of a tardigrade.Proceedings of the National Academy of Sciences of the United States of America112(52): 15976-15981.

Delmont TO, Eren AM. 2016.Identifying contamination with advanced visualization and analysis practices: metagenomic approaches for eukaryotic genome assemblies.Peerj4.

Eren AM, Esen OC, Quince C, Vineis JH, Morrison HG, Sogin ML, Delmont TO. 2015.Anvi"o: an advanced analysis and visualization platformfor "omics data.Peerj3.

Gabriel WN, McNuff R, Patel SK, Gregory TR, Jeck WR, Jones CD, Goldstein B. 2007.The tardigrade Hypsibius dujardini, a new model for studying the evolution of development.Developmental biology312(2): 545-559.

Geerts H, Spiros A, Roberts P. 2013.Blobology : Using Mechanistic Computer Model Of Human Brain Circuits To Understand the Neurobiology Of Boldfmri.Journal of cognitive neuroscience: 75-75.

Hashimoto T, Horikawa DD, Saito Y, Kuwahara H, Kozuka-Hata H, Shin-I T, Minakuchi Y, Ohishi K, Motoyama A, Aizu T, Enomoto A, Kondo K, Tanaka S, Hara Y, Koshikawa S, Sagara H, Miura T, Yokobori S, Miyagawa K, Suzuki Y, Kubo T, Oyama M, Kohara Y, Fujiyama A, Arakawa K, Katayama T, Toyoda A, Kunieda T. 2016.Extremotolerant tardigrade genome and improved radiotolerance of human cultured cells by tardigrade-unique protein.Nature Communications7.

Jonsson KI, Bertolani R. 2001.Facts and fiction about long-term survival in tardigrades.Journal of zoology255: 121-123.

Jonsson KI, Rabbow E, Schill RO, Harms-Ringdahl M, Rettberg P. 2008.Tardigrades survive exposure to space in low Earth orbit.Current Biology18(17): R729-R731.

Koutsovoulos G, Kumar S, Laetsch DR, Stevens L, Daub J, Conlon C, Maroon H, Thomas F, Aboobaker AA, Blaxter M. 2016.No evidence for extensive horizontal gene transfer in the genome of the tardigrade Hypsibius dujardini.Proceedings of the National Academy of Sciences of the United States of America113(18): 5053-5058.

Kumar S, Blaxter ML. 2011.Simultaneous genome sequencing of symbionts and their hosts.Symbiosis55(3): 119-126.

Mallet L, Bitard-Feildel T, Cerutti F, Chiapello H. 2017.PhylOligo: a package to identify contaminant or untargeted organism sequences in genome assemblies.Bioinformatics33(20): 3283-3285.

Marcais G, Delcher AL, Phillippy AM, Coston R, Salzberg SL, Zimin A. 2018.MUMmer4: A fast and versatile genome alignment system.PLoS computational biology14(1).

Richards TA, Monier A. 2016.A tale of two tardigrades.Proceedings of the National Academy of Sciences of the United States of America113(18): 4892-4894.

Russell JJ, Theriot JA, Sood P, Marshall WF, Landweber LF, Fritz-Laylin L, Polka JK, Oliferenko S, Gerbich T, Gladfelter A, Umen J, Bezanilla M, Lancaster MA, He S, Gibson MC, Goldstein B, Tanaka EM, Hu CK, Brunet A. 2017.Non-model model organisms.BMC Biology15.

SAEY TH 2017. Tardigrades aren』t champion gene swappers after all.

Yoshida Y, Koutsovoulos G, Laetsch DR, Stevens L, Kumar S, Horikawa DD, Ishino K, Komine S, Kunieda T, Tomita M, Blaxter M, Arakawa K. 2017.Comparative genomics of the tardigrades Hypsibius dujardini and Ramazzottius varieornatus.Plos Biology15(7).


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 生信人 的精彩文章:

66個水稻泛基因組文獻分享
老師,我想學多組學整合

TAG:生信人 |