人類基因組——我們錯過了什麼?
人類基因組在2003年得到了完全測序——等等,真的是那樣嗎?今天Robert Fulton談論了他試圖最終完成人類基因組的工作並構建一個更好的人類參考基因組。Robert Fulton是華盛頓大學醫學院的遺傳學教授,也是密蘇里州聖路易斯McDonnell基因組研究所的開發部主任。
Paul:這裡是Illumina基因組學播客!大家好!歡迎收聽Illumina基因組學播客的第13期。我是主持人Paul Bromann,目前擔任Illumina的科學聯絡員。每次節目中,我都會採訪基因組學領域的專家,幫助我們加深對科學和自然的理解。
人類基因組計劃於1990年啟動,當時的宏偉目標是對組成我們基因組的所有30億個核苷酸進行測序。2003年4月14日,國際人類基因組測序聯盟宣布人類基因組的DNA序列終於完成了。不過,事實上,人類基因組從未真正完整測序過,那些高度重複的染色體區域,到今天仍然是測序上的挑戰。
今天,我來到華盛頓大學醫學院的McDonnell基因組研究所,它位於密蘇里州聖路易斯市。我身邊這一位是Robert Fulton(昵稱Bob),他是華盛頓大學醫學院的遺傳學教授,也是McDonnell基因組研究所的開發部主任。在華盛頓大學,Bob的職責是開發和交付基因組學解決方案,以解決各種臨床和科研問題。
Bob:我是開發部主任。我一直擔任項目開發的主任,現在也擔任技術開發的主任。因此,開發既包括技術開發,也包括項目開發。我負責安排合作、設計項目等等,確保我們將最合適的技術應用在項目上,同時,我們也放眼未來,嘗試開發新平台、新試劑和新技術。
Paul:您從1994年就開始從事基因組學研究了嗎?
Bob:沒錯。
Paul:那麼,您幾乎了解一切吧。
Bob:一切我不敢說,不過我確實了解很多。我在這個領域幹了很長時間。事實上,我1990年就開始在華盛頓大學工作。不過,1994年才來到基因組研究所。實際上我是從大規模繪圖開始的,那時候基因組學快要來了。我找了一份暑期工,本以為是洗洗玻璃器皿和裝裝吸頭盒這樣的工作,誰知我進了一個大規模繪圖的實驗室,原來它是人類基因組計劃的先驅。當時,我們通過PCR和YAC(酵母人工染色體)來繪製人類基因組的物理圖譜。我們繪製了人類的X染色體和7號染色體的圖譜。
Paul:在新一代測序或NGS出現之前,主要的測序技術是1977年開發的桑格測序。在桑格測序中,DNA聚合酶利用單鏈DNA作為模板,並摻入正常的脫氧核苷酸作為鏈的合成模塊,在體外合成DNA鏈。同時在反應中摻入鏈終止的雙脫氧核苷酸,對大小和核苷酸末端不同的DNA片段進行標記,並通過凝膠或毛細管電泳來分辨。ABI 373測序儀是首批商業化的桑格測序儀之一,但之後被更高通量的NGS測序儀所取代。
Bob:對,當時我們有10台373,相當於在18小時內跑24條道。
Paul:哇,那相當不錯。
Bob:每天大約可產生10 kb。這是非常了不起的。不過,我們現在每天的產量大約在6–7 Tb。我們2005年的能力是每個月產生800萬條序列,這無疑是全世界的前五名,也代表了毛細管測序儀的巔峰。以2005年的能力來算,大約100年才能相當於現在的一天。
Paul:當然,技術改進的腳步並沒有在2005年停下來。Bob談到了他從桑格測序轉換到最早的NGS技術(454),再到如今Illumina超高通量的平台,NovaSeq。
Bob:我們實際上是從平板凝膠開始的,373就是一種平板凝膠,因此它是在毛細管之前。後來我們從平板凝膠轉換到毛細管電泳,那是一段很開心的日子,因為我們可以擺脫那些凝膠板和丙烯醯胺。最早的新一代測序平台是454的儀器,當時那是驚人的飛躍。回看這些年的測序產量也是很有意思的,我想,你會在2004年或2005年看到這個巨大的轉折點。那時,我們從Solexa/Illumina開始,通過Illumina儀器的不斷迭代更新,到這個夏天我們安裝了第一台NovaSeq儀器。它目前已開始運行,我們也開始向這個平台轉換。
Paul:人類參考基因組是組裝好的核酸序列的數字化資料庫,它是人類基因組的代表性例子。自人類基因組序列首次發表至今已有十五年,但人類基因組參考序列仍然不完整,這有些出人意料。Bob是參考基因組聯盟(Reference Genome Consortium)的核心領導人物,此聯盟的目標是改進人類參考基因組。
Bob:我們所在的華盛頓大學McDonnell基因組研究所,是參考基因組聯盟的一分子。這是我們自己的聯盟,NCBI、EBI以及Sanger研究所隨後也參與進來,因此在某種程度上可追溯到我們的源頭。對於人類基因組,我們的目標是改進人類參考序列。這是多方面的。目前的人類參考序列大約是20–25個人的嵌合體。每個人的基因組都有一小部分,然後拼湊在一起。我們的目標是一個,並使其儘可能地準確。目前仍有一些序列很難用現有技術測序,特別是短read技術,而大的重複單元也不能很好地混合。因此,我們的目標是改進這些區域。另一個目標是提供等位基因多樣性。
Paul:儘管你的基因組序列與人類參考基因組有99%以上是相同的,但你的基因組實際上是獨一無二的。我們的基因組包含基因序列上的輕微差異,這稱為等位基因,它們集中出現在不同人群中。Bob討論了更好地了解等位基因多樣性如何幫助科學家將短read NGS序列與人類參考基因組相比對。
每一千個鹼基中,每個人大約有一或兩個鹼基是不同的,在某些情況下是大片段,如結構變異、大的插入和缺失,或基因組上的明顯差異。目標或想法也是如此,特別是利用短read映射時,如果你的序列或等位基因與人類參考序列明顯不同,那麼你的序列就不能很好地映射,因此不大能解釋。因此,如果能提供更多的等位基因,我們就能更好地與參考序列和帶有注釋的參考序列匹配,我們就能更好地解釋這些短read。
Paul:我們知道基因組中有多少目前仍未測序嗎?百分之幾?
Bob:這是一個好問題。我也不知道我們確切了解多少。也許有百分之幾的序列解釋起來很有挑戰性。一些序列是高度重複的。特別是著絲粒和端粒,它們是高度重複的,據我們所知沒有太多有趣的信息。當你跳出這些區域時,你就會發現一些難以按順序排列以及定位和解釋的獨特部分,以及基因組某些獨特區域內的重複區域,它們往往難以解釋,或在不同個體中往往是可變的。
Paul:我問了Bob,他和他的團隊正使用哪種技術來對人類染色體中這些具有挑戰性的區域進行測序。一些NGS平台,如Pacific Biosciences(PacBio),能夠產生幾kb的read長度。合成的長read技術,如10X Genomics,通過連接Illumina的短read序列而產生更長的read。Bob討論了如何利用這些方法將序列映射到人類參考基因組上。
Bob:我們開展了PacBio測序,在某些情況下它帶來了幾十kb的read。10X Genomics的技術是將短read連接起來。因此,它對短read有點用,它的作用是帶給你連接的信息,幫助你排列、定位和鑒定那些相關的東西,不過具體的位置可能存在挑戰性。它還幫助我們區分兩個等位基因。這是人們往往忽略的東西,其實每個人都有兩套基因組。我們傾向於將它們混在一起,作為一個整體來解釋。特別是在結構變異上,追蹤它們的位置變得很複雜。如果你只有一個核苷酸的改變,那麼追蹤起來是比較簡單的。不過當你有了長度上的差異,就很難將它們關聯到同一坐標系。
Paul:Bob在DNA序列的生成和分析上有超過25年的經驗。同時,作為華盛頓大學的技術開發主任,他還負責測試和評估測序技術。我請Bob介紹一下他在評估測序平台或技術時所追求的。
Bob:它是否能提供一種獨特能力,我認為這算一個。獨特能力,也就是說它提供的哪些獨特方面是我們還不具有的?它是否能提供類似但成本更低的序列?它是否能提供更長的read長度?它是否能提供更大的規模或其他解釋?還有,成本問題,通量問題,平台操作的便利性。它是否允許我們使用較少的起始材料?這是一個關鍵因素。特別是當你著眼於臨床時,手頭上會有許多挑戰性的樣本,福爾馬林固定石蠟包埋的陳舊樣本,其中的DNA狀態很糟。那麼,它是否能夠更好地對這些材料測序或從中獲取數據?此外,你還可能進行穿刺活檢,其中只有極少量的DNA,而這是你僅有的DNA。因此,可靠性以及使用少量材料的能力都很重要。這些就是我們考慮的因素。
Paul:我詢問Bob,過去25年中基因組學和DNA測序的哪些進展讓他最為驚訝。NGS所帶來的測序規模的改進的確讓他印象深刻。Bob還討論了測序規模增大對實驗室空間的意義,並將他目前的實驗室空間與森林空間相比較,後者是聖路易斯的一個公園,比紐約的中央公園大。
Bob:無疑是規模。我只是從來沒想過,在如此短的時間內,規模會達到今天這樣。以及所有的一切都以同樣的速度發展。例如,測序試劑必須進步,信息學、數據處理和數據移動的能力也必須同時發展。我們最初在1.7 ml Eppendorf管中進行測序反應,從這個角度來看,每天測序6–7 Tb的通量對我來說是難以置信的。
Paul:我自己也做過,四個獨立的管子,測序酶。
Bob:沒錯。不光這個,還有這麼小的實驗室空間。我曾經計算過,如果我們2005年的實驗室空間按測序通量成比例擴大,那麼它大概有30或35個森林公園那麼大,大約是5–6平方英里。如果按比例擴大,實驗室將需要那麼大的佔地空間。
Paul:最後,Bob討論了基因組學的未來最讓他激動的東西。目前正在開展以及未來幾年將要開展的群體測序行動,將推動新發現。關於基因組學對人類健康的影響,他也感到興奮。
Bob:在技術層面,我們已經產生了這麼多的數據,而且這個發展軌跡似乎也沒有放緩。這讓我感到興奮。我認為,挑戰將在於提供足夠的樣本和擁有這些樣本的足夠信息來解釋並推動發現。不過,對於我們目前產生的數據將要帶來的發現,我真的感到很興奮。這將是數萬個基因組的影響,而你已經開始看到這些數據集。我們的規模越大,我們就越能夠收集關鍵信息來推動發現。你開始看到這些發現轉化為人類健康的勢頭。因此,我的最終目標是人類健康,或者說改善我們的生活。無論是通過人類測序,還是我們參與的農業項目。我認為,基於基因組信息的發現似乎正在加速。從中獲得的發現,即使是短期內,也讓人很興奮。
Paul:NGS正幫助科學家最終完成整個人類基因組的測序,並改善人類參考基因組。一個更加完整的人類參考基因組將改善基因組組裝,產生更可靠的基因組分析結果,並促進我們對等位基因多樣性的了解。今天的節目就到這裡。趕緊訂閱我們的播客,這樣你就不會錯過基因組專家的訪談。下一次,我將訪問J. Craig Venter研究所的生物信息學主任和教授Richard Scheuermann博士,記得收看。我們將討論單細胞測序的標準和細胞本體——就在Illumina基因組學播客。
※再次刷新世界紀錄!承啟生物首次實現純CPU「1小時人類全基因組分析」
※英研究人員發現腸道細菌改變人體基因的作用機理
TAG:基因谷 |