用於掃描整個人類基因組序列的袖珍型DNA閱讀器
幾年前,一家名為Oxford Nanopore的公司宣布正在開發一種完全不同的DNA測序方法。其方法包括取雙鏈螺旋的單鏈,並通過蛋白質毛孔填充它們。當細小的電流流過孔時,DNA的四個鹼基每個都會在電壓通過時產生明顯的(如果微小的)變化。當它在毛孔中擺動時,這些可以用來一次讀出一個鹼基。
經過幾年的緩慢進展,Oxford Nanopore宣布其測序硬體將與其濕件一樣獨特:可以舒適地放在人手中的USB設備。當第一批設備出現給用戶時,很明顯該設備有一些優點和缺點。從好的方面來說,該設備很快,可以使用,而不需要大的設施來支持它。它也可以一次讀取非常長的DNA片段。但不利的一面是顯著的:它犯了很多錯誤。
有了幾年的經驗,人們現在開始學習如何充分利用這些設備,正如研究人員用它來幫助測序人類基因組的一篇新論文所展示的。通過使用這台機器的長讀數,一個DNA分子中有近90萬個鹼基 - 作者能夠從人類基因組中的數據中獲取數據,從而抵制以前的表徵。他們能夠區分兩組染色體(一個來自母親,一個來自父親),並在基因組的許多區域中定位表觀遺傳控制區域。
鑒於它可以提供的所有不同的信息,機器的錯誤率似乎沒有什麼問題。
錯誤和更正:我們有DNA測序機器,犯了很少的錯誤。不幸的是,它們只能讀取約200個鹼基左右的DNA。計算機軟體必須認識到這些小塊重疊的情況,並用它們來建立更大的序列。當DNA重複或在基因組的多個區域出現非常相似的序列時,這個過程就失敗了 - 軟體根本沒有辦法知道哪裡去了哪裡。
正如我們在蠑螈基因組中看到的那樣,可以使用更長的,容易出錯的讀取來理解這個混亂。高精度的方法提供了序列,而較長的讀數告訴我們這些序列是如何連接成較大的片段的。仍然會有差距,但是它們會更少,而且會有更多的序列出現在大片中,而不是小碎片。雖然蠑螈基因組依賴於太平洋生物系統公司的機器,納米孔系統也可以在這方面發揮作用。
或者至少應該。新論文的目的之一就是要證實這一點,並且很多論文都涉及到如何從作者的納米孔中獲得最好的序列。例如,他們嘗試了兩種不同的軟體包來解釋他們機器發出的電壓數據,發現使用神經網路的社區開發的開源軟體包提供了最好的數據。將納米孔讀取與較短的高質量片段組合,將基因組組裝的整體準確度提高至99.88%,這表明這是有效的。
但研究人員遠遠超出了這一點。納米孔序列本身的準確率只有92%。合併時,從同一台機器上讀取相同的序列可提高97%以上的精度。然後,一個單獨的軟體包可以比較不同意見不一致的情況,並作出哪些可能是正確的決定; 這提高了99.44%的精度。這不如有短,高質量的讀取,但它足夠接近許多目的。加上高質量的短讀數提高了99.96%的準確度。
納米孔還提供了一些非常明顯的優點。例如,基因的活性可以通過所謂的表觀遺傳修飾來改變 - 一些鹼基的化學修飾不會改變DNA序列。這些變化也會稍微改變電壓讀數,使研究人員能夠確定基因組的位置。
長久:我們還繼承了每個染色體的兩個拷貝(除了男性的X和Y):一個來自媽媽,一個來自父親。雖然這些拷貝是不同的,但是大部分潛在的DNA對於長延伸是相同的,使得不可能使用短DNA讀取來確定哪個染色體是哪個。因此,雖然你可以知道哪裡存在差異,但是不可能說在同一染色體上哪些差異是一起遺傳的。從納米孔長讀取使這成為可能。
最後,研究人員決定儘可能長時間進行閱讀。DNA是一種長而細的分子,操縱長DNA的溶液往往會將其分解成小碎片,因為流體的運動將產生剪切力和拉伸力。但是,如果你非常小心,這些可以被最小化。當作者採取這些預防措施時,納米孔機器提供的典型讀取長度高達100,000多個鹼基; 一讀達到882,000。
這足以覆蓋原始項目對人類基因組測序所留下的一些空白。其中一個是50,000個鹼基長,包括一個基因的重複。另有八個副本連續快速重複。隨著時間的推移,應該有可能使用這種方法來真正使基因組完成。
但是,這項工作確實發現了序列方面的一些缺點。例如,用於保存DNA數據的常見文件格式不能被指定為處理這些序列。因此,一些分析軟體根本無法使用納米孔讀取。由於這些兼容性問題,該團隊不得不依靠處理器密集型演算法進行一些分析。
從這個分析中得出的令人印象深刻的結果表明,將軟體更新到最新狀態是非常值得的。
TAG:夜行的貓 |