用於掃描整個人類基因組序列的袖珍型DNA閱讀器

科技 01-31

幾年前，一家名為Oxford Nanopore的公司宣布正在開發一種完全不同的DNA測序方法。其方法包括取雙鏈螺旋的單鏈，並通過蛋白質毛孔填充它們。當細小的電流流過孔時，DNA的四個鹼基每個都會在電壓通過時產生明顯的（如果微小的）變化。當它在毛孔中擺動時，這些可以用來一次讀出一個鹼基。

經過幾年的緩慢進展，Oxford Nanopore宣布其測序硬體將與其濕件一樣獨特：可以舒適地放在人手中的USB設備。當第一批設備出現給用戶時，很明顯該設備有一些優點和缺點。從好的方面來說，該設備很快，可以使用，而不需要大的設施來支持它。它也可以一次讀取非常長的DNA片段。但不利的一面是顯著的：它犯了很多錯誤。

有了幾年的經驗，人們現在開始學習如何充分利用這些設備，正如研究人員用它來幫助測序人類基因組的一篇新論文所展示的。通過使用這台機器的長讀數，一個DNA分子中有近90萬個鹼基 - 作者能夠從人類基因組中的數據中獲取數據，從而抵制以前的表徵。他們能夠區分兩組染色體（一個來自母親，一個來自父親），並在基因組的許多區域中定位表觀遺傳控制區域。

鑒於它可以提供的所有不同的信息，機器的錯誤率似乎沒有什麼問題。

錯誤和更正:我們有DNA測序機器，犯了很少的錯誤。不幸的是，它們只能讀取約200個鹼基左右的DNA。計算機軟體必須認識到這些小塊重疊的情況，並用它們來建立更大的序列。當DNA重複或在基因組的多個區域出現非常相似的序列時，這個過程就失敗了 - 軟體根本沒有辦法知道哪裡去了哪裡。

正如我們在蠑螈基因組中看到的那樣，可以使用更長的，容易出錯的讀取來理解這個混亂。高精度的方法提供了序列，而較長的讀數告訴我們這些序列是如何連接成較大的片段的。仍然會有差距，但是它們會更少，而且會有更多的序列出現在大片中，而不是小碎片。雖然蠑螈基因組依賴於太平洋生物系統公司的機器，納米孔系統也可以在這方面發揮作用。

或者至少應該。新論文的目的之一就是要證實這一點，並且很多論文都涉及到如何從作者的納米孔中獲得最好的序列。例如，他們嘗試了兩種不同的軟體包來解釋他們機器發出的電壓數據，發現使用神經網路的社區開發的開源軟體包提供了最好的數據。將納米孔讀取與較短的高質量片段組合，將基因組組裝的整體準確度提高至99.88％，這表明這是有效的。

但研究人員遠遠超出了這一點。納米孔序列本身的準確率只有92％。合併時，從同一台機器上讀取相同的序列可提高97％以上的精度。然後，一個單獨的軟體包可以比較不同意見不一致的情況，並作出哪些可能是正確的決定; 這提高了99.44％的精度。這不如有短，高質量的讀取，但它足夠接近許多目的。加上高質量的短讀數提高了99.96％的準確度。

納米孔還提供了一些非常明顯的優點。例如，基因的活性可以通過所謂的表觀遺傳修飾來改變 - 一些鹼基的化學修飾不會改變DNA序列。這些變化也會稍微改變電壓讀數，使研究人員能夠確定基因組的位置。

長久:我們還繼承了每個染色體的兩個拷貝（除了男性的X和Y）：一個來自媽媽，一個來自父親。雖然這些拷貝是不同的，但是大部分潛在的DNA對於長延伸是相同的，使得不可能使用短DNA讀取來確定哪個染色體是哪個。因此，雖然你可以知道哪裡存在差異，但是不可能說在同一染色體上哪些差異是一起遺傳的。從納米孔長讀取使這成為可能。

最後，研究人員決定儘可能長時間進行閱讀。DNA是一種長而細的分子，操縱長DNA的溶液往往會將其分解成小碎片，因為流體的運動將產生剪切力和拉伸力。但是，如果你非常小心，這些可以被最小化。當作者採取這些預防措施時，納米孔機器提供的典型讀取長度高達100,000多個鹼基; 一讀達到882,000。

這足以覆蓋原始項目對人類基因組測序所留下的一些空白。其中一個是50,000個鹼基長，包括一個基因的重複。另有八個副本連續快速重複。隨著時間的推移，應該有可能使用這種方法來真正使基因組完成。

但是，這項工作確實發現了序列方面的一些缺點。例如，用於保存DNA數據的常見文件格式不能被指定為處理這些序列。因此，一些分析軟體根本無法使用納米孔讀取。由於這些兼容性問題，該團隊不得不依靠處理器密集型演算法進行一些分析。

從這個分析中得出的令人印象深刻的結果表明，將軟體更新到最新狀態是非常值得的。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 夜行的貓 的精彩文章:

※在iOS更新中，您將最終能夠使用人臉ID批准家庭購買

TAG:夜行的貓 |