中國學者在Nature Methods發表論文,介紹三代測序數據計算方法的突破
下文由研究者團隊提供
9月18日,中山大學中山眼科中心謝志、肖傳樂、謝尚潛,中山大學數據科學與計算機學院陳穎,湖南農業大學羅峰等學者合作在Nature Methods雜誌上發表了三代基因組測序數據計算方法(https://www.nature.com/nmeth/journal/vaop/ncurrent/full/nmeth.4432.html),此方法解決了該領域的關鍵技術難題。
本項目負責人謝志教授和主要完成人肖傳樂副研究員表示:以PacBio和Oxford Nanopore公司為代表的三代測序技術能夠產生遠遠長於二代測序技術的基因組序列讀長,很好的解決複雜基因組的組裝及結構變異等難題,為基因測序和精準醫學領域帶來了全新的機遇。然而三代測序數據的高錯誤率(12-15%)給數據分析了巨大的挑戰,嚴重影響了三代測序技術的應用。為此我們提出了一種全新的基於全局投票打分的候選序列評估方法,該方法可以大幅降三代序列比對、校正和組裝的計算資源消耗,從而極大提高計算效率;並基於此方法成功開發了集序列比對、校正和組裝為一體的三代測序分析軟體MECAT。與同類軟體相比,MECAT在計算速度上表現出了明顯的優勢,並且首次在單個伺服器上實現了中國人的基因組組裝工作;為加速三代測序技術在生物和醫學的應用提供了重要的支撐。
圖1 三代測序數據的基因組組裝時間對比
基於三代測序數據的基因組組裝中最消耗計算時間的過程是序列局部比對。為了減少進入局部序列比對的候選區域,研究人員提出快速測量兩個序列編輯距離的序列差異因子(DDF)和全局種子投票打分的計算理論模型。該模型表現出了兩個序列全局種子得分與重疊長度成線性相關的重要特徵,這一特徵使得兩序列重疊區域的長度可以通過種子全局得分進行評估。全局種子得分模型不僅能獲取候選局部比對所需要兩序列準確起始比對位置,而且首次實現了非局部序列比對的兩兩序列比對過程,從而大幅節約了三代測序兩兩比對的計算時間。目前,MECAT在人類基因組數據中的長序列兩兩(pairwise)比對時間比目前領域的主流軟體(MHAP和Daligner)快至少17倍。由於兩兩比對計算時間隨著測序數據量增加成指數增長,因此對於大測序數據集MECAT中兩兩比對方法的加速比將更加顯著。同時,通過優選幾個最高得分候選區域大幅降低進入局部序列比對候選區域的數量,也實現了參考基因組比對過程中大幅節約計算時間的效果,在人的參考基因組比對中,MECAT的速度是目前同類軟體(BLASR和BWA)的5-20倍。
三代測序錯誤序列校正是基因組組裝另一耗時步驟,MECAT通過優選最高得分的候選匹配序列進行局部序列比對,從而大幅降低進入局部序列比對過程的候選序列數量,因此大幅提高三代測序的序列校正時間。MECAT中序列校正速度是目前軟體的7-8倍。基因組組裝通常尋找序列重疊長度最長路徑作為組裝序列延伸路徑,因此,根據MECAT全局種子投票得分與兩序列重疊長度線性相關這一重要特徵,可以通過全局得分對每個序列優選100個候選序列作為該序列候選延伸序列,從而避免了如傳統BLAST方法中每個序列尋找所有重疊序列的序列比對計算時間。目前,MECAT在人類基因組的組裝速度是同類軟體的17-23倍,MECAT能夠在單台伺服器上用7-8天完成人類基因組組裝。
由於MECAT計算資源消耗顯著低於目前序列比對、校正和組裝軟體,同時提高了演算法的精度和組裝的效果,因此MECAT首次實現了用二代測序相近的時間組裝三代測序基因組,為加速最新測序技術的廣泛應用提供重要推力。
※一個小時代的終結:14張圖紀念卡西尼號13年土星之旅
※企業贊助的科研,結果卻不利於企業:新煙鹼與蜜蜂的最新故事
※它一生可以吃掉10000隻害蟲,卻被人類當做「盤中餐」
※萬事萬物的終極解答,會是反物質嗎?
※Nature Research開放獲取3本新期刊,走高質量精選路線
TAG:Nature自然科研 |