當前位置:
首頁 > 知識 > 華人新建一種比較基因序列的快速矢量方法

華人新建一種比較基因序列的快速矢量方法

編者按

近日,國際著名期刊Nature子刊Scientific Reports刊登了清華大學數學系的Yongkun Li 等人的論文。該研究構建了一個新型的18維矢量方法來比較生物序列,新穎之處在於將序列某些重要的物理化學性質合併其中。該工作揭示了新方法比傳統方法更快,更適合大型序列,能提供準確的進化關係,為病毒等的進化樹構建提供了新的思路。

傳統地,用於基因序列比較的方法都廣泛地以序列對齊為基礎。但是,這些方法非常耗時且內存佔用率更高。因此,無序列對齊的方法近年來備受關注,最近已應用於種系發生。現行的四種無對齊法有各自的缺陷,於是研究者構建了一個18維特徵矢量來顯示一個DNA序列。這個矢量包含四種鹼基每種的出現頻率,核苷酸的平均位置和核苷酸的生物化學性質。

為驗證該方法的有效性,研究者將它應用於不同的數據集,如哺乳動物線粒體基因組,病毒和細菌基因組。序列長度從10,000到幾百萬個鹼基對。每個數據集,用新演算法計算基因序列的多重編碼矢量。研究者用無對齊法中的FFP法作為比較,用MEGA軟體為這兩種方法做種系發生,通過對哺乳動物、甲型流感病毒、人鼻病毒、埃博拉病毒、冠狀病毒、細菌應用兩種演算法構建進化樹,發現新演算法速度更快,準確性更高。與Clustal W 演算法相比,其不能完成59個細菌的大數據的序列對齊,而新方法僅用5.61分鐘就完成了數字矢量的產生。

圖1.41個線粒體基因組序列以多重編碼矢量法構建的進化樹

圖2.113個人類鼻病毒和3個HEV-C以多重編碼矢量法構建的進化樹

圖3. 埃博拉病毒屬59個病毒以多重編碼矢量法構建的進化樹

然而,新演算法也有待改進之處:一,用於種系發生的序列必須接近完整,使用部分基因組序列會導致產生不正確的進化關係;二,儘管不需要多重序列對齊,空隙會自動地插入序列以保證它們的長度相同,這會消耗大量時間。

綜上,該研究構建了一個新型18維矢量方法來比較生物序列,比傳統方法更快,更適合大型的序列,能提供準確的進化關係,為病毒等的進化樹構建提供了新的思路。

Abstract:With sharp increasing in biological sequences, the traditional sequence alignment methods become unsuitable and infeasible. It motivates a surge of fast alignment-free techniques for sequence analysis. Among these methods, many sorts of feature vector methods are established and applied to reconstruction of species phylogeny. The vectors basically consist of some typical numerical features for certain biological problems. The features may come from the primary sequences, secondary or three dimensional structures of macromolecules. In this study, we propose a novel numerical vector based on only primary sequences of organism to build their phylogeny. Three chemical and physical properties of primary sequences: purine, pyrimidine and keto are also incorporated to the vector. Using each property, we convert the nucleotide sequence into a new sequence consisting of only two kinds of letters. Therefore, three sequences are constructed according to the three properties. For each letter of each sequence we calculate the number of the letter, the average position of the letter and the variation of the position of the letter appearing in the sequence. Tested on several datasets related to mammals, viruses and bacteria, this new tool is fast in speed and accurate for inferring the phylogeny of organisms.

因文獻太大,上傳不了。請感興趣者,自行下載!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大自然的科學 的精彩文章:

它們生活在1.6億年前,與恐龍在同一時期滅絕消失
它的入侵讓英國造成100萬英鎊的損失
驚艷怪鳥是渡渡鳥的近親 這種鳥長得非常驚艷漂亮
養一隻貓頭鷹有多難 完全好看沒法養 貓頭鷹叫春比貓叫春猛多了
它像一個空靈的鬼像 一擊必殺,扯碎然後吞掉,這就是它的生活

TAG:大自然的科學 |