負責編碼蛋白質的基因比預期的要少20%
最新研究指出,人類的基因組中編碼基因的數量比科學家預估的要少出20%。
自2003年成功完成了人類基因組測序以來,科學家一直試圖弄清楚,有多少基因可以表達生成蛋白質,又有多少基因負責調控細胞的生理化學過程。這也不是第一次猜測失敗。
由西班牙國家癌症研究中心(CNIO)領導的一項國際聯合研究發現,目前按科學傳統分類為編碼基因的約20000條核苷酸序列中,有超過4000個基因實際上可能無法通過編碼產生蛋白質。
「我們已經對這些基因做了足夠多足夠詳盡的分析,」CNIO生物信息學研究員Michael Tress解釋說,「已有300多條基因被重新歸類為非編碼基因。」
但是,如果這些基因——或許還有成千上萬的基因——不是我們構建蛋白質的編碼基因,那麼它們是什麼?
目前還沒有人知道確切的答案,但這意味著我們細胞中存在著大量的非編碼DNA(又叫垃圾DNA或衛星DNA),這些DNA占人類基因總數的75%。
雖然大量的遺傳密碼可能無法產生蛋白質,但它們並不一定像綽號所暗示的那樣「垃圾」,因為科學家不斷發現新的證據,表明所有這些衛星基因和假基因(過時的編碼基因)對我們的身體產生了某種實際的影響。
在這項新研究中,Tress和他的團隊分析了三個資料庫中的數據——它們是對人類蛋白質組進行編目的主要參考資料庫:GENCODE / Ensembl,RefSeq和UniProtKB。
研究人員表示,在這三個資料庫——共計22210個編碼基因——有2764個基因僅僅被1或2個資料庫識別為編碼基因。
實際上,這些基因外加另外1470個被三個資料庫同時鑒別為編碼基因的基因都無法像典型的蛋白質編碼基因一樣演化,換句話說,總共有4234個基因屬於垃圾基因或假基因。
結果還需要進一步研究確認,但是「我們為基因做出進一步的精確分類是極為重要的工作,」該團隊表示,「因為蛋白質組分類是大多數基礎研究的支柱,它支撐起了幾乎所有的大規模生物醫學項目。」
「令人驚訝的是,我們早已對其中一些假基因做了許多煞有介事的研究,有超過100篇科學出版物專門探討這一基因編碼的蛋白質有何特性——然而,現在我們知道它是假基因,所以不負責表達產生蛋白質。」團隊中來自西班牙龐培法布拉大學的David Juan說。
科學家們越早澄清這些細節,人類的基因科學就越健康。
作者總結說:「即使我們發現的可能的非編碼基因中只有一半確實是非編碼基因,這顯然也會對一系列領域產生重大影響。作為分析過程的一部分,混入非編碼基因的假基因越多,最後的分析結果就越嘈雜。」
該發現刊登在國際雜誌Nucleic Acids Research上的研究報告中。
本文譯自 sciencealert,由譯者 majer 基於創作共用協議(BY-NC)發布。
TAG:煎蛋 |