生命的基因組
導語:隨著歷史的變遷,導致人類非自然死亡原因也在不斷變化:1900年以前,主要是飢餓、戰亂;從1901年到1950年,則主要是感染性疾病;從1951年到現在,則主要轉變為心腦血管疾病、癌症;科學家們預測,在未來,神經系統疾病將成為影響人類非自然死亡的最主要原因……伴隨這個發展過程,人類醫療水平也不斷發展革新,那麼基於基因組研究的精準醫療未來將扮演什麼樣的角色?來自中國科學院北京基因組研究所的陳科博士,在SELF講壇上為我們做出解答。
小時經常會有人說,陳科你長得這麼像你爸爸;也會有人說,陳科,你像你媽媽多一點。那為什麼會這樣呢?學過生物的人都知道,因為我們的DNA,也就是鹼基,一半來自爸爸,一半來自媽媽。毫無疑問,我們的面貌特徵是他們結合以後的體現。實際上,不僅僅體現在面貌上,我們的身高,我們的胖瘦,還有我們自己是否容易患上某種疾病,都跟我們的基因是密切關聯的。
我們來看一張萬人迷的照片。我想大部分人對他都不會陌生,沒錯,他就是貝克漢姆。他從我們基因組學的術語來講是由1×10^14個細胞組成。每一個細胞從外到內,分別由細胞膜、細胞漿和細胞核三大部分組成。
所謂的細胞核,顧名思義就是核心,是細胞最主要的成分,細胞是構成生命世界中每一個有機體的基本單位。那麼細胞的細胞核再往下分是什麼樣的狀態呢?這就是剛剛黎耕老師講到的,1953年的時候人類發現DNA雙螺旋結構。所以由大到小觀察,從細胞核、染色體,再到DNA。DNA是最基本的單元,我們稱之為鹼基,它有ATGC四種類型。換句話說,我們是由這四種結構的DNA構成的。3.2×10^9個鹼基對,這就是我們人類基因組的DNA數目。
剛剛是從宏觀到微觀,從貝克漢姆到鹼基DNA來進行觀察;再反過來看看是怎樣的過程?首先是四種DNA,最基本成分叫ATGC,他們形成一定的序列;再往上,有功能的序列我們稱之為基因,基因與包含在基因周邊的蛋白質,我們把它稱為基因組;基因組構成了細胞核,細胞核是細胞的主要成分,細胞往上走,形成了器官,形成了系統;比如說我們的呼吸系統,血液系統,消化系統;到最後,貝克漢姆組裝完畢,這就是由微觀到宏觀的過程。
這個過程的奇妙之處在哪兒呢?比如大家可能會問基因是什麼、有什麼作用?我們的生物學教科書裡面有這樣一個所謂的「中心法則」,從鹼基或者說DNA開始,到RNA,到蛋白質,這個過程最終的目的是形成蛋白質。孩童的微笑,情侶之間的眉目傳情,我在這裡講,您在下面聽,所有的動作都是我們的蛋白質在執行功能。
DNA如此重要,它被稱之為我們生命的源代碼,這個源代碼給予我們所有的活動,這些活動都能夠回溯到DNA上去,因此我們可以從DNA中找到某種問題的原因,來解釋它。
正是因為基因組的重要性,人類科學家開始聯合起來進行研究。在上個世紀90年代,確切來講是1990年,以美國和英國為首的遺傳學領域科學家們聯合起來發起了人類基因組計劃,這個計劃簡稱叫HGP,由六國科學家組成。
當時計劃用15年的時間,測序一個人的基因組。為什麼要花這麼長的時間呢?因為我們基因組的大小是3.2×10^9個序列,而且其中75%以上是基因間區。換句話說它裡面有很多的重複序列,這種重複序列的存在導致了我們想把它從3.2×10^9的過程完全弄清楚是不太容易的。
人類基因組計劃從1990年開始啟動,到2000年,美國總統先生說我們完成了人類最偉大的計劃之一,再到現在,這個版本已經更新到了第38版,最新更新時間是2013年12月。我們預計它的更新還會持續,只能說更新幅度越來越小,我們離真相越來越近。
自從人類基因組計劃啟動之後,相關測序產業也是蓬勃發展,直接作用就是我們可以了解更多物種的基因組是什麼樣子。到現在為止,有將近一萬個物種已經有了自己的基因組。
不做基因組的人可能不太清楚,總統先生和黑猩猩有多少相似度?剛才猜測60%、70%、80%、90%的人都有,事實上是99%。那麼從基因組學這個角度來看,當我們認為自己多麼與眾不同時,多少顯得有點滑稽。我們和猩猩的差別其實只有1%。而且,從更大範圍來看,我們人類的基因組並不是最大的,我們的基因數目也不是最多的;最大的基因組來自於日本一種植物;這個表格中,平常不起眼的玉米,大概有5萬個左右的基因,多於人類的2萬個基因。中國人和美國人的基因相差只有0.1%,而我和你99.99%的基因都是一樣的,差別不大。但是,回過頭來要記住,因為它的基數是3.2×10^9,你去乘基數之後,也就得到了10^4到10^5之間的差異。
我們經常會聽到,不管是腫瘤也好,糖尿病也好,心腦血管疾病也好,經常都可以找到基因突變跟某一個疾病有關聯的。但是請大家一定注意,很多情況只是一種關聯,關聯不是因果。因果是說,我和我老婆的存在,導致了我女兒的出生;而關聯不是因果關係,只是一個隨帶的關係。比如我女兒碰巧上了這家幼兒園,她上這個幼兒園是一個關聯,而不是因果。就像前面提到的一樣,基因突變很多時候是一個關聯;它並不可怕。而且我剛剛說了,哪怕我們99.99%相似,只有萬分之一的不同,但是基數足夠大。每個人,比如我們從爸爸媽媽繼承的基因突變,每一代大概是72個,這是有據可循的,而且這72個裡面大部分來自於父親的貢獻,有的遺傳學家就此認為,其實進化的動力來自於父親,因為它顯現了更多突變,更有可能給後代帶來基因的多樣性,更有可能使得後代與眾不同。
正是因為基因組學的如此重要,在人類基因組計劃之後,全世界範圍的科學家並沒有放棄追逐。當時的人類基因計劃研究對象只有一個人,但是一個人太少了,每個人都不一樣,因此便有了後來的千人基因組計劃,我們檢測一下黃鐘人,再測一下黑色人種,白色人種,每一個人種,不管是中國人,還是日本人,雖然差別可以縮小到十萬分之一,但是它的數目還是足夠大的。
所以千人基因組計划出台後,我們今後在使用的時候,在序列比對的時候,可能不用再去比人類基因組計劃中的HG38(人類基因組計劃的第38版),而是比對我們自己的,比對我們中國人群的,比對我們中國南方人群裡面某一個亞系的人群基因組,這樣才更有可能找到:我突變了什麼?我哪種疾病爆發的可能性更大?這就是千人基因組計劃的初衷。
後來,為了把一直困擾人類的癌症解釋清楚,世界範圍內的兩大組織,分別是加拿大領銜的國際癌症基因組聯盟和美國人領銜的癌症基因組圖譜,用基因組學方法去測序某一個類別的腫瘤。
比如說腎癌,他們選擇了500多名腎癌患者來測序它的基因組,分析哪些腎癌產生了突變,哪些突變跟愈後相關聯,哪些藥物針對哪些突變,然後對患者後續治療做指導。
美國人領銜的計劃(TCGA)在去年結束,加拿大領銜計劃(ICGC)現在還沒有結束。但是毫無疑問,不管是白種人,黑種人,還是我們黃種人,我們人類最主要的腫瘤基本上都測序結束了,這就導致大量數據的產生。
我們知道一個U盤大概有十個G,乘以1024倍是10個T,再乘以1024倍是10個P。而我們研究所裡面數據儲存遠遠高於這個,因為數據無時無刻不在產生,這樣的數據量意味著我們需要更大容量,需要更大的容器來把它裝下來,不然我們沒有辦法去比對它,沒有辦法很好地使用它。而這也導致了所謂的生物大數據的出現,大到了T級,大到了P級。
在大數據的應用方面,精準醫學的出現毫無疑問對大數據是最好的回饋。因為花了那麼多的錢,十幾個國家的科學家投入研究,十幾年的時間,數百億美金的投入,對我們人類產生了如此多的數據,我們不用它豈不變成了垃圾?其實精準醫學並不僅僅是美國總統在2015年和2016年曾經提到,在這之前,在我們中國,在我們中國科學院,在美國以外的地方,很早就有人提出來精準醫學,因為需要針對每個人的基因背景,針對每個人蛋白背景來做個性化的裁減,來做個性化的治療,這就是所謂的精準醫療,形象點來說,就是哪裡壞了修哪裡,這是最好的想法。
這是精準醫學在癌症領域的應用。我展示的這個流程圖是以肝癌為例的整個精準醫療的流程。術前影像顯示有個腫塊,影像結果出來之後,大部分患者會選擇做手術。手術之後我們會進行一個病理學的判斷,診斷肝癌到哪一級,哪一期;並且對這樣的手術樣本進行基因組學建庫,建庫以後進行基因組學測序,測序之後進行分析,分析以後會由董事會(諮詢委員會)坐下來討論這個患者的基因背景是什麼樣的,哪些突變可能是致病的,哪些不是主要的突變,董事會(諮詢委員會)裡面會包含至少四類人員,包括生物信息學家、遺傳學家、臨床大夫、病理醫生。討論結束後,我們針對這些可用的突變頻譜進行驗證,驗證結束之後我們會對患者進行報告。比如肝癌,已有的病理學分析到了哪個層面,現在基因組分析到了哪個狀態,現在有哪些葯可以用,哪些是針對患者的。這樣的報告就是精準醫學最直接的體現。
在國外,精準醫療已經在頂尖醫院應用了大概5年左右的時間,但是精準醫療並沒有完全的鋪開,我們中國才剛剛起步。但是中國人從來都是勤奮的,國外需要一個月完成的流程,在我們中國10天就可以搞定。
講一個故事,這個故事的主角是華盛頓大學的一個助理教授,他自己做白血病研究。不幸的是,2003年的時候,他自己得上了白血病。按照以往的方法進行了化療,但是5年過後病情複發,他移植了弟弟的骨髓,可是好景不長,三年之後他再次複發,而這個時候癌症基因組學的進展處在一個高峰階段,癌症基因組學發現他有一個基因異常高表達,而且靶向藥物可以治療這個異常高表達基因。這裡有一點特彆強調的是,這個靶向藥物其實是治療晚期腎癌的。換句話說,他用治療腎癌的藥物治療了白血病,那麼現狀如何呢?最近的資料顯示他還活著。這是一個幸運兒,從開始治療到現在已經過去了十二三年的時間,對於白血病患者來說,這是一個奇蹟,對於腫瘤基因組學應用來說也是一個非常令人振奮的消息。
另一個例子與糖尿病有關。這位長者是斯坦福大學的教授,他自己也是做遺傳學研究的,他的故事於2012年發表在Cell期刊--這是我們生物學研究人員最夢寐以求發文章的地方,可以理解為頂級期刊。他的故事講到,在600多天的時間裡,他分20個時段採集自己的血液做基因組的分析,他發現自己存在二型糖尿病的風險,這個風險值大概0.5左右,這個時候他就有點著急了,就像之前我們在網路上看到過的那樣,安吉麗娜·朱莉因為家族罹患乳腺癌和卵巢癌的風險過大,就把乳腺全部切除了。當這位教授知道自身血糖升高之後,就開始進行行為干預,此後血糖降了下來。對於他來說精準醫學是一個成功案例,因為它成功的延緩了自己糖尿病的進展,很有可能讓自己的糖尿病發生時間延後,甚至不發生。
這是兩個經典例子:一個是癌症,一個是糖尿病。這麼好的例子,我們大部分人支付的起嗎?答案是肯定的。2000年的時候,每個人做基因組測序的花費是27億美金,到了今天變成了一萬元人民幣,時間成本和人力成本直線式下降,13年變成13天,人力成本從三千人變成了三到五個人就能夠搞定。所以現在一萬塊錢就可以測一個人的基因組,在今年年底這個費用還會繼續下降,業界最終目標是一千塊錢測一個人的基因組。也許5年左右的時間,我們可以用手機APP查看自己的基因組,享受生物大數據、基因組學數據、精準醫療帶給大家的普惠,當然,在一定程度上,先期時候還是需要付費的。
正是因為生物數據的如此複雜多樣,它的層次除了DNA,RNA,還有蛋白質,還有更多層面,這麼多的數據,作為一個大夫來講不可能完全記得的。對於我們絕大部分民眾來說也沒有必要記這個事情,因為有人替我們去做。
以IBM為代表的商業機構推出了所謂的電腦醫生平台,這個平台最大的特點就是在15秒之內搜索百萬級別的文獻,並給出一個相對合理的治療方案。其中診斷階段,治療階段,每個方案都有參考文獻,不是憑空而來的,夠強大吧?可能有人會擔心,最後我們去醫院看病可能醫生不見了,可能被電腦替代了。事實上我可以很明確的告訴大家,不論今後怎麼變,大夫必不可少,因為電腦所做的事情雖然如此強大,能夠在15秒內給出答案,但是這個答案仍基於已有的資料庫,它沒有推斷的能力。
當然,如果說基於AlphaGO能夠擊敗李世石這件事情,可以認為人工智慧存在無限可能,但是至少從目前來看,電腦醫生只是一個供人們搜索和檢索的資料庫,而不是一個具有推動、推算、推演能力、有邏輯思維能力的真正的人。所以大家想像的,到醫院去對著一台機器說話,然後他告訴我去哪裡檢查,然後給我抽血、做按摩、做手術,這還需要很長的時間,但不能說絕對沒有可能。
既然精準醫療是如此好的東西,為什麼沒有廣泛推廣?除了之前提到的費用原因,就我們國內狀況來看,還有以下幾個方面是需要進一步打破壁壘。
因為精準醫療是新事物,所以在監管層面還有很多東西沒有理順,沒有一個真正條文規定告訴該怎麼做,這是第一個方面。
第二個方面,對於患者來說,或者是對患者家屬來說,他們非常想參與進來,但他們不知道有什麼途徑可以了解相關的信息。比如我把測序儀買回來,測序結果出來以後,醫院也不會分析;如果我們依靠第三方機構,問題又來了,第三方機構魚龍混雜,難以取信;甚至我們經常可以在街邊巷尾看到這樣的兜售行為,說給你家孩子測個基因,看看他未來適合做科學家、藝術家,還是適合當教師。這些到現在為止,因為我們的資料庫不夠強大,市面都是一些虛假的廣告。
第四個層面,是目前還沒有一家第三方機構能夠把我前面提到的四種認證專家集中起來做這件事情,因為這個行業還處於起步階段,還有很多需要完善的地方,但是曙光已經出現,今後的可能性很大。
我們人類從有史以來,死亡原因一直在變遷,100多年前我們絕大部分的祖先都是因為飢餓和戰亂而死亡,到了上個世紀上半葉,感染性疾病,西班牙流感,給人類留下巨大創傷,我們今天讀教科書的時候仍然心有餘悸;到了上個世紀下半葉,心腦血管疾病,癌症成為死亡的主要原因,有一些科學家醫學預測,當我們解決這些問題之後,在即將到來的未來,神經系統疾病將成為我們人類即將消亡的原因。基因組學能夠解決所有問題嗎?答案是否定的。因為我們每個人的基因只有一套,但是基因上面所修飾的,所依附的,所被黏附在上面的分子是多種多樣的。
時至今日,生命的天書已經被打開了,我們期待它給我們帶來不一樣的應用,最終造福於我們人類的健康,為我們人類謀更大的福祉,謝謝大家。謝謝中科院青促會對我個人成長的資助!
登陸「SELF格致論道」官方網站獲取更多信息(http://self.org.cn/)。本期視頻也將陸續在中國科普博覽上推出,敬請關注。更多合作與SELF工作組self@cnic.cn聯繫。
出品:中國科普博覽SELF格致論道講壇
※蜜蜂也會給後代"接種疫苗"?
※《如懿傳》里富察氏皇后的家族有多厲害?
TAG:知識百科 |