基因、癌症、衰老……有了大數據,這些問題都將被徹底顛覆
「我就是在這個時候開始覺得自己老了,」安妮·科克倫(Anne Corcoran)說。
科克倫是英國人類生物學研究機構巴布拉漢研究所(Babraham Institute)的科學家,她領導的團隊研究人類基因組與免疫系統之間的關係——確切地說,是與防禦感染的抗體之間的關係。
按她自己的話說,她是一名「老派的生物學家」,擅長使用吸量管、培養皿和護目鏡在工作台上用玻璃器皿做實驗,這些被稱為「濕實驗室」技能。她回想起自己的早期職業生涯,說道:「我知道基因在凝膠上是一幅怎樣的景象」。
但現在,那些技能已經不夠用了。「15年前我開始招募博士生的時候,候選人掌握的全是濕實驗室技能,」科克倫說,「現在我們招募時,最先看的是他們是否能應付複雜的生物信息分析。」如今,想要成為生物學家,你必須是統計學家,甚至是程序員。你必須能使用演算法。
從本質上來說,演算法是一組指令,是一系列預先確定的步驟。食譜可以被視為一種演算法,但更典型的例子是計算機程序。你輸入數據(原料、數字或者其他任何東西),接著運行演算法的步驟(簡單的如「每個數字加1」,複雜的如谷歌搜索演算法),最後得到輸出數據:蛋糕,搜索結果,或者Excel表格。
科克倫這樣的研究人員需要使用演算法,原因是在她成為團隊負責人之後的17年間,生物學已經發生了翻天覆地的變化。改變生物學的是巨大到令人窒息的數據洪流。新的生物醫學技術,尤其是下一代的基因測序技術產生了大量數據。
不久前,對整個基因組進行測序(確定螺旋結構中所有30億個DNA鹼基對的順序)還需要數年時間。人類基因組計劃(首個完成的人類全基因組測序)於1990年啟動,2003年完成,歷時13年之久,耗資30億美元。如今,下一代測序技術能在24小時內做到同樣的事情,花費不過1000多美元。
這徹底改變了科學家的工作方式。他們不再需要頻繁地親自上手做實驗,需要掌握的技能也與以前不同。不僅如此,科學的整個過程(提出想法和開展測試)都被顛覆了。
很多年長的科學家不得不去理解和監督那些他們接受專業訓練時並不存在的技術。各所大學也在補上這方面落下的東西,因為很多學位沒有教授現代生物學家所需要的技能。然而最重要的一點是,這催生了20年甚至10年前不可能做出的突破性科學發現。
科學的整個過程被顛覆
在距離巴布拉漢研究所10分鐘車程的Hinxton村,坐落著另一個重要的生命科學研究中心:威康桑格研究所(Wellcome Sanger Institute)。該研究所已成立25年,其建築本身就是快速變遷的基因學歷史的某種體現。
在歐洲信息研究所(European Bioinformatics Institute)領導一支研究團隊的莫里茨·格爾斯頓(Moritz Gerstung)說:「我是在桑格研究所做的博士後。」他回憶起那段經歷不由得笑了起來。「你幾乎能想到那棟建築是在什麼時候設計的,」他說,「供實驗室作業的地方很大,卻沒有多少空間供科學家坐在電腦前分析數據。」
牛津大學大數據研究所統計遺傳學教授吉爾·麥克文(Gil McVean)說,到處都是這樣。如今,基因組研究主要是在電腦上完成,而不是在實驗室工作台上。「看看15年前成立的實驗室,90%都是濕實驗室,」他說,「而現在如果你進入一間實驗室,幾乎所有人都坐在電腦前。如今要建一個生物醫學研究中心,肯定是10%的濕實驗室空間和90%的計算機空間。」
變化還不止如此。麥克文說:「科學研究的一大變化是放棄了目標明確、假設驅動的方法,也就是『我有了這個想法,然後設計實驗,開展實驗,驗證這個想法是對還是錯』。」
以前,你必須先對某基因的作用機制有一個貌似合理的想法——你可以設想有某個聽起來合理的生化途徑,可以把該基因和某種疾病或特徵聯繫起來。基因測序耗時良久,可用的計算能力有限,這意味著把珍貴的實驗室和分析時間全部投入進去之前,你必須先確定目標。
麥克文說,現在你只需要收集大量數據,讓數據來決定應該作何假設。如果你分析1萬名某疾病患者和1萬名非該病患者的基因組,你可以使用演算法進行比對,找到不同之處,然後弄清楚是哪些基因與這種疾病有關,不必事先考慮可能是哪些基因。
這種方法被稱為全基因組關聯分析,是數據驅動時代一種常見的分析形式。想法非常簡單:對很多人的基因組進行測序,然後使用演算法來比對所有的DNA——不只是2.4萬個基因(它們只佔到基因組的1%至2%),還包括所有的非編碼DNA。演算法也可以非常簡單,例如比對某DNA變體在具有某一特徵或疾病的人身上出現的頻率和在不具有這一特徵或疾病的人身上出現的頻率。如果該變體伴隨某一特徵或疾病一起出現的頻率明顯超出你的預期,那麼演算法就會把它標記為可能的原因。
難就難在幾乎所有的疾病都很複雜,擁有幾十甚至幾百個基因或者非編碼DNA片段。這需要用到複雜的多維分析,雖然其中牽涉的數學計算並不新鮮,但工作量非常大,因此演算法不可或缺。通常來說,演算法能一次比對幾十或者幾百個參數。
這有點像谷歌搜索演算法。給各個網頁排名的過程並不複雜,例如先衡量搜索詞在某網頁上出現的頻率,接著衡量它們在該網頁上出現的位置,然後衡量有多少個鏈接指向那個網頁,諸如此類。但谷歌搜索演算法把數以百計的衡量數據整合起來,同時應用於幾十億個網頁,這非人力所能及。
演算法作用極大。格爾斯頓研究的是癌症基因組學,該領域的進展也許最激動人心,例如與白血病有關的進展。
在某些情況下,全骨髓移植能成功地治療這種常常致命的可怕疾病。但這是重大手術,有時併發症本身也能致命。只有那些病情最為致命的白血病病人才應接受全骨髓移植手術。
然而,很難預測哪些病情將會最為致命。癥狀十分複雜,有時不容易判斷預後。
癌症有了新發現
格爾斯頓的團隊對1500人的癌症基因組進行了測序,找到導致癌症的DNA變異,然後看看哪些變異與哪些結局有關。他們從患者身上發現了5000個不同的變異,大約有1000種不同的組合,按風險高低分成11類。「這可以幫助醫生作出更加準確的決定,」格爾斯頓說。
數據驅動方法的影響力延伸到了更遠的地方。南安普頓大學癌症免疫學教授艾德·詹姆斯(Edd James)說,腫瘤基因組測序已經使我們對癌症的總體認識發生了「思想上的改變」。「現在,我們更加意識到,癌症不只是一堆複製的細胞。」
一種癌症可能包含數十種不同的細胞,每種細胞具有不同的DNA變異組合,受制於不同的藥物。因此,基因測序使醫生可以更好地判斷哪些藥物對哪些病人(和腫瘤)有效。「以前,人們被當成群體成員來治療:『在接受這種治療的人當中,X%的人將會獲得良好療效』,」詹姆斯說,「但有了測序數據後,你能知道他們(作為個體)是否會獲益。」
除了發現不同之處,基因測序還揭示了癌症之間出人意料的相似性。詹姆斯說,以前我們根據身體部位來定義癌症,比如肺癌、肝癌、頭頸癌等等。「但使用下一代測序技術,你會發現不同部位的癌症比相同部位的癌症擁有更多的相似性。這使我們意識到,對某種癌症有效的藥物,可能對其他癌症也有用,」他說。
格爾斯頓持相同看法:「從基因的角度來看,不同部位的癌症之間有很多相同點。在某些前列腺癌中甚至發現了BRCA1,而BRCA1是乳腺癌的主要基因。」
這種認知將變得越來越重要。近日,美國食品藥品監督管理局允許癌症藥物Pembrolizumab用於存在錯配修復缺陷(一種DNA修復錯誤)的任何癌症。這開啟了根據癌症基因而不是部位來批准用藥的時代。
科研也需「與時俱進」
這一切都得益於持續噴涌的數據流。
「我們非常善於產生數據,」研究病原菌基因組的桑格研究所數據科學家妮可·惠勒(Nicole Wheeler)說,「現在的情況甚至是,數據太多了。」麥克文同意此說法。「按照摩爾定律,計算能力每18個月就會翻一番,」他說,「生物醫學數據的增長——不僅通過基因組測序,還通過醫學成像和數字病理學——比那要快得多。生物醫學數據遵循的是超級摩爾定律。」
在本世紀初,生物學家完全不可能獨立檢查數據。這意味著他們不得不招募或者自己變成數據科學家。
「幾年前,我們遇到了瓶頸,」科克倫說,「我們有很多數據,但不知道怎麼處理。所以,不得不匆忙發明演算法,以便處理和充分利用數據。當你研究一個或幾個基因時,你可以手動完成,但如果你研究20,000個基因的表達,你不可能自己一個人完成統計。」
和科克倫一樣,很多生物學家歷來都是在工作台上用玻璃器皿工作,而不是坐在桌前用電腦工作,因此不得不學習使用那些演算法。「我覺得,年長的科學家常常對此望而生畏,對年輕同事過於依賴,只是他們不願意承認而已。」
她學習了演算法如何運作的「實用知識」,但承認「那是一個有點艱難的時期,上司沒有能力檢查下屬的工作」。
巴布拉漢研究所表觀遺傳學研究團隊負責人沃爾夫·賴克(Wolf Reik)持相同看法。他說,年長的科學家有完全不同的思維。「在實驗室會議上,我手下的人把基因組作為一個整體來考慮。但我是考慮單個基因,然後概括歸納。我一開始學的是這種思考方式。」
他說,在他那個位置上的人必須了解年輕科學家的工作,「最重要的是對如何使用那些工具形成一種直覺,因為我最終要在研究報告上籤上我的名字」。
另一方面,年輕的科學家伴隨著數據成長起來,其中一些人就是來自於相關背景(格爾斯頓擁有物理學學士學位),一些團隊負責人也是如此,比如麥克文。但本行是生物學的科學家最後不得不談論代碼。「我本科學的是生物,那是我的本行,」桑格研究所博士後研究員蔡娜(Na Cai,音譯)說。她研究基因型與各種人類特徵之間的關係。
「現在,我每天都要做統計分析。這就像學習另一門或幾門外語,」她說,「我不得不轉換思維,從生化途徑和流程圖轉換到更加結構化的代碼。」
她說,和她共事的年長科學家全都「與時俱進」,「他們也許不會寫代碼,但知道那些分析是幹什麼用的」。
惠勒的本行是生物學,但她也不得不跟代碼打交道。「我沒有傳統的軟體工程背景,」她說,「我在讀博期間兼學了編程。我的代碼不是最高效、最優美的,但你要知道哪些事情是必須用電腦來做的,並付諸行動。」
為了滿足這些需求,近年來各所大學一直在調整本科課程。例如,紐卡斯爾大學的生物學本科課程現在有了生物信息課,雷丁大學的畢業研究項目涉及計算生物學。已經設有生物信息學課程的倫敦帝國學院計劃為大一和大二學生增設編程課程。惠勒說:「我認為,人們已經意識到,生物學涉及的數據比以前要多得多,因此需要掌握處理數據的技能。」
改變是緩慢的,有時遭到學生們的反對,學生物的學生並不都願意學編程。「我覺得,一些本科課程正在迎頭趕上,」科克倫說,「但從總體上來看,情況不容樂觀,教授那些技能的碩士課程大量增加就是例證。」
但改變是必要的。哪怕是濕實驗室傾向最嚴重的科學家也說,他們花費不到50%的時間做實驗,有的只有10%。蔡娜成為全職的生物信息學家後,甚至不再花費任何時間做實驗。
惠勒說,向數據驅動的轉移可以被視為從「假設-驗證」到「假設-產生」的轉變。有的科學家擔心這不利於科學創新,但惠勒認為事實並未如此。「這調動了創造力,」她說,「從某些方面來看,創造力有了更大的發揮空間。你能以較低的代價嘗試一些瘋狂的想法。」
這還有其他的好處。「科學假設不以人的意志為轉移。」英國計算生物學研究機構厄勒姆研究所(Earlham Institute)生物信息學家馬特·伯恩(Matt Bawn)說,「公正客觀、不帶任何偏見的觀察者看著空白的畫布,讓圖畫自己出現,這樣不是更好嗎?」
基因的形狀,人體內的老化時鐘
但最大的好處是,在以前不可能研究的複雜領域,數據驅動的研究取得了令人震驚的新發現。
巴布拉漢研究所的斯特凡·舍恩費爾德(Stefan Schoenfelder)研究染色體的3D形狀,以及它們如何影響基因表達。人類基因組計劃完成的時候,人們發現基因數量比先前預計的要少得多,大約有2.4萬個,只相當於科學家預估的最低數量的四分之一。其餘的全是非編碼DNA。
後來人們發現,那些非編碼區的作用之一是調控基因的表達:開啟某些細胞的基因,關閉其他細胞的基因。它們是如何做到的?一個方法是在不同的細胞中把自己摺疊成不同的形狀。
染色體往往被描述成X形狀,但只有當細胞分裂的時候才是這樣。在其餘時間,兩米長的DNA在幾乎所有的細胞內都是亂糟糟地盤繞成一團。一段DNA哪怕離染色體上的一個基因很遠,也能調控該基因,因為二者有著緊密的聯繫。舍恩費爾德說:「因此,在3D背景下進行這方面的研究很重要。如果你只是著眼於序列,以為它們只能調控鄰近的基因,那就大錯特錯了。」
此外,基因組的摺疊方式千差萬別。舍恩費爾德說:「同樣的基因組,在T細胞內的構象不同於在幹細胞或腦細胞中的構象,這與被表達的不同基因和獲得不同功能的細胞有關。」
弄清楚染色體在各種背景下的3D形狀是極為困難的。這涉及到確定細胞類型,看看它們和其他的細胞類型有何不同,哪些DNA片段在哪個背景下進行互動。但首先必須使用複雜的交聯和連接技術來處理DNA,以便進行測序,看看哪些片段彼此靠近。如果發現兩個遠點在一起,這可能是因為它們被摺疊成那樣,好讓一個影響另一個。但在更多的時候,這只是隨機摺疊的產物。
從假象中發現真正的關聯,這需要分析數十億個數據點,看看哪些連接出現的次數較多。然後就輪到演算法上場了。一旦你知道哪些染色體片段經常和其他哪些片段連接,你就能根據那些連接點,利用演算法建立3D模型。
舍恩費爾德說:「這個研究領域只有15年的歷史。」他說,在那之前,「我根本沒有考慮過基因組的形狀,我只是把它想像成被塞進細胞核的一團義大利面。把它塞進5微米直徑的細胞核,我原以為這只是一個邏輯問題。」
「調控的精細程度讓我驚訝不已。儘管極為小巧緊湊,但仍然實現了那種程度的微調。」染色體的3D形狀,以及哪些調控因素與該形狀上的哪些基因發生相互作用,這將在很大程度上解釋人體內的200種細胞類型是如何形成的。
麥克文說,基因組研究迫使醫生對多發性硬化症進行徹底的重新分類。「我們發現,250多個基因組片段與多發性硬化症風險有關,」他說,「這讓我們可以就個體的患病風險作出非常有力的表述。但這也讓我們看到了多發性硬化症與類風濕性關節炎等疾病的聯繫:增加多發性硬化症風險的一些基因,會降低關節炎風險。」
「我們由此得知,這是一種自體免疫疾病,儘管它表現為一種神經變性疾病,」麥克文說,「在這方面,有四五家公司提出了新的治療方案。」
沃爾夫·賴克的故事則驚心動魄、堪稱科幻。他的研究屬於表觀遺傳學領域,著眼於細胞的化學環境如何影響基因的表達。他進行RNA(讓DNA可讀和合成蛋白質的信使分子)測序,看看各個細胞的RNA有何不同。他的團隊對老化特別感興趣。
五年前,人們發現(賴克的研究結果自此得到證實),所有的人體細胞內都有一個老化時鐘,被稱為DNA甲基化。DNA字母表上有四個字母:C(胞嘧啶)、A(腺嘌呤)、G(鳥嘌呤)、T(胸腺嘧啶)。隨著我們年齡的增長,DNA上越來越多的C會得到一個小小的化學標記,名為甲基。讀取這個時鐘很簡單,只需要數甲基的數量即可,但返回的數據點實在太多,只能用演算法來數。
「只要讀取那個時鐘,我們就能預測你的年齡,誤差不超過3歲,」賴克說,「這是我們目前擁有的最準確的老化生物標記。」
所有這一切都非常值得關註:這「要麼是潛在老化過程的讀數,要麼是編排好的預期壽命」。但賴克說,這一發現的意義在於,我們可以中斷它:「我敢肯定,以後會有藥物和小分子能減慢那個老化時鐘。」
波瀾壯闊的革命
大數據將幫助人類實現永生,這可能是一種奢望。但和我交談過的所有科學家都認為,演算法主導的數據密集型基因組研究已經改變了生命科學。年長的科學家有時不知道年輕的同事在幹什麼,現代研究中心開展實驗的空間顯得過大,而擺放電腦的空間太小。舍恩費爾德說,改變的步伐可能「令人迷失」。
「現在,生命變得更加複雜,」他說,「僅僅13年時間而已,我在讀博時學會的技能已經不足以跟上現在的科學。」但這種變化重新為基因組研究注入了一股樂觀的情緒。當人類基因組計劃接近完成的時候,人們非常激動,認為很多疾病的基因因素將被發現,從而很快被攻克。但結果卻發現,大多數疾病非常複雜,擁有很多基因,不可能只靠分析單個基因就能弄明白。現在,利用下一代測序技術和數據篩選工具,我們有可能戰勝那些疾病。
「現在,我進行實驗的時候,會得到1億甚至2億個數據點,」舍恩費爾德說,「我以前覺得這是不可能的,但在幾年內就真的發生了。現在,我們能解決10年前根本不可能解決的問題。這是一場波瀾壯闊的革命。」
翻譯:于波
審校:李莉
編輯:漫倩
來源:Mosaic Science
造就,劇院式演講,發現創造力
TAG:造就 |