當前位置:
首頁 > 知識 > 《連線》:癌症治療方法就是海量基因數據

《連線》:癌症治療方法就是海量基因數據

《連線》網站發表文章稱,癌症的治療方法就是數據——海量的基因數據。數據集越龐大,疾病模型和預測工具就會越精確,越強大。但實際上,獲取海量數據存在兩大難題:規模化和知情同意。以下是文章主要內容:幾年前,埃里克·斯凱德(Eric Schadt)遇到了一位身患癌症的婦女。她患上的是嚴重的結腸癌,癌細胞很快就轉移到了她的肝臟。她來自密西西比州,丈夫死於戰爭,獨自將兩個女兒撫養成人。她唯一得到的醫療保健也就是丈夫給她帶來的死亡福利——處在醫療保健階梯最底層的軍隊醫院的一位負擔過重的腫瘤科醫生。

《連線》:癌症治療方法就是海量基因數據


身患晚期轉移性癌進入這樣的醫療設施,實際上無異於回到人類基因圖未被繪製的年代——在這樣的年代,「結腸癌」被認為只有一種病因而非會導致特殊變異的數百萬種病因,治療方式是清一色的抑制劑,不管你是來自密西西比州的Ocean Springs,還是來自廷巴克圖。那是沒有大數據和機器學習的年代,又或者說是毫無希望的年代。


斯凱德當時剛剛在西奈山醫院創立伊坎基因組學與多層級生物學研究所。當他聽說那位來自密西西比州的婦女的情況時,他說,「那正是我們要接受的那一類病人。」他指的是那些現有醫療水準無法治癒的病患,與此同時,那些病患也等不及未來醫療技術的到來——超級計算機通過篩選分析海量的基因數據來發現模式,進而可能帶來新的治療方法。


斯凱德並非癌症專家,甚至稱不上醫生。他其實是數學家和分子和計算生物學領域的專家,他之前從未接收過任何的病患。但通過其在西奈山醫院的新實驗室,他會生成1TB有關該婦女的癌症的數據,寄望於找到新方法來幫助她對抗癌症。他一直坐在她的病床旁陪著她,內心感到很悲痛。他們變得很親密,該此前從未接收過患者的科學家最終卻親眼目睹科學雄心和失敗帶來的影響。她於去年離世。


對於任何醫學研究人員來說,當你要發表研究論文或者在開發藥物的時候,你很容易就會變得樂觀起來。然而,在斯凱德看來,當你看到你的研究成果的影響,眼睜睜看著人在你面前慢慢死去時,「你會體會到空前深刻的謙卑感。」

「我們正處在這種指數級成長曲線上,此時你的目光自然而然地投向未來,你會想:我們將會搞定這個問題。」他說,「最終,我們都將知道所有的這些細胞和擾動究竟是怎麼一回事。而令人謙卑的是,正當我們處在這一成長曲線上,我們因為發現問題日益複雜而不斷遭受打擊。」


十年以來,我們一直在討論基因測序和個性化醫療的潛力,以及計算機處理性能的提升和對個人基因組日益深入的理解即將將我們帶到一個充滿奇蹟的時代。有理論認為,只要有足夠多的數據,就不存在不能用藥物控制的疾病。但斯凱德認為,那並不足以深入探索個人的DNA。這需要海量的數據來檢測人群中的模式,應用機器學習技術,發現引起疾病的基因突變網路,以及相應進行解決。這些數據集越龐大,疾病模型和預測工具就會越精確,越強大。


如何獲得海量數據


問題就在於,如何獲得海量的基因數據。你不能跑去跟人家說,「請給我你的數據。」你必須要先說服他們你只將那些數據用於正當的用途,不會令其落入不當之人手中。接著,你必須要說服各家收集基因數據的醫療中心和基因公司:它們不應囤積數據謀取私利,而應當將其共享,讓整個研究社區能夠實現規模效益——取得不計其數的數據。斯凱德及眾多其他研究人員認為,這是理解疾病原因和發明新治療方式的必要條件。


目前研究人員還無法獲得那種量級的數據。不過,從科技巨頭到生物醫療創業公司的諸多公司正在爭相解決這種規模問題。斯凱德也想要參與其中。

如果說人類生物學的複雜性類似於動畫片,那麼100年前我們對那種複雜性的理解大概只有1個像素。只有1個像素,你是無法理解整個故事的。但要是有更多的像素,數百個乃至數千個——又或者說像素總和的1%——那麼模式和主題就會開始顯現,故事的開頭也就容易理解了。


正是這一想法促使斯凱德2011年在為默克公司(Merck)開發藥品十年後創立伊坎基因組學與多層級生物學研究所。正當不少研究人員作出基於疾病與藥品開發單一基因模式的假定,他則認為基因並不是單獨發揮作用,而是在廣泛的網路中促使疾病滲入我們身體的自然防禦系統,我們可能只能夠通過深入的生物信息探索來理解那些網路。


為了探索其複雜性模型,斯凱德帶著投資家兼慈善家卡爾·伊坎(Carl Icahn)提供的資金來到西奈山醫院,在地下室打造了一台名為Minerva的超級計算機,以便分析西奈山醫院每年收集的數千組基因組數據。他聘請了其他的數量分析專家,其中包括Facebook首個數據團隊的創辦人傑弗里·哈梅巴赫(Jeffrey Hammerbacher)。據該醫學院的一位備受尊崇的腫瘤科醫生稱,「突然之間,你周圍多了不少這樣的數學家,他們看上去本應從事視頻遊戲的開發。」


成立合資公司


斯凱德沒多久便發現自己需要一個更大的組織。2014年,伊坎基因組學與多層級生物學研究所聯手Sage Bionetworks創立了一家合資公司,嘗試治療170種罕見的兒童疾病,比如囊包性纖維症、鐮狀細胞性貧血和 家族黑蒙性痴呆。他們將其稱作復原力項目(Resilience Project),研究人員著手尋找那些攜帶那些疾病的DNA變體,但因為某種預防注射而沒有患病的人。在尋找這種「有復原力的人」的過程中,斯凱德及其團隊利用收集自多個來源(包括23andMe、北京基因組研究所和麻省理工學院和哈佛大學共建的博德研究所)的數據積聚了一個涵蓋60萬人的基因數據池。這是當時規模最大的基因研究。

但在尋找那60萬個數據組時,研究人員發現有些人僅對他們針對的170種疾病中的8種有復原力。研究規模還是太小了。通過計算引發疾病的基因突變在人口中的發生頻率,斯凱德及其團隊意識到,他們需要的樣本數量並不是60萬,而是1000萬以上。儘管復原力項目背後有強大的運算技術支持,看似擁有充足的數據,但斯凱德還是缺少揭開復原力背後的遺傳密碼所需的高質量病患信息。


「我們需要100所西奈山醫院來實現發現可引導你找到診斷和治療方法的病患數據模式的規模。」斯凱德說道,「來到這裡五年後,我認識到這一切不可能會在醫療中心內發生。它們之間太過疏遠,競爭太大。它們並沒有被編入一個可帶來我們在幾乎所有其它的行業都可以看到的那種進步的連貫的框架。」斯凱德說,由於大型醫療中心基本獨佔其病患的數據,也沒有什麼經濟上的激勵能夠促使它們與其它機構在重要的研究領域展開合作,「行業的顛覆將會發生在傳統醫療機構以外。」


那正是斯凱德成立自有的基因數據公司Sema4背後的目標。該位於紐約的合資公司將專註於收購和擴張致力於基因檢測(如癌症患者篩選和非侵入性產前測試)的公司,以收集和共享數百萬計的個人數據集。在Sema4可供搜索的平台上,醫生將可以即時訪問基因組資料庫來幫助診斷病患。藥品公司將需要付費使用該系統來尋找病患進行臨床試驗。隨著分析工具組合因為計算機和機器學習演算法變得愈發強大而得到強化,科學家們將終於得到足夠的基因數據來進行雄心勃勃的研究。


規模化問題

儘管有好幾家科技巨頭在涉足生命科學領域,美國國立衛生研究院也在請求100萬位志願者幫助創建自有的大型生物資料庫,但斯凱德認為,Sema4以及其它像它那樣的創業公司(如克雷格·文特爾的Human Longevity和Patrick Soon-Shiong的Nant-Health)在實現基因數據的最優規模上是最專註的。雖然這些公司相互間將競爭收集更多的優質生物數據,但Sema4將會向全球各地的學術性醫療中心和不以盈利為目的的研究者免費開放其基因資料庫,由此實現差異化。斯凱德說,要是Sema4的競爭對手需要從他的數據子集中獲取信息,那它們只需付費即可訪問Sema4的搜索平台。Sema4也願意和其它的公司聯手創建龐大的數據集來展開像復原力項目這樣的項目。


不過,斯凱德指出,單純靠企業彙集各自的數據並不能解決規模化問題。「關鍵在於從病患那裡獲得數據。」從他在西奈山醫院的體驗來看,他發現近年來接受其關於讓醫生了解自己特定問題的遺傳素質利大於弊的觀點的人明顯增加了。他說,2011年他來到西奈山醫院時,它一年篩查的基因樣本數量為幾千個。而今年,該數字可能將會攀升到15萬,其中很大部分收集自紐約地區的病患。斯凱德說,在Sema4,「我們的目標是將每年收集到的樣本數量擴大到50萬。」


那種增長將會通過收購和擴張全球各地的基因檢測公司來實現,它們大多數都相互獨立運營,但都歸屬於Sema4。它們將會共同按照統一的安全和知會同意標準來創建巨大的基因信息網路。斯凱德坦言,讓人們向一家匿名公司交出自己的生物數據絕非易事。儘管公共領域和私有領域在現代化現有數據網路和保障其安全性上投入了數十億美元,但信息泄露事件還是時有發生。在Sema4,病患會被詳細告知他們的數據將會被如何加密、匿名化和剔除可鑒別個人身份的信息。即便發生信息泄露事故,病患的身份被鑒別出來和曝光的概率都會極其低。


知情同意問題


另外還有知情同意問題——病患對於數據收集的詳細理解和批准。這一問題會影響所收集到的數據的質量和數量。「目前,有些公司聲稱擁有數百萬份的病患記錄。」斯凱德解釋道,「但從我們的用途角度來看,那些數據是毫無意義的。它們往往不精確,不完整,也不容易在各個系統之間關聯起來。此外,那些數據通常都不包括DNA數據或者基於DNA數據生成的基因組數據。」以復原力項目為例,其問題並不只是數據樣本太小——還包括60萬份基因組數據基於不同的知會同意安排來管理的問題。要是有什麼重大發現,那樣就無法重新聯繫或者跟蹤數十萬的參與者,從實證研究的角度來看,那些數據因此就變得毫無意義。


當前,大多數的知情同意表都被設計得儘可能簡略,而不是以讓研究人員更容易獲得高質量數據為目的。這種方式實際上加大了獲得價值數據的難度。研究發現,知情同意表越具體,所帶來的信息就越好,因為病患在了解研究目的的情況下會更加願意參與後續的檢驗和訪問。(這也有助於科學家對病患的健康狀況進行長期的跟蹤。)在Sema4,斯凱德採用多階段的信息獲取流程(其中包括強制性的小測驗),進而讓病患能夠全面了解他們所同意的事項。這將會要求病患投入更多的時間,但斯凱德認為,隨著理解的加深,更多的病患會同意分享他們的基因信息。


未來設想


斯凱德對於未來的設想是:隨著這種數字基礎設施的落位,越來越多的病患將不僅僅共享他們的基因組數據,還共享通過像血糖儀、血壓追蹤器和吸入器這樣的監測設備收集得到的醫療和生活方式方面的信息。他希望,這些日益先進、日益病患友好的檢測最終將會變得非常全面,使得他們的微生物組能夠被定期測序,他們的RNA(核糖核酸)被頻繁檢查,他們的血細胞被不斷監控是否存在患病跡象。


像西奈山醫院這樣的醫療中心如今在病患數據上所擁有的虛擬壟斷權將會被徹底粉碎,研究人員將終於獲得未來的醫療突破所需要的海量基因數據。「要是數據信息被更大範圍地共享,讓你可以利用全世界的力量去發展疾病模型,我們能夠為人類的健康創造更多的福祉嗎?」斯凱德說道,「當然能。」這是用數學來解決醫療問題,而不是僅憑臆測;任何的疾病,甚至包括晚期癌症,未來都有可能變得可以用藥物控制。


請您繼續閱讀更多來自 cnBeta 的精彩文章:

英國電信攜手東芝揭幕全英首家量子保密展示廳
NASA为国际空间站的宇航员们送去更多iPad
中國率先實現超冷原子二維人工自旋軌道耦合
韓春雨:我的實驗結果基本排除假陽性可能
新研究認為人類壽命的提升有極限

TAG:cnBeta |

您可能感興趣

治療致命癌症:基因導向靶向療法
肺氣腫的病因與治療方法
黴菌性陰道炎癥狀治療方法
首個精準醫療案例獲批,可根據遺傳基因治療癌症
胃炎的治療方法
慢性咽炎的病因與治療方法
胸腺瘤的診斷與治療方法
治療頸椎病的方法 三種治療方法先了解
基因療法或開啟糖尿病治療新篇章
頭痛的原因和治療方法
細菌性陰道炎的治療方法是什麼
痔瘡治療之家庭治療方法,痔瘡保守治療方法
咽喉炎最佳治療方法
咽炎的癥狀和治療方法 除根方法匯總與分析
佝僂病是什麼 佝僂病的治療方法
鵝脫肛的原因與治療方案
大咯血的原因及治療方法
基因療法或能治療阿爾茨海默病
中醫治療乳腺癌的方法與策略