當機器學習邂逅基因組學,下一站遇見未來
前段時候網上有段視頻給我留下了很深的印象,是華大基因董事長汪健的一個演講,其中提到了人工智慧,後來網上就有人依據汪健的這個演講得出了一個結論:人工智慧是個偽命題,隨之出現了一波不看好人工智慧在醫學領域應用的言論。其實認真看過這個視頻的話,就會發現這些言論未免有斷章取義的嫌疑,汪健的本意是說人工智慧只是一個工具,雖然是個很好用的工具,但醫學的進步要靠科學,而不是靠工具。他這個話其實並沒有錯,但他並沒有在否定人工智慧。
精準醫療越來越受重視,人工智慧加上精準醫療已經成為了新的創業風口,無數的創業公司在湧現,但一項新技術的出現一定會帶來樂觀的誇大或悲觀的預期,由於人工智慧的核心是機器學習,而基因組學是筆者團隊比較熟悉的領域,也是推動精準醫療不可或缺的一部分,接下來我們就一起為大家解讀一下機器學習在基因組學領域的應用。
文/田雨
編/HLR,吳穎儀
1
機器學習&基因組學的概念
技術的進步是不可阻擋的,哪怕這個技術是一把雙刃劍,比如核技術。機器學習作為一個新技術,也一樣,它的進步誰也阻擋不了,事實上機器學習早就已經滲透到大眾生活的方方面面,如果說AlphaGo戰勝李世石跟廣大吃瓜群眾並無多大關係的話,那Siri呢?Google Assistant呢?淘寶越來越精準,越來越深得你心的廣告投放呢?還有前幾天海淀大街上溜達的那些送貨機器人呢?是不是和多數人都密切相關了?這背後的核心技術都是機器學習啊,汪健不是也說了這是個很有用的工具嗎?那我們為什麼要拒絕一個很好用的工具呢?
那我們就好好認識一下這個工具吧,先從背景術語入手。
機器學習是英文名稱Machine Learning(簡稱ML)的直譯,在計算機界Machine一般是指計算機,所以,機器學習字面上意思就是說讓計算機學習,注意,是「學習」,不是「工作」。想讓計算機工作,那直接編程就好了,給它一系列的指令就可以了,但學習就不一樣了,機器學習是希望能夠賦予計算機學習的能力以此讓它完成直接編程無法完成的功能,也就是把人類思考歸納經驗的過程轉化為計算機通過對數據的處理計算得出模型的過程,進而能夠以近似於人的方式解決很多靈活而複雜的問題。因此,這是一門多領域交叉的學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。
說完了機器學習,我們再簡單說一下基因組學genomics,基因組學是是分子生物學的一個分支,專註於研究一個基因組的所有方面,或者研究特定生物體內的全套基因。擁有了對DNA進行測序的能力,研究人員就能夠「讀取」指導有機體活動的基因藍圖。能夠獲得基於4個基本鹼基(A,C,G和T)的一份「密碼本」,這些密碼被進一步組織成能編碼蛋白質的DNA片段,也就是基因。人類有大約30億個鹼基和2萬個基因。有機體擁有基因的總和被稱為基因組。基因組就像一個底層的操作系統,我們的一切生命過程都是在此基礎上運行的。基因出了問題,上面再花哨的App都得崩潰。
從上述的概念其實就不難看出機器學習和基因組學天生就有很多特質是相互契合的,大家都是要跟大數據過不去,你有0101,我有ATCG,機器學習靠的是相關性,而不是因果關係,無獨有偶,關於基因和疾病的關係最初始也是最重要的一步就是確定二者的相關關係,才能設計更多的實驗去驗證因果關係。那這些前世註定的緣分能否獲得三生三世十里桃花般的繁榮圖景呢?我們從當前的應用出發,窺探一下其中的天機吧!
圖片來源: HIT consultant
基因組學最終是要為精準醫療(Precision Medicine)服務的,精準醫療是一種將個人基因、環境與生活習慣差異考慮在內的疾病預防與處置的新興方法,目標是實施患者或特定人群的治療干預。但是目前,更大程度上實施精準醫學存在兩大障礙:成本高和技術限制。對我們做基因領域研究的人而言,幸運的是,基因組測序的成本在持續下降,但是處理和分析收集到的大量患者數據,依然有不小的成本問題和技術門檻,所以許多研究人員正在實施機器學習技術來識別大量遺傳數據集中的模式,然後將這些模式轉化為計算機模型,這可能有助於預測個體發展某些疾病的可能性或幫助獲取潛在治療設計。與此同時直接到消費者的基因組學也在蓬勃發展,這一類向個人消費者提供的基因組測序服務也正在使用機器學習來解讀遺傳信息,探究基因如何影響個體的方方面面。概括的說就是我們想要利用機器學習的優勢幫助基因研究人員分析解讀數據,幫助臨床醫生提供患者護理,並使有興趣了解遺傳差異如何影響健康的人更容易接觸基因組學[1]。
2
機器學習在基因組學中的應用
接下來,我們具體看一下機器學習當前在基因組學中的幾個主要應用領域。
(1) - 基因組測序領域
全基因組測序(Whole Genome Sequencing,WGS)已經成為醫學診斷領域的熱點。新一代測序技術已成為一種流行詞,它涵蓋了現代DNA測序技術,使研究人員能夠在一天內測序完整的人類基因組,但是如何解釋這些遺傳變異依然是很大的工作量。於是有了諸如Deep Genomics等公司嘗試使用機器學習來幫助研究人員解釋遺傳變異。具體來說,演算法是基於大型遺傳數據集中確定的模式進行設計的,然後將其轉換為計算機模型,以幫助客戶解釋遺傳變異如何影響關鍵的細胞過程比如代謝,DNA修復還有細胞生長以及破壞這些途徑的正常功能是否可能會導致癌症或其他疾病。這家總部位於多倫多的創業公司成立於2014年,已獲得來自三家美國風險投資公司(Bloomberg Beta,Eleven Two Capital和True Ventures)的370萬美元種子資金。加拿大政府最近向「泛加拿大人工智慧戰略」撥款1.25億美元。截至2017年4月,Deep Genomics已經參與其中7項已公開發表的研究,大多數是預測或推斷潛在遺傳變異的。
(2) - 基因編輯領域
基因編輯被定義為在細胞或生物體水平上對DNA進行特定改變的方法。CRISPR是一種基因編輯技術,可以提供更快,更便宜的基因編輯方式。為了使用CRISPR,研究人員必須首先選擇合適的靶序列。這可能是一個艱巨的過程,涉及許多選擇和不可預知的結果。機器學習擁有可以顯著減少識別合適目標序列所必需的時間和成本[2]。
位於倫敦的Desktop Genetics是一家融合了AI和CRISPR的軟體公司。該公司成立於2012年,已累計從7家投資公司獲得580萬美元的股權融資,其中包括了創業加速器,風險投資公司和生物技術公司以及DNA測序經驗豐富的Illumina。
該公司主要的項目流程首先是將實驗數據上傳到Google 雲平台上, 在雲平台上進行數據的格式化和處理,然後由公司的生物信息學和機器學習團隊利用這些數據,分析和設計CRISPR實驗或訓練新模型。 使得新的CRISPR設計可以在實驗室中進行測試,並衍生出FASTQ數據,並再次反饋到工作流程中。
圖片來源:DeskGen.com
該公司報告了最近一項研究的兩項重要發現:1)增加訓練數據量能提高預測CRISPR活性演算法的準確性; 2)當應用於不同物種時,模型的準確性降低,例如人類與老鼠。這些研究結果都不是特別令人驚訝,Desktop Genetics承認,需要廣泛的研究來繼續改進流程,並通過推動機器學習來影響CRISPR。
(3) - 臨床工作流程
為患者服務的醫療團隊的不同成員可以獲得的患者數據經常存在著空缺。這一挑戰引發了人們使用機器學習來提高臨床工作流程效率的興趣。Intel設計了一款將機器學習功能集成到臨床工作流程中的分析工具包。目前英特爾與猶他州鹽湖城Intermountain醫療保健轉型實驗室合作,嘗試更有效地將遺傳學數據和其它臨床數據進行整合,用於指導乳腺癌的治療和對患者護理[3]。
雙方合作開發了一種演算法來衡量諸如患者發展多種癌症的風險水平等因素。該工作流模型基於四大前提開發:
1. 與「臨床和患者數據」相關聯的基因組數據集中資料庫
2. 所有臨床醫生和遺傳諮詢師都可以訪問電子健康記錄(Electronic Health Records EHR)
3. 所有來自基因測試的數據都被整合到電子健康記錄
4. 臨床決策支持工具可操作且可訪問。臨床決策支持的例子包括家庭健康史,篩查和過去的臨床數據。
據報道,英特爾的風險投資部門Intel Capital已經投資了超過二十多家AI實體,與其他專註於某一領域的垂直行業相比Intel在醫療領域的投資明顯有著相對走高的趨勢。
(4) - 直接對消費者的基因組學
有人估計到2025年預測性基因測試和消費者基因組市場價值將達到46億美元。預計市場擴張的原因也很簡單,生存是生物的本能,更好的生存是人類的本能,人們會越來越意識到基因組測試的重要性,通過測序幫助確定發生特定疾病的可能性,並在適當的指導下進行預防,比如2013年美國演員安吉麗娜朱莉通過基因檢測,發現乳腺癌高風險後切除乳腺,這事兒當年引發了一大堆的熱議,有人說這是朱莉和麥利亞德基因公司(Myriad Genetics,Inc.)聯手的公關秀,因為麥利亞德一直深陷訴訟之中,這家公司其實也夠勵志的,花17年時間砸5億美元才開始獲得盈利,然後最近20年一直在打官司,不過這裡面涉及太多法律倫理層面的問題。
我在這裡想說的是:大家有沒有注意到,朱莉基於基因檢測的結果作出切除乳腺的這一決定本身沒有被質疑,當年華大基因,健康腫瘤項目的負責人劉永強就給出過肯定的回答。所以儘管監管問題以及醫療專業人員在幫助個人解讀其測試結果方面的作用目前依然沒有得到解決,但直接面向消費者的基因組學是一個快速發展的行業,23 and Me 和Ancestry等領先的基因檢測公司公司也正在成為家喻戶曉的名字。
23 and Me最近將來自600,000名研究參與者的數據與機器學習相結合,為遺傳重量報告(Genetic Weight Report)開發了一個模型。該報告旨在提供關於個體遺傳基因如何影響體重的個性化分析。用於開發每份報告的獨特因素包括「基因型,性別,年齡和自我鑒定的主要祖先」。這些因素可以從客戶的遺傳信息中確定,也可以根據在訪問報告前進行的調查得出。
圖片來源23 and Me
23 and Me迄今為止已擁有超過200萬的客戶,所做的可不止遺傳體重報告這麼一件事,FDA已批准了23 and me用於檢測阿爾茨海默病、帕金森病、乳腺癌和卵巢癌等疾病的基因檢測產品,隨著測試樣本數的增加和機器學習的應用,未來應當可以建立更多疾病模型。退一步講單純遺傳重量報告對其他相關行業未來的商業模式可能產生的影響都不可小覷。
Ancestry.com LLC則是一家位於猶他州的私人在線公司。它是世界上最大的盈利家譜公司,它運營著一個家譜、歷史記錄和遺傳家譜網站ancestry.com,這是一個在線族譜社區,擁有龐大的家族關係數據量,人們可以進行進行家族尋根,同時用戶在網站上的活動其實也在為Ancestry提供線索。Ancestry LLC的子公司AncestryDNA則提供直接面向消費者的系譜DNA測試。目前AncestryDNA已經擁有超過700萬的客戶。
3
結語
基因組學中的機器學習目前正在影響著該領域的多個接觸點。努力實施機器學習以幫助加快科學數據從實驗室到臨床的應用路徑並使精準醫學更為普及,是智能商業未來所要面臨的機遇和挑戰,因為市場是不會放棄人工智慧在醫療保健方面的巨大經濟價值的。
我們也將繼續密切關注基因組學領域,相信該領域會是近期機器學習應用的活躍領域。
參考資料:
1.Barriers to Implementation of Precision Medicine for Cancer Treatment in the U.S. Healthcare System
http://www.thejournalofprecisionmedicine.com/wp-content/uploads/2016/07/Madhavan.pdf
2.Deep Genomics is using artificial intelligence to build a new universe of life-saving genetic therapies
https://www.crunchbase.com/organization/deep-genomics#/entity
3. Integrating Genetic Data into Clinical Workflow with Clinical Decision Support Apps
https://www.intel.com/content/dam/www/public/us/en/documents/white-papers/integrating-genetic-data-intermountain-healthcare-paper.pdf
本期作者:田雨
畢業於北京大學口腔醫學院,2010年於北京大學獲得博士學位。2017年於美國貝勒牙科學院訪問學習,從事口腔多基因遺傳病研究,對行業分析和相關技術前沿有濃厚興趣,長期關注基因行業的市場動向。現任美柏醫健研究員。
※AI開發人員可以使用18個機器學習平台
※機器學習預測2018年世界盃冠軍隊
TAG:機器學習 |