當前位置:
首頁 > 最新 > 深度學習為分析生物大數據提供了強大的工具

深度學習為分析生物大數據提供了強大的工具

深度學習為分析生物大數據提供了強大的工具。BioRxiv預印本伺服器上有超過440篇文章討論深度學習;PubMed在2017年列出了700多篇與深度學習有關的參考文獻。生物學家和臨床研究人員之間正在掀起一股使用深度學習相關的工具的浪潮。但是,研究人員在理解和使用這些演算法方面仍然面臨著挑戰。

四年前,谷歌科學家出現在神經科學家Steve Finkbeiner的家門口。Finkbeiner在位於舊金山的格萊斯頓神經病研究所工作,他和他的團隊使用一種叫做機器人顯微鏡(robotic microscopy)的高通量成像策略產生大量數據,專門研究腦細胞。團隊正在為無法快速分析數據而發愁。

這幾位谷歌的研究人員則在谷歌位於山景城的研究部門Google Accelerated Science工作,這個部門旨在利用谷歌的技術加快科學發現的進展。他們希望將谷歌的「深度學習」方法應用於Finkbeiner團隊生成的影像數據上面。

如今,他們的合作已經開始取得成效。Finkbeiner的團隊與谷歌的科學家一起訓練了一套深度演算法,能以很高的精度自動為細胞打標籤,相關研究報告已經在期刊發表。Finkbeiner表示,在合作之初,他並不能完全理解深度學習能做什麼,只知道自己產生數據的速度超過了自己能分析的速度,但現在,他們的這套演算法在預測該給細胞打什麼標籤方面好得「令人震驚」。

Finkbeiner的成功凸顯了深度學習這一人工智慧(AI)最有前途的分支之一正在大步邁入生物學領域。演算法以人類無法做到的方式潛入數據中,捕獲人類可能忽略的特徵。研究人員正在使用這些演算法對細胞圖像進行分類,建立基因組連接,加速藥物發現周期,甚至還能將基因數據、成像數據和電子病歷這些不同類型的數據聯繫起來。

BioRxiv預印本伺服器上有超過440篇文章討論深度學習;PubMed在2017年列出了700多篇與深度學習有關的參考文獻。生物學家和臨床研究人員之間正在掀起一股使用深度學習相關的工具的浪潮。但是,研究人員在理解和使用這些演算法方面仍然面臨著挑戰。

訓練智能演算法:單個細胞的圖像中蘊含的數據如此之多,超乎想像

深度學習演算法依賴於神經網路,神經網路是一種在20世紀40年代首次提出的計算模型,其中由類似神經元的節點組成的網路層模仿人類的大腦對信息進行分析。費城賓夕法尼亞大學計算生物學家Casey Greene說,直到大約5年前,基於神經網路的機器學習演算法依賴研究人員將原始信息處理成更有意義的形式,然後才將其輸入計算模型。但隨著數據集規模的擴大,同時也得益於演算法的創新,現在必須由人類完成的工作有所減少。 機器學習中的這一進步——深度學習中「深」的這部分——迫使計算機而非人類程序員找到深藏於數據之下的有意義的關係。隨著神經網路中的各層網路對信息進行篩選、過濾和排序,它們還能相互通信,讓每個層優化前一層的輸出。

最終,這個過程能夠得到一個訓練好的演算法,這個演算法能分析一個從未見過的圖像,並正確識別它。但是,減少了人類的參與,研究人員也無法再控制分類過程,甚至無法準確解釋軟體正在做什麼。雖然深度學習網路在預測時可能非常準確,但正如Finkbeiner所說:「有時候,要弄清楚網路是看到了什麼才做出如此精確的預測,仍然很有挑戰性。」

儘管如此,包括成像學在內的許多生物學分支學科,都正在從深度學習做的預測收到回報。十年前的自動生物圖像分析軟體,一般專註於測量一組圖像中的單個參數。例如,2005年,Broad研究所的計算生物學家Anne Carpenter發布了一個名為CellProfiler的開源軟體包,幫助生物學家定量測量各種特徵,比如顯微鏡視野里熒光細胞的數量,或者斑馬魚的長度。

但深度學習讓她的團隊走得更遠。Carpenter說:「我們一直在朝著這個方向努力,那就是去測量生物學家沒有意識到他們想要在圖像中測量的東西。」將染色DNA、細胞器的紋理和細胞空白空間的質量這些視覺特徵記錄下來並進行組合,可以產生數千個「特徵」,其中任何一個都能揭示新的見解。最新版本的CellProfiler已經有一些深度學習元素,Carpenter的團隊希望在明年能夠添加更複雜的深度學習工具。

Carpenter說:「大多數人都很難弄清這些問題,但單個細胞圖像中就是有這麼多的信息,實際上可能更多,就像細胞群的轉錄組分析一樣。」

這種類型的處理使得Carpenter團隊可以採取較少監督的方法,將細胞圖像轉化為與疾病相關的表型,然後再對其進行分析。Carpenter也在猶他州鹽湖城的製藥公司Recursion Pharmaceuticals擔任科學顧問,該公司正在利用深度學習工具,針對稀有單基因疾病進行藥物開發。

挖掘基因組數據:谷歌和Hinton擔任顧問的Deep Genomics都在努力

深度學習需要大量的數據,但也不是只要是數據都行。深度學習通常需要的,是大量的標註良好的數據集。因此,成像數據就成了很自然的好選擇,基因組數據也一樣。

Verily Life Sciences(前身為Google Life Sciences)就是一家使用這類數據的生物技術公司。Verily是谷歌母公司Alphabet的子公司,Verily研究人員開發了一種深度學習工具,DeepVariant,可以比傳統工具更準確地識別一種叫做「單核苷酸多態性」的常見遺傳變異。DeepVariant軟體將基因組信息翻譯成像圖像一樣的表示(representations),然後對其進行分析。Mark DePristo在Verily負責基於深度學習的基因組研究,他認為DeepVariant對於研究非主流生物體特別有用,尤其是那些基因組質量低且識別遺傳變異體的錯誤率高的對象。他的同事Ryan Poplin在植物領域與DeepVariant合作,將錯誤率從20%降低到了接近2%。

加拿大多倫多Deep Genomics公司的首席執行官Brendan Frey也專註於基因組數據,但他們努力的目標是預測和治療疾病。 Frey在多倫多大學的學術團隊開發了關於健康細胞基因組和轉錄組數據的演算法。這些演算法針對RNA事件構建預測模型,例如剪接、轉錄和聚腺苷酸化。應用於從未見過的臨床數據時,訓練好的演算法能夠識別突變並將其標記為是否具有致病性(pathogenic)。在Deep Genomics公司,Frey的團隊正在使用相同的工具來識別該軟體發現的疾病機制,並開發短核酸序列衍生的治療方法。

藥物發現是另一個擁有大量數據集等待深度學習去發掘的學科。在藥物發現領域,深度學習演算法正在幫助解決分類的挑戰,篩選形狀和氫鍵等分子特徵,從而確定排列這些潛在藥物的標準。位於舊金山的生物技術公司Atomwise,開發了將分子轉換成三維像素網格的演算法。這使Atomwise的研究人員能以原子精度解釋蛋白質和小分子的三維結構,對碳原子的幾何形狀等特徵進行建模。這些特徵之後會被翻譯成數學向量,演算法可以用來預測哪些小分子可能與給定的蛋白質相互作用。

Atomwise正在利用這一策略推動其新的AI驅動的分子篩選計劃,該計劃掃描1000萬個化合物庫,為學術研究人員提供多達72種潛在的小分子粘合劑,用於粘合研究人員感興趣的蛋白質。

深度學習工具還可以幫助研究人員對疾病類型進行分層(stratify),了解疾病亞群,找到新的治療方法,並將其與患者進行匹配從而進行臨床測試和治療。例如,Finkbeiner所在的一個叫做Answer ALS的組織,致力於將1000多人的基因組學,轉錄組學,表觀基因組學,蛋白質組學,影像學,甚至多能幹細胞生物學等數據與神經退行性疾病肌萎縮側索硬化結合在一起。「這是我們第一次有一個數據集,可以應用深度學習,並觀察深度學習是否可以揭示我們能在細胞培養皿中測量的事物與該患者身上發生的事情之間的關係,」Finkbeiner說。

任重道遠:具有高度可解釋性的深度學習模型何時出現?

研究人員警告說,雖然起到了很多成效,但深度學習帶來了重大挑戰。與其他任何計算生物學技術一樣,演算法產生的結果取決於輸入的數據。模型過擬合也是一個問題。另外,深度學習對於數據的量和質量,要求往往比一些實驗生物學家預期的還要嚴格。

深度學習演算法需要非常大的數據集,這些數據集都有很好的注釋,以便演算法可以學會區分特徵,對模式進行分類。Finkbeiner指出,在大約15,000個樣本之後,他的演算法訓練效果顯著提高。實驗需要數百萬標記良好的數據。Carpenter說,高質量的「ground truth」數據可能非常難以實現。

為了規避這一挑戰,研究人員一直在努力研究如何用更少的數據進行更多的訓練。底層演算法的進步使得神經網路可以更高效地使用數據。科學家還可以利用遷移學習,也即把神經網路從一種類型的數據獲得的分類能力應用於另一種類型。例如,Finkbeiner的研究小組開發了一種演算法,最初被用來根據嚙齒動物細胞形態變化預測細胞死亡,但首次預測人類細胞圖像時,準確率也達到了90%,改善後準確率達到99%。

對於一部分生物圖像識別工作,Google Accelerated Science的演算法最初使用從互聯網挖掘的數億個消費者圖像進行訓練。 然後,研究人員完善訓練過程,將訓練數據縮小到幾百張生物圖像。

Google Accelerated Science的研究科學家Michelle Dimon指出,深度學習帶來的另一個挑戰是計算機既不智能又懶惰,在區分生物學相關的差異和正常差異之間缺乏判斷力。Dimon指出:「計算機在查找批量變化方面非常出色。因此,獲取將被輸入到深度學習演算法中的數據,通常意味著對實驗設計和控制有一個很高的標準。」Google Accelerated Science要求研究人員隨機將對照組放置在細胞培養板上,從而解釋微妙的環境因素(如孵化器溫度),並使用兩倍於生物學家可能使用的對照組。

這也強調了生物學家和計算機科學家共同參與實驗設計對深度學習生物學實驗的重要性。谷歌的一個最新項目Contour,就是將細胞成像數據用全新的方法分類,突出顯示趨勢(如劑量反應),而不是將它們歸入特定的類別(比如是活著還是死亡)。

儘管深度學習演算法可以在沒有人類先入為主的輸入的情況下評估數據,但Greene警告說,這並不意味著演算法沒有偏見。訓練數據可能會出現偏差,例如,僅使用北歐人的基因組數據。這樣在訓練時引入的偏差會反映在演算法的預測中,反過來可能導致對病人護理的不平等。當有人類來驗證這些預測時,還算有個防範。但是,如果只剩下計算機來做出關鍵決定,這就會令人十分不安。Greene說:「把這些方法看作是增強人類而非代替人類要更好。」

此外還有挑戰,比如如何正確理解這些演算法,它們究竟是如何對數據進行分類的。馬里蘭州巴爾的摩的Insilico Medicine研究科學家Polina Mamoshina表示,計算機科學家正在通過改變模型中的各個特徵,然後研究這些調整如何改變預測的準確性,來應對這個問題。但Greene警告說,雖然是同一個問題,但不同的神經網路會以不同的方式來處理。研究人員越來越關注能夠做出準確和可解釋的預測的演算法,但現在系統仍然是黑盒子。

Greene說:「我不認為具有高度可解釋性的深度學習模型將在2018年出現,但如果我錯了我會很高興。」


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 兒童節啊 的精彩文章:

TAG:兒童節啊 |