生命科學的領地，現在深度學習來了

最新 03-19

前言

深度學習技術是當前最流行的人工智慧技術，可以很好地應用於測量和分類生物信息。儘管有各種技術挑戰，深度學習技術在細胞圖像數據處理、基因組數據挖掘、蛋白質結構研究、藥物合成等領域大展身手。

人工智慧研究受到人類大腦神經網路的許多啟發

1.深度學習在生物領域的強勢崛起

四年前，幾位Google科學家找到了神經科學家Steve Finkbeiner，希望在Finkbeiner團隊的大量的數據中應用深度學習方法。這幾位 Google 科學家隸屬於加利福尼亞州山景城的 Google Accelerated Science 團隊, 他們希望利用谷歌的技術加速科學發現。而Finkbeiner團隊來自舊金山的Gladstone神經疾病研究所，同樣也在加利福尼亞州。

Google Accelerated Science 團隊的幾位研究員，隸屬於谷歌研究院

深度學習演算法從一個非常大、附加註釋的數據集中獲取原始特徵, 例如用圖像或基因組的數據集, 創建一個基於內部隱藏模式的預測工具。經過訓練後, 這些演算法用訓練的得到的模型來分析其他數據, 即使有時候這些數據來自不同的數據源。

Finkbeiner 團隊所在的 Gladstone 神經疾病研究所

Finkbeiner 說，這項技術可以用來處理真正困難、複雜的問題，並能夠發現複雜數據中的蘊含的結構。這些問題對人類大腦來說可能太巨大，太複雜，太難以理解。

Finkbeiner和他的團隊使用一種被稱為機器人顯微鏡的高通量成像策略來生成大量的數據，這些數據是他們為研究腦細胞而生成的。但是由於技術方面的因素團隊獲取數據的速度和分析的速度並不匹配，所以他很高興有機會能和Google的科學家進行合作。

bioRxiv上有超過440篇的文章都在討論深度學習；PubMed 在2017年列出了700多條參考文獻，大量深度學習工具和數據可以使用，這讓生物學家和臨床研究人員獲得極大便利。但是研究人員還是需要理解這些演算法的用途，並確保演算法不會導致誤導用戶。

2.訓練智能演算法，發掘細胞圖像中的數據

用細胞圖像數據訓練深度學習演算法的過程

深度學習的基礎是人工神經網路。人工神經網路是在上世紀40年代首次提出的計算模型，神經元各節點和層次之間，模擬人類大腦分析信息的方式，相互作用。

費城賓夕法尼亞大學的計算生物學家Casey Greene說，一直到5年前，基於神經網路的機器學習演算法都還嚴重依賴以人工方式把信息轉化成可接收的數據。

但是隨著數據規模爆炸性增長，以及演算法的創新，人們逐漸從繁瑣工作中抽身。深度學習技術的好處就在於它網路的「深度」，可以迫使計算機去尋找嵌套在圖像中的模式、關聯，而不需要人工判斷。

最終, 這個項目可以用一個訓練有素的演算法來分析一個新的圖像, 並準確地識別它。例如, 識別一個圖像到底是Charles Darwin還是病變細胞。但是當研究人員不再詳細地設計演算法的細節時，他們同時也無法控制演算法進行分類的過程, 也無法準確地解釋神經網路在做什麼。

Finkbeiner 指出儘管這些深度學習網路在做預測時非常準確, 但對於去理解網路看到了什麼，並且弄明白如此精準的預測是如何產生的，仍然是很大的挑戰。

3.生物成像正在收取深度學習的技術紅利

十年前, 自動生物圖像分析軟體只能專註於測量一組圖像中的單一參數。例如,麻省理工學院和哈佛大學的計算生物學家Anne Carpenter在2005年發布了一個叫做 CellProfiler 的開源軟體包, 幫助生物學家定量測量個體特徵: 例如, 顯微鏡下的熒光細胞數量，或石斑魚的長度。

Carpenter 團隊發布的開源軟體：CellProfiler，可以測定生物個體特徵

但由於深度學習技術，Carpenter的團隊走得更遠。他們另闢蹊徑，正在轉向測量一些生物學家沒有意識要測量的圖像,並記錄和組合視覺特徵, 如對DNA 染色, 細胞器結構和空白空間的質量產生成千上萬的特徵進行記錄和組合, 發現其中任何一個都可以發現更多、更新的內容。當前版本的CellProfiler已經包含了一些深度學習元素, 她的團隊希望在明年可以增加更複雜的深度學習技術。

Carpenter說，大多數人很難理解為什麼大數據下的深度學習有用，但實際上單細胞圖像中的信息可能比想像的更多，就像對大量細胞做轉錄分析一樣。這種類型的處理使得Carpenter團隊可以用較少監督的方法將細胞圖像轉化為與疾病相關的表型——並利用表型數據。

現在 Carpenter是猶他州鹽湖城 Recursion 製藥公司的科學顧問，該公司正在利用其深度學習工具，針對稀有單基因疾病的藥物開放。

麻省理工學院和哈佛大學的計算生物學家 Anne Carpenter

4.挖掘基因組數據

說到深度學習, 不是任何數據都適用的。深度學習技術通常需要大量的、標註過的數據集。成像數據提供了自適應性, 基因組數據也是如此。

舊金山的 Verily Life Sciences 公司使用的就是這樣的標註數據集，這家公司的前身是 Google Life Sciences。

生物數據公司 Verily Life Sciences

Verily 公司的研究員和 Google 的研究員共同開發了一種深度學習工具，能夠比傳統工具更準確地識別出一種常見的遺傳變異，即單核苷酸多態性。這種名為 DeepVariant 的軟體可以將基因組信息可視化，下文有詳細介紹。Mark DePristo 在 Google 負責基於深度學習的基因組研究，他希望 DeepVariant 能夠切實幫助到非主流的生物學研究者——他們只能用質量低、錯誤率高的基因組數據。

5.大數據和雲計算時代的深度學習

深度學習工具正在迅速發展，生物實驗室也需要具有計算機知識、協作能力或者兩者皆有的人。

Gladstone 研究所的神經科學家 Steve Finkbeiner 建議，邀請一位懂深度學習的同事出去吃午餐聊一聊, 就能了解這種方法是否對問題有用。

他表示, 有了一些數據集, 比如成像數據, 一個現成的程序可能會有用; 但是對於更複雜的項目, 需要考慮合作者，比如工作坊和會議可以提供一些訓練機會。

獲取雲計算資源意味著, 研究人員不需要一個計算機集群來使用深度學習，他們可以在其他地方進行計算。谷歌的 TensorFlow 是一個用於構建深度學習演算法的開源平台, 可以在 GitHub 上找到, 同時還有一個能夠準確識別遺傳變異的開源工具 DeepVariant。

谷歌的開源工具 DeepVariant，能夠準確識別遺傳變異

在新葯研製領域，也有可用於深度學習的大數據集。在新葯研發過程中，深度學習演算法的作用是解決分類問題：篩選藥物分子的形狀和氫鍵等特徵，以確定標準，列出潛在的藥物。

總部位於舊金山的生物技術公司 Atomwise 已經開發出一種演算法，名叫「體積像素（voxels）」。這種演算法可以讓他們在原子級別上解釋蛋白質大分子和其他小分子的立體結構，構建出以碳原子為骨架的模型特徵。

複雜的蛋白質結構可以用深度學習技術來研究

Atomwise 公司的 CEO Abraham Heifets 表示，這些特徵會轉化為向量表示。他們的演算法可以用來預測哪些小分子可能與特定的蛋白質相互作用，許多工作都是以生成蛋白質為目標的，但是不用已知的分子粘合劑。

Atomwise 公司正在利用這項技術，為他們的「AI 驅動分子篩選計劃」提供動力。這項計劃收集了一個擁有1000萬種化合物的資料庫，這將為研究人員提高多達72種的潛在的小分子粘合劑，用於生產需要的蛋白質。

利用「體積像素」技術研究蛋白質構造及合成的 Atomwise 公司

6.挑戰與警示

深度學習技術前景光明，同時挑戰也很巨大。

和任何計算生物學技術一樣，演算法產生的結果，只能保證不比輸入數據差。而模型和訓練數據的過擬合也是一個問題。此外，深度學習技術對數據量和數據質量的邀請很高，遠遠超出了一些實驗生物學家的預期。

深度學習演算法需要非常大的數據集，這些數據還要有很好的標註，以便演算法學會區分特徵、識別模式。具有數百萬個數據點來表示不同實驗和生理條件的更大、標註更好的數據集，讓研究人員在訓練演算法時有充分的靈活性。

Finkbeiner 表示，用大約15000個實例訓練之後，他的演算法才獲得顯著提升。Carpenter 說，高質量的「地面真值」數據（正確標註的數據）非常難以獲得。

為了應對來自數據的挑戰，研究人員一直在設法用更少的數據來進行更多訓練。底層演算法的進步使得深度神經網路能夠更有效地使用數據，讓演算法只用少量的圖像就可以進行訓練。研究人員也使用遷移學習技術（transfer learning），讓神經網路從一個數據集中獲得的分類能力應用於另一數據集。