谷歌《Cell》論文:使用深度學習,直接對細胞影像生成熒游標記
選自Google Research
機器之心編譯
很多常用的細胞標記方法有明顯的缺點,包括不一致性、空間重疊、物理干預等。近日,谷歌利用深度學習方法即「in silico labeling(ISL)」標記細胞的研究登上了《Cell》雜誌。ISL 能直接從未標記的固定樣本或活體樣本的透射光影像中預測多種熒游標記。由於預測是基於計算機的,ISL 可以克服上述所有缺點,並省去很多中間步驟。這項技術有望生物學和醫學中打開全新的實驗領域。此外,谷歌還開源了整個項目,包括模型代碼和數據集等,供大家自由使用。
開源地址:https://github.com/google/in-silico-labeling
在生物學和醫學領域,顯微鏡技術可以幫助研究人員觀察到肉眼看不到的細胞和分子的細節。透射光學顯微鏡將生物樣本的一側照射並成像,這種顯微鏡相對簡單,活體培養物可以很好地耐受,但是生成的圖像可能難以準確評估。熒光顯微鏡可以將需要的生物對象(如細胞核)用熒光分子做出特殊標記,簡化分析,但需要複雜的樣品製備。隨著機器學習在顯微鏡學中的應用越發廣泛(包括用於自動評估圖像質量和幫助病理學家診斷癌組織的演算法),谷歌的研究者開始思考,是否可以開發一個深度學習系統,將兩種顯微鏡技術的優點結合起來,同時最大限度地克服二者的缺點?
今天,谷歌在《細胞》(Cell)雜誌上發表了一篇名為《In Silico Labeling: Predicting Fluorescent Labels in Unlabeled Images》的文章。在論文中,研究者指出,深層神經網路可以從透射光圖像預測熒光圖像,在不對細胞做出改變的情況下生成標記的有用圖像,同時有可能實現未修飾細胞的縱向研究、用於細胞治療的微創細胞篩選以及使用大量同時標記的研究。此外,谷歌還開源了模型、完整的訓練和測試數據、經過培訓的模型檢查點及示例代碼。
背景
透射光顯微鏡技術用法簡單,但根據該顯微鏡生成的圖像很難判斷細胞的情況。下圖中的示例圖像來自相差顯微鏡,圖中像素的強度表明光在通過樣本時相移的程度。
來自誘導性多能幹細胞的人類運動神經元培養物的透射光(相差顯微)圖像。Outset 1 展示了一群細胞,可能是神經元。Outset 2 展示了圖像中的一個裂痕,它遮擋了底層的細胞。Outset 3 展示了神經軸突。Outset 4 展示了細胞死亡。上圖比例尺為 40 μm。本文圖源:格萊斯頓研究所(Gladstone Institutes)史蒂夫·芬克拜納實驗室(Finkbeiner lab)。
在上圖中,我們很難確定 Outset 1 的集群中的細胞數量或 Outset 4(提示:中上部分有一個幾乎不可見的扁平細胞)中的細胞狀態與位置,同樣也很難獲得始終清晰的精細結構,如 Outset 3 中的神經突觸。
我們可以通過在 z 堆棧的維度上收集圖像,從透射光顯微鏡中獲取更多信息,其中 z 堆棧表示相機距離且會系統地變化,而(x, y)表示註冊的圖像集。這會令細胞的不同部分分別進入或脫離焦點,且提供了樣本的 3D 結構信息。不幸的是,這種方法通常需要已訓練的系統來理解 z 堆棧,並且 z 堆棧的分析目前已基本實現自動化。z 堆棧的案例如下所示。
GIF
相同細胞 z 堆棧的相差顯微鏡圖。請注意在焦點轉移時外觀是如何變化的。現在,我們可以看到,Outset 1 右下角的模糊形狀是一個橢圓細胞,Outset 4 最右邊的細胞要比最上面的細胞高,這可能意味著它已經歷了細胞程序化凋亡。
相比之下,熒光顯微鏡圖像更容易分析,因為樣本是用熒游標記製備的,這些標記展示了研究者希望查看的信息。例如大多數人的細胞只有一個細胞核,因此標記後的細胞核(下圖藍色部分)可用簡單的工具找到並在圖像中計數細胞數量。
同一細胞的熒光顯微鏡圖像。藍色熒光集中標記了 DNA,展示了細胞核的位置。綠色熒光集中標記了僅在樹突(一種神經細胞子結構)中存在的蛋白質。紅色熒光集中標記了僅在軸突(另一種神經細胞子結構)中存在的蛋白質。使用這些標記可以更簡單地理解樣本中發生的變化。例如,Outset 1 中綠色和紅色標記確定其為一個神經集群。Outset 3 中的紅色標記表示神經突觸是軸突而不是樹突。Outset 4 左上角的藍色點表示這裡存在以前難以看到的細胞核,而左側缺乏藍色標記的細胞表示它是沒有 DNA 的細胞碎片。
然而,熒光顯微鏡可能存在顯著的缺點。首先,樣本製備和熒游標記會帶來新的複雜性和不可控變數。其次,如果樣本中存在很多不同的熒游標記,光譜的重疊會令我們很難判斷哪種顏色屬於哪個標記,這也就限制了研究人員在一個樣本中通常只使用三到四種熒游標記。最後,對於細胞來說,熒游標記可能具有毒性,有時甚至會直接殺死細胞。這使得標記的使用在縱向研究中存在困難,因為縱向研究需要對同一群細胞進行跟蹤觀察。
利用深度學習看到更多
我們在論文中展示了深度神經網路可以利用透射光 z-堆棧預測熒光圖像。為此,我們創建了一個與熒光圖像匹配的透射光 z-堆棧數據集,並訓練神經網路利用透射光 z-堆棧預測熒光圖像。下圖展示了該過程:
系統概覽。(A)訓練樣本數據集:成對透射光 z-stack 和相同場景的熒光圖像的像素配准集合。多個不同的熒游標簽用於生成熒光圖像,不同訓練樣本的熒游標簽不同;棋盤格圖像表示給定樣本未獲取的熒游標簽。(B)未訓練深度網路。(C)該網路在數據 A 上訓練。(D)新場景圖像的 z-堆棧。(E)訓練好的網路 C,用於預測新圖像 D 中每個像素的熒游標簽(標籤從數據 A 中學得)。
研究過程中,谷歌開發了一種新型神經網路,該網路受 Inception 的模塊設計啟發,包括三種基本構造塊:in-scale 配置,不改變特徵的空間尺度;down-scale 配置,將空間尺度放大一倍;up-scale 配置,將空間尺度縮小 1/2。這幫助我們將網路架構設計這個難題分階層兩個簡單一些的問題:構造塊的排列(宏觀),以及構造塊本身的設計(微觀)。研究者使用論文討論的設計原則解決了第一個問題,使用 Google Hypertune 支持的自動搜索功能解決了第二個問題。
為了確保該方法有效,研究者使用 Alphabet 實驗室和兩個外部夥伴(格萊斯頓研究所史蒂夫·芬克拜納實驗室和哈佛 Rubin 實驗室)的數據對模型進行了驗證。這些數據跨越三種透射光圖像模式(明視野、相位對比和微分干涉相位差)和三種培養類型(誘導性多能幹細胞形成的人類運動神經元、大鼠皮層培養和人類乳腺癌細胞)。他們發現該方法能夠準確預測多種標籤,包括細胞核、細胞類型(如神經細胞)和細胞狀態(如細胞死亡)。下圖展示了該模型對透射光輸入的預測結果以及運動神經元樣本的真值熒光反應。
GIF
上畫展示了相同細胞的透射光圖像、熒光圖像,以及用谷歌的模型預測的熒游標記。Outset 2 表明儘管輸入圖像中有偽影,該模型也可以預測正確的標記。Outset 3 表明模型推斷出這些結構是軸突,可能是因為它們離最近鄰的細胞比較遠。Outset 4 表明模型可以發現頂部很難察覺的細胞,並正確地將左側的目標識別為無 DNA 的細胞碎片。
自己動手嘗試一下吧!
谷歌已經開源了模型、完整的數據集、訓練和推斷代碼,以及示例。只需要用最小量的額外訓練數據,模型就可以預測新的標記:在論文和代碼中,谷歌甚至展示了只需要單張圖像就可以預測新標記的結果,這是遷移學習的威力。
谷歌希望,這種不需要干預細胞就能生成有用的標記圖像的應用可以在生物學和醫學中打開全新的實驗領域。
論文:In Silico Labeling: Predicting Fluorescent Labels in Unlabeled Images
論文地址:http://www.cell.com/cell/fulltext/S0092-8674(18)30364-7
摘要:顯微術在生命科學中是核心方法。很多常用的方法例如抗體標記等被用於給細胞成分加上物理熒游標記。然而,這些方法有明顯的缺點,包括不一致性、由於空間重疊導致能同時標記的數量有限,以及為生成測量數據實驗中必然存在的干擾(如細胞固定等)。我們在本文中證明,機器學習方法「in silico labeling(ISL)」能可靠地從未標記的固定樣本或活體樣本的透射光圖像中預測某些熒游標記。ISL 可以預測多種標記,包括對細胞核、細胞類型(如神經細胞)和細胞狀態(如細胞死亡)的標記。由於預測是基於計算機的,因此該方法是一致的,不會受限於空間重疊,並且不會對實驗造成干擾。ISL 可以生成用其它方法很難或無法觀測的生物學測量數據。
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。
------------------------------------------------
※谷歌開源語義圖像分割模型:該領域當前最優模型
※Caffe2代碼全部併入PyTorch:深度學習框架格局劇震
TAG:機器之心 |