伯克利實驗室重大醫學AI成果：基於少量訓練數據，提取細胞內部結構

新聞 03-01

雷鋒網註：小鼠卵細胞切片。（a）對應的手動分割（b）100層的MS-D網路的輸出結果

美國能源部勞倫斯伯克利實驗室的數學家們，開發了一種針對實驗成像數據的新的機器學習演算法。與典型的機器學習演算法需要成千上萬的訓練圖像不同，這種新演算法需要的訓練圖像少得多，而且速度也提高了不少。

伯克利實驗室的能源高級數學研究與應用中心（簡稱CAMERA）的Dani?l Pelt和James Sethian，通過開發一種他們稱之為「多尺寸密集卷積神經網路」（MS-D）的新演算法，顛覆了傳統的機器學習理念。和傳統方法相比，新方法需要的參數更少，收斂更快，而且可以基於非常小的數據集進行學習。他們提出的這種方法已經被用於從細胞圖像中提取生物結構，而且可以作為多個研究領域分析數據的主要計算工具。

當實驗設備以更高的速度生成更高解析度的圖像時，科學家們很難對得到的數據結果進行管理和分析，這些工作通常需要手動完成。2014年，Sethian在伯克利實驗室建立了一個集成的交叉學科中心CAMERA，目的是開發美國能源部科學用戶設施辦公室實驗所需的基礎數學方法。CAMERA是該實驗室的計算研究部門的一部分。

「在許多科學應用中，研究人員需要耗費大量的體力勞動來標註和勾畫圖像，有時候為了得到幾張勾畫精細的圖像，甚至要花費幾周時間。我們的目標是開發出一種能基於非常小的數據集進行學習的技術」，Sethian說道。Sethian是加州大學伯克利分校的數學教授。

這項演算法的詳細介紹發表在了2017年12月26日的美國國家科學院學報上。

「這項突破源於我們意識到，通過放大和縮小，在不同尺寸下捕捉特徵的方法，可以用在單個層上處理多個尺寸的數學運算來取代，」 Pelt介紹道。Pelt是荷蘭數學與計算科學研究所下屬的計算成像小組的成員。

了解生物細胞的內部結構是該方法非常富有前景的應用領域之一。在一個項目中，Pelt和Sethian採用MS-D演算法，只用了7個細胞的數據就確定了其內部結構。

「我們實驗室正在研究細胞結構和形態如何影響或控制細胞的行為。」美國國家x射線斷層掃描中心主任、加州大學舊金山分校醫學院的教授卡Carolyn Larabell說道。「我們花了大量時間來手工分割細胞以提取結構，分辨健康與患病細胞之間的差異。這種新方法有可能從根本上改變我們理解疾病的能力，而且是我們建立人類細胞圖譜的一個關鍵工具。人類細胞圖譜是一個通過全球協作來繪製和勾畫一個健康人體的所有細胞的項目。」

用更少的數據獲取更多的科學真理

如今，圖像無處不在。智能手機和感測器產生了一批珍貴的圖像，其中很多都帶有相關的標記信息。基於這個龐大的交叉參考資料庫，卷積神經網路和其他機器學習演算法已經徹底改變了我們快速識別那些和我們曾經見過和分類過的圖像類似的自然圖像的能力。

這類方法需要數以百萬計的標記過的數據作為引導，通過調整一系列隱藏的內部參數來「學習」其中的規律，這個過程需要使用巨型計算機並花費大量的時間。如果我們沒有這麼多標記好的圖像該怎麼辦呢？要知道，在很多領域，如此龐大的數據是難以企及的奢侈品。生物學家記錄下細胞圖像，並煞費苦心地手動勾勒出邊界和結構。對他們來說，為了得出一個完整的三維圖像而花費數周時間，是很稀鬆平常的事情。材料科學家利用斷層重建技術來觀察岩石和材料，擼起袖子手動標記不同的區域，辨認裂縫、斷口和孔洞。不同重要結構之間的差異非常細微，數據中的雜訊很可能掩蓋掉這些特徵，迷惑最出色的演算法和專家。

對於傳統的機器學習演算法來說，這些手動標記的寶貴數據數量遠遠不夠。為了解決這一問題，CAMERA的數學家們基於非常有限的數據對機器學習發起了挑戰。他們試圖用更少的數據獲得更佳的結果，他們的目標是找出建立一套高效的數學「運算符」的方法，以大大減少參數的數量。這些數學運算符可能會自然地結合一些關鍵約束來幫助識別，比如結合對科學合理的形狀和模式的要求。

多尺寸密集卷積神經網路

機器學習在成像問題中的許多應用，採用的都是深度卷積神經網路(DCNNs)。其中輸入圖像和中間圖像在大量的連續層中進行卷積，使得網路能夠學習高度非線性的特徵。為了在複雜的圖像處理問題中獲得準確的結果，DCNNs通常依賴於額外操作和連接的組合，比如通過放大和縮小來捕捉不同的圖像尺寸下的特徵。為了訓練更深層和更強大的網路，往往需要額外的層類型和連接。最後，DCNNs通常使用大量的中間圖像和訓練參數（往往超過1億）來獲取複雜問題的結果。

而新的「多尺寸密集」網路結構避免這樣的複雜過程，它用擴張的卷積替代縮放操作，以捕捉各種空間範圍下的特徵，在單個層中使用多個尺度，並將所有中間圖像緊密地連接起來。新的演算法只需要很少的中間圖像和參數就能獲取精確的結果，而且不需要調整超參數以及額外的層或連接來支持訓練。

伯克利實驗室重大醫學AI成果：基於少量訓練數據，提取細胞內部結構

從低解析度數據中獲取更精確的結果

這種方法所面臨的一大不同挑戰就是，要從低解析度的輸入中產生高解析度的圖像。任何嘗試過把圖像放大的人都知道，當圖像的尺寸變大時畫質也會變得糟糕，因此這聽起來就像一個不可能完成的任務。但一小部分經過多尺寸密集卷積神經網路處理的訓練圖像確確實實能夠起到一些作用。比如對纖維增強的微型複合材料的層析重建進行降噪。論文中提到了一個實驗，用1024個x射線投影重建的圖像，得到的圖像雜訊相對較低。同一物體的雜訊圖像隨後用128個投影進行了重建。訓練輸入是有雜訊的圖像，在訓練中使用相應的無雜訊圖像作為目標輸出。經過訓練的網路能夠有效地獲取雜訊輸入數據並重構更高解析度的圖像。

伯克利實驗室重大醫學AI成果：基於少量訓練數據，提取細胞內部結構

新的應用方向

Pelt和Sethian正在努力將他們的研究成果應用到一系列新的領域，比如快速實時分析同步加速器光源產生的圖像，以及生物重建問題，比如重建細胞和大腦的映射。

Pelt說道：「這些新方法令人振奮，它們讓機器學習得以應用到比目前更加廣泛的成像問題當中。通過減少所需訓練圖像的數量，增加可以處理的圖像的大小，這一新的體系結構可以用來回答許多研究領域中的重大問題。」

CAMERA由美國能源部科學辦公室的高級科學計算研究和基礎能源科學辦公室支持。科學辦公室是美國物理科學基礎研究的最大支持者，它正致力於解決我們這個時代最緊迫的一些挑戰。

勞倫斯伯克利國家實驗室通過推進可持續能源，保護人類健康，創造新材料，揭示宇宙的起源和命運，來解決世界上最緊迫的科學挑戰。伯克利實驗室成立於1931年，獲得了13項諾貝爾獎。勞倫斯伯克利實驗室雖然隸屬美國能源部，卻具體由加利福尼亞大學負責運行。雷鋒網

via berkeley lab雷鋒網編譯

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※中國信通院金融科技負責人韓涵：大數據是生產資料的變革，區塊鏈是生產關係的變革
※新加坡航空公司計劃推出區塊鏈數字錢包

TAG:雷鋒網 |