當前位置:
首頁 > 新聞 > 專家標註的數據少就少吧,普通人標的數據現在也可以用了

專家標註的數據少就少吧,普通人標的數據現在也可以用了

雷鋒網AI 科技評論按:對於缺乏高質量標註數據的專業應用,除了繼續花錢標數據之外,常用方法似乎也就只有 ImageNet 預訓練 + 任務專用數據 fine-tune,眾包讓外行去標註更多數據拿來訓練是萬萬不敢的。不過 IBM 的這項最新研究就打破了這個禁忌,普通人標註的數據也可以用來訓練醫療影像分析模型。雷鋒網AI 科技評論把 IBM 研究院 Reseach Fellow Simone Bianco 撰寫的介紹文章編譯如下。

今日,我的IBM團隊和加州大學舊金山分校Gartner實驗室的同事在《自然方法》期刊上發表了一項具有創新性的研究成果,該成果允許我們從並非專家標註的數據生成數據集,並把它用於機器學習訓練。我們的方法可以讓 AI 系統從非專家生成的數據進行學習,並且達到與從專家生成的數據一樣好的學習效果。為此,我們開發出一個叫Quanti.us的平台,非專家可以在上面分析醫學影像(生物醫學領域的常見任務),進而生成標註數據。我們的平台擁有一整套完整的演算法,專門設計用來正確地解析這種帶有雜訊而且不完整的數據。一旦將這些技術結合使用,將能夠有效拓展機器學習在生物醫學領域的應用。

非專家標註、存在雜訊的數據集

極為有限的高質量標註數據集一直以來都是機器學習發展的瓶頸。通過創建可以從低質量標註數據集中提供準確分析結果的演算法,以及建立可以高速採集這樣的低質量標註數據的系統,我們可以幫助緩解該瓶頸。分析含有我們感興趣的特徵的圖像就是一個絕佳的例子。讓專家對圖像進行標註雖然準確度高但耗時良多,再者,以對比度分割(contrast-based segmentation)和邊緣檢測(edge detection)為代表的自動分析技術只有在嚴控的實驗條件下才表現良好,一旦實驗條件出現變化,就可能會出現不可靠的分析結果。

由非專家標註的圖像集雜訊較多。這十名非專家試圖標識出圖像中的深黑色圓圈,即細胞核。然而他們的標註結果(以橙色顯示)之間並不是完全一致。我們的演算法能夠從這堆雜訊數據中推測出共識輪廓(以紫色顯示)。我們最後將圖像的共識輪廓與專家標註的結果(以綠色顯示)進行對比

在細胞工程學科中的應用

圖像分析在定量生物醫學領域起到核心作用。很多年以前,我們與合作夥伴宣布成立由國家科學基金會資助的細胞工程中心(CCC)——這是一所志在開創細胞學科新領域的技術中心。細胞工程中心一直在不遺餘力促成不同學科之間的合作,如機器學習、物理、計算機科學、細胞分子生物學、基因體學等,以推動細胞工程學科的發展。我們的目標是研究並創建可用作自動化機器的細胞(或者點對點感測器,以獲取各種有關生物實體與其所處環境之間關係的重要信息。我們通過圖像分析技術準確識別細胞內部單元的位置與大小。不過,即使我們採用最先進的圖像分析技術,得到的細胞亞結構分析結果依然存在許多「雜訊」,導致無法針對細胞成分進行下一步操作。我們的技術可以利用雜訊數據預判細胞結構的正確位置,從而更好識別那些對潛在藥物靶標生成有貢獻的細胞器。

我們相信我們的演算法是構建複雜AI平台所不可或缺的關鍵一步。在早期系統還需要適度的人工干預,主要由生物學家負責把關一些可能在訓練階段出現的失誤,以進一步提升系統的性能。除此之外,我們也認為該方法未來有機會應用於生物學以外的同樣缺乏高質量標註圖像的領域。

viaIBM Research,雷鋒網 AI 科技評論編譯

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

GAIR 大會智能安全專場將有哪些大咖現身?內幕走一波
時隔兩年再發新品,零度智控欲激活百億市場

TAG:雷鋒網 |