當前位置:
首頁 > 天下 > 20分鐘瀏覽5萬張圖,2小時學會檢測癌症,AI是這樣學醫的

20分鐘瀏覽5萬張圖,2小時學會檢測癌症,AI是這樣學醫的

在世界各地,醫生們正開始依賴人工智慧(AI)演算法,加速診斷與治療規劃,目的是騰出更多的時間,接診更多病人,並提高準確度。

對於醫生是如何培養出來的,我們都有些大致的概念:多年的課堂學習,堆積如山的教科書和學術期刊,還有無數個小時的實習經歷。

AI學醫的方式則不是那麼直觀。

圍繞演算法是如何學習這些模式的,以及這種技術中可能存在的陷阱,我們聯手醫學AI初創企業MD.ai聯合創始人利奧·陳(Leo Chen),以及放射科醫生盧克·奧克登-雷納(Luke Oakden-Rayner)訓練了兩個演算法,讓它跟醫學專業人士一較高下。其中一個演算法檢測腫瘤性結節,另一個則評估其為惡性腫瘤的可能性。

醫用AI的開發通常是複雜的模式匹配:一個演算法瀏覽無數器官掃描圖像,包括有腫瘤的和沒有腫瘤的,學著區分這兩個類別。

我們給演算法饋送了近20萬張CT掃描圖像,包括2D和3D圖像,其中有惡性腫瘤、良性腫瘤,也有不存在腫瘤的圖像。為測量演算法的準確程度,我們採用了「召回率」指標,跟醫生們所用的辦法相同。它測量的是給定虛警數量的情況下,演算法對結節的檢出率。比如,「60%召回@1」的意思是:在每張圖像允許一個虛警的情況下,它能正確檢出60%的腫瘤。對於另一個檢測惡性腫瘤的演算法,體現準確率的指標相對簡單:正確檢出的惡性結節的百分比。

從理論上講,這個虛警數字的高低是可以調節的,但會影響到結節的檢出率。比如,若每準確檢出一個結節,我們都允許出現4個虛警,那麼,結節的檢出率就會增加。在現實運用中,虛警率越高,病人接受的不必要檢查就越多。但對於演算法的敏感度,每個醫生所能接受的水平不盡相同,有的看重準確率,有的著重降低虛警率,具體視各人的工作流程而定。

紅圈中的白點是一個小的結節。其餘白點都不是結節。

訓練完成度:0%;閱覽圖片數:0;耗時:00:00:00

機器

結節檢出率:0.00% @Recall

惡性檢出率:0.00% @Recall

放射科醫生:AI系統要學會兩種技能——檢測肺部結節,並判斷哪些可能為惡性。

檢測:

結節是一種很小的組織,正常情況下一般不存在於肺部。尋找結節是經典的「大海撈針」型問題。這是因為,結節通常很小,乍一看去,很多結構都與之類似,比如血管和疤痕。

惡性腫瘤檢測:

放射科醫生藉助一系列特點,判斷哪些結節可能為惡性腫瘤。最常用的是弗萊施納判斷標準,只考慮結節的大小和數量,以及吸煙等風險因素。其他系統更加複雜,包括了形狀和結節出現的位置。

訓練完成度:25%;閱覽圖片數:0;耗時:00:00:00

機器:

結節檢出率:46.40% @Recall1

惡性檢出率:46.32% @Recall1

放射科醫生:這個時候,AI對結節一無所知。通常,它會標記一個血管,不能肯定其是否為結節,但懷疑可能是惡性腫瘤。但實際上,惡性腫瘤只出現於結節中,所以上述結果自相矛盾。

而人類就會知道,這既然不是結節,自然也不會是惡性腫瘤,因為它存在分岔,明顯屬於血管。

訓練進行到一半,AI系統認為,大腸腸壁上的這一褶皺可能為肺部結節。

訓練完成度:50%;閱覽圖片數:95,166;耗時:00:36:39

機器

結節檢出率:59.80% @Recall1

惡性檢出率:68.71% @Recall1

訓練完成度:75%;閱覽圖片數:142,749;耗時:00:55:29

機器

結節檢出率:64.30% @Recall1

惡性檢出率:76.38% @Recall1

放射科醫生:到這時,AI漸漸摸著了門道。它高度肯定為結節的點,幾乎全部都為結節。即使它不太肯定的點也都是「類似結節」。有一項任務即使對人類而言也較為困難,那就是區分結節和先前感染留下的疤。一般而言,肺部最邊緣的細小結節總是良性的,可以忽略。這個時候,AI系統已經很擅長於此。它並不確定這些東西是結節(實際並不是),並能肯定它們不是惡性腫瘤。

AI認為,紅圈內的點是一個結節,但不屬於惡性腫瘤;而白圈內的大型結節肯定為惡性腫瘤。

訓練完成度:100%;閱覽圖片數:190,332;耗時:00:55:29

機器

結節檢出率:67.90% @Recall1

惡性檢出率:82.82% @Recall1

放射科醫生:訓練完成後,模型的表現已經相當不錯。只就極其肯定的預測而言,大部分可疑的大型結節都被檢測了出來。

正如我們所希望的那樣,模型幾乎100%肯定:這些大型結節是惡性腫瘤。放射科醫生絕對會把它們當惡性腫瘤看待,直到該可能性被排除。AI系統也同樣「操心」。

而在AI不太肯定的預測中,一種有趣的模式開始呈現:對於肺部「類似結節」的點,AI系統不確定其為結節,但肯定它們不是惡性腫瘤。在很多情況下,AI比較肯定那是結節,但100%肯定它是良性的。雖然,人類從一開始就不會管那些結構叫做「結節」,但對病人來說,最終答案是一樣的。

AI系統十分肯定地認為,紅圈內的點是一個結節,但幾乎可以肯定它並非惡性腫瘤。放射科醫生同意這一判斷;具體而言,它處在肺部邊緣,且位於大動脈後面,比較讓人放心。另一方面,圖片頂部的大型結節(白圈內)幾乎肯定是惡性腫瘤;AI系統得出了相同的判斷。

AI系統還學會了一個比較棘手的問題:鈣化結節幾乎肯定是良性的,但在數據集中,這類結節並不多見,因此,AI系統很難掌握這個知識點。對人類而言,這太容易了,只要認得「鈣化」就行了。一旦知道要找什麼,我們甚至都不用練習,一上手就能找到正確答案。

AI系統無法理解「鈣化」的概念,只能通過學習,判斷某種圖像模式屬於良性。比如在這個項目中,鈣化結節的密度比非鈣化結節的密度大(在圖中顯得更亮)。見多了這種結節,並知道它們從來不是惡性腫瘤,AI就掌握了這種模式。

有一種特定的結節較難判斷,因為它是鈣化的,同時又很大(體積較大是惡性腫瘤的有力指標)。起初,AI認為,它們絕對是惡性腫瘤,在接受了5萬張圖的訓練之後,它依然這樣認為。但訓練到10萬張圖的時候,它已經能100%確定,這種結節是良性的,因為它發現,關鍵要看密度。

紅圈內的結節密度很大(在圖中顯得很亮),白圈內的結節密度較小(呈灰色)。前者是良性鈣化結節,而後者幾乎肯定是惡性腫瘤。

結論

AI表現非常之好,不過尚未企及放射科醫生的水平。這主要是因為數據集不夠大,CT掃描圖像不足1000張。科技公司或醫院開發的類似系統會使用幾千甚至幾萬張圖像。我們採用的是一個免費數據集,而IBM等公司不惜斥資幾十億美元,收購企業及其訓練數據,就是為了這些。更加多樣化的訓練絕對對它有利。有了足夠多的數據,它將能媲美人類表現。

該項目凸顯了人類與當代AI系統的主要區別。人類很擅長學習,因為已有的知識充當了腳手架。以鈣化結節為例。人類一學就會,因為相對於非鈣化結節,鈣化結節密度更大(在圖片中顯得更亮)。「密度很大的結節是鈣化結節,因而是良性的。」只要這麼一說,你就明白了,甚至不用練習,你就能得出正確答案。

然而,AI系統沒有吸納知識的途徑;它無法理解「鈣化」這一概念,也不知道鈣化結節是良性的,因此,就需要通過無數例子,構建出這種認知。在本項目中,它就藉助5萬張圖片,學會了一條人類一點就通的知識。

但另一方面,AI系統獲取經驗的速度也很快。它瀏覽5萬張圖只用了不到20分鐘,而人類可能要花數年。因此,對於更加複雜的決定,當經驗比知識更加寶貴時,AI系統就有望勝人一籌。

翻譯:雁行

編輯:李莉

來源:QUARTZ

造就,劇院式演講,發現創造力


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 造就 的精彩文章:

經濟學界的這些主流觀點,也許根本經不起推敲
數字時代,死亡越來越難定義!未來生與死可能不再涇渭分明

TAG:造就 |