韓國科研團隊:超90%的醫學影像AI論文未在臨床環境進行嚴格驗證
雷鋒網消息,近年來,人工智慧在醫學中的應用令人興奮,但當前的一個問題是人工智慧演算法缺乏適當的臨床驗證。近日,韓國泰安郡衛生中心的Dong Wook Kim和蔚山大學醫學院放射學研究中心的Hye Young Jang、Kyung Won Kim、Youngbin Shin以及Seong Ho Park(通訊作者)等幾位醫學博士發表了一篇論文,來評估AI演算法性能研究實驗的設計特徵,這些AI演算法基於醫學影像來提供診斷決策。
研究團隊通過檢索PubMed MEDLINE和Embase資料庫,以確定2018年1月1日至2018年8月17日期間發表的原始研究論文, 評估所選擇的文章有以下幾個條件:
1、該研究是否使用外部驗證而不是內部驗證,並且在外部驗證的情況下,是否收集驗證數據
2、是否使用診斷隊列設計而不是診斷病例對照設計
3、是否來自多個機構
4、是否以前瞻性的方式
這些是在現實世界中用於臨床驗證AI性能的基本方法學特徵。
確定了符合上述標準的研究後,研究團隊將出版期刊分為醫學期刊和非醫學期刊。 然後,比較醫學和非醫學期刊之間的結果。在516項符合條件的已發表研究中,只有6%(31項研究)進行了外部驗證。31項研究均未採用所有三種實驗設計條件:診斷隊列設計,包含多個機構,以及用於外部驗證的前瞻性數據收集。醫學和非醫學期刊之間沒有顯著差異。
研究團隊得出的結論是:幾乎所有在研究期間發表的醫學影像AI演算法性能的評估實驗,都是為驗證技術概念的可行性而設計,沒有對AI演算法在實際臨床環境下的性能進行嚴格驗證。
引言
由於深度學習技術的進步,人工智慧(AI)在醫學中的應用引起了很多關注。值得注意的是,人們對使用AI進行各種醫學影像的診斷分析非常感興趣,主要是通過卷積神經網路,一種被稱為「計算機視覺」的深度學習技術。與任何其他醫療設備或技術一樣,通過充分設計的研究確保患者的利益和安全,同時避免任何無意的危害,在臨床實踐中採用AI演算法進行全面臨床驗證的重要性不容小覷。
值得注意的是,在本研究中使用術語「驗證」來表示確認,就像在醫學領域中使用的那樣,而不是在機器學習領域中用作技術術語「演算法調整」的意思。
AI技術的臨床驗證可以在不同的水平上進行:診斷性能,對患者結果的影響以及考慮 cost-benefit 和 cost-effectiveness 的社會效能(societal efficacy)。正確評估使用深度學習分析醫學圖像的高維AI演算法的真實臨床性能需要適當設計的外部驗證。建議外部驗證使用重新招募的患者或提供訓練數據的機構以外的其他機構收集的足夠大小的數據集,以充分代表AI所應用的現實臨床環境中的目標患者表現譜(即患者人口統計學和疾病狀態的所有相關變化)。
此外,使用來自多個外部機構的數據對驗證非常重要,以驗證演算法的泛化能力,應對各種醫院系統的預期變異性。複雜的數學/統計AI模型,例如分析醫學影像的深度學習演算法,需要大量的數據用於演算法訓練;製作和注釋這種量綱的醫學影像數據資源尤其緊張和困難。因此,開發此類AI演算法的個體可能依賴於任何可用的數據(方法上稱為便利病例 - 對照數據 convenience case-control data),儘管這些可能易於發生選擇偏倚和人為疾病流行(artificial disease prevalence),並且可能不能很好地代表實際臨床設置。由於AI演算法的性能很大程度上取決於其訓練數據,因此存在真正的風險,即AI演算法在實際操作中可能表現不佳,並且在一個機構訓練的演算法在應用於另一個機構的數據時提供不準確的結論。
儘管人工智慧在醫學中的應用令人興奮,但人工智慧演算法缺乏適當的臨床驗證似乎是當前的一個問題,這種現象被稱為「數字例外論」(digital exceptionalism)。例如,計算機科學家通常會在「測試」數據集上評估AI演算法的性能;然而,這些通常是原始數據集的隨機子樣本,因此,不可能對臨床表現進行充分的外部驗證。據我們所知,顯示這一顯著問題確切程度的具體數據很少。
本研究旨在評估最近發表的研究的實驗設計,這些研究報告了分析醫學影像的AI演算法的性能,並確定研究設計是否適合於驗證AI演算法在實際臨床中的表現。本研究中提到的研究實驗設計對於驗證AI的真實臨床表現至關重要,但對於驗證概念技術可行性研究而言則過多。由於並非每項關於使用AI進行醫學診斷的研究都是為了驗證實際的臨床表現,本研究的目的並不是直截了當地判斷已發表研究的方法學適用性。
材料和方法
文獻檢索與篩選
我們對PubMed MEDLINE和Embase資料庫進行了全面搜索,以確定調查AI演算法性能的原始研究文章,該演算法通過分析醫學影像來提供診斷決策(例如診斷或發現特定疾病,又或者是提供信息以根據特定疾病將患者分類為亞組疾病狀態、亞型、嚴重程度、階段、治療反應、預後和風險)。我們使用以下搜索查詢: (「artificial intelligence」 OR 「machine learning」 OR 「deep learning」 OR 「convolutional neural network」) 和 (diagnosis OR diagnostic OR diagnosing) 和 (accuracy OR performance OR 「receiver operating」 OR ROC OR AUC)。我們將檢索時間限制為2018年,以獲得及時的結果(文獻檢索更新至2018年8月17日)。印刷出版物和電子出版物都包括在內。
在刪除兩個資料庫之間的重疊之後,由兩名獨立評審員篩選文章的資格。在一次會議上重新評估了任何程度模糊或在兩位審稿人之間產生意見分歧的文章,並邀請了第三位審稿人來達成一致。案例報告、評論文章、社論、信件、評論和會議摘要/程序被排除在外。我們的檢索僅限於人類類別和英語語言的研究。
我們將醫學圖像定義為放射圖像和其他醫學圖像(例如,內窺鏡圖像,病理圖像和皮膚圖像),並且沒有考慮任何在時間上繪製一維數據的線條圖,例如,心電圖和A超。研究調查了結合醫學圖像和其他類型臨床數據的AI演算法。沒有考慮除直接診斷決策之外的圖像相關任務的AI演算法,例如圖像分割,定量測量和圖像採集/重建的增強。
數據提取
兩位評審員通過以下標準評估了符合條件的文章的全文:
1、該研究是否使用外部驗證而不是內部驗證,並且在外部驗證的情況下,是否收集驗證數據
2、是否使用診斷隊列設計而不是診斷病例對照設計
3、是否來自多個機構
4、是否以前瞻性的方式
這些是在實際操作中推薦用於AI性能臨床驗證的基本方法學特徵。這些問題中得到更多「是」的答案,則演算法性能的實際應用越普遍。如果一項研究以多種方式驗證其AI性能,那麼如果至少有一項分析使用了這些設計條件,則該研究對上述每個問題都會為「是」。我們寬泛地定義了「外部」,包括訓練數據和驗證數據來自不同機構,以及從同一機構但在不同時間收集訓練和驗證數據的情況,即使後者在嚴格意義上不被視為外部驗證。
對於在同一機構收集訓練和驗證數據集的研究,如果驗證數據集的臨床設置和患者資格標準與訓練數據集分開指定,則驗證數據僅被視為外部數據。這是為了確保驗證數據不僅僅是原始大數據集的分割子樣本,因為這會產生一種內部驗證。診斷性隊列設計指該研究首先定義臨床環境和患者資格標準,然後連續或隨機招募患者以進行特定診斷程序,例如AI演算法應用。相反,診斷病例對照設計將分別收集疾病陽性和疾病陰性受試者。診斷病例對照設計容易出現疾病譜偏倚,這可能導致對診斷性能的誇大估計和非自然流行,從而產生診斷性能的不確定性。
另外,我們注意到每篇文章的主題領域(例如,放射學,病理學和眼科學)並將出版期刊分類為醫學或非醫學期刊組。這些期刊主要根據期刊引用報告(JCR)2017版本類別進行分類。對於未包括在JCR資料庫中的期刊,如果期刊的範圍/目標包括任何醫學領域或主編是醫生,我們會提及期刊網站並將其歸類為醫學。對於任何程度模糊或在兩位獨立評審員之間產生意見分歧的文章都在包括第三位評審員在內的共識會議上重新評估。
結果測量和統計分析
我們計算了進行外部驗證的研究百分比。對於報告外部驗證結果的研究,確定了涉及診斷隊列的實驗設計,包含多個機構以及外部驗證的前瞻性數據收集的研究比例。使用Fisher精確檢驗對醫學和非醫學期刊的結果進行了比較。 p
結果
在去除PubMed MEDLINE和Embase之間的重疊後最初收集的2748篇文章中,最終有516篇文章符合條件(圖1,表1)。
表2列出了具有每種實驗設計的文章的比例,包括醫學和非醫學期刊的分類。 只有6%(516個中的31個)進行了外部驗證。 所有外部驗證研究均未採用所有三種實驗設計,即診斷隊列設計,包含多個機構和前瞻性數據收集。 醫學和非醫學期刊之間沒有顯著差異(表2)。
討論
我們的研究結果顯示,最近發表的研究報告了用於醫學影像診斷分析的AI演算法的性能,但沒有嚴格驗證AI演算法臨床性能的設計特徵,這證實了主要期刊最近提出的擔憂。我們的研究沒有考慮人工智慧研究的各種詳細的方法學質量測量,而只是評估了主要的宏觀研究。因此,AI演算法臨床驗證的不足程度可能更為顯著。
然而,應該指出的是,這些結果並不一定意味著已發表的研究各種方法設計不充分。本研究中使用的四個標準是旨在評估AI演算法在實際臨床表現的基本要求。對於僅僅研究技術可行性的研究來說,這些要求將是過度的。讀者和研究者都應該區分概念驗證技術可行性研究和驗證AI臨床表現的研究,並且應該避免錯誤地考慮不符合上述標準的研究結果作為臨床驗證的合理證據。
最近發表了一些相關的方法指南。我們懷疑在本研究中分析的大多數研究可能是在這些方法指南可用之前構思或執行的。因此,旨在評估醫學AI演算法的臨床性能研究的實驗設計可能在未來得到改善。
在我們的研究中沒有直接解決但值得一提的另一個問題是:關於先驗分析計劃的透明度以及在驗證AI演算法的臨床性能的研究中的所有結果的完整公布。
由於人工智慧演算法的表現可能因機構不同而有差別,一些研究人員或贊助商可能會傾向於選擇性地報告有利的結果,這會導致漏報不利的結果。前瞻性登記研究包括先驗分析計劃,類似於干預臨床試驗的登記(例如,在https://clinicaltrials.gov),將有助於提高這些研究的透明度。已經提出了診斷測試準確性研究的前瞻性登記,其中包括用於驗證AI性能的研究。學術期刊採用這一政策有助於提高驗證AI演算法臨床表現的研究報告的透明度。
我們目前的研究有一些局限性。
首先,研究數據的時效性很重要,因為人工智慧是一個快速發展的領域,許多新研究正在發表,我們研究結果的有效期可能很短。但是我們希望很快醫學AI臨床表現的研究設計取得實質性進展。儘管如此迅速的變化,我們的研究仍然是有意義的基線,可以進行比較以確定未來是否有任何改進,因為這裡分析的大多數已發表的研究可能早於最近發布的相關方法指南。
其次,雖然本研究僅評估了AI診斷性能的研究報告,但AI的臨床驗證延伸到評估AI對患者預後的影響。然而,據我們所知,關於AI應用如何影響患者預後的研究很少,並且系統地審查已發表的研究是不可行的。
文章由雷鋒網AI掘金志學術組編譯,雷鋒網
※圖森未來融資9500萬,估值超10億美金,拉開自動駕駛物流搶奪戰序幕
※飛步科技獲數千萬美元Pre A輪融資,將新增100條自動駕駛物流路線
TAG:雷鋒網 |