看五官就能診斷出罕見病,靠譜嗎
■本報記者 趙廣立
將人工智慧(AI)用於醫療輔助診斷早已經不是什麼新鮮事,僅AI醫學影像輔助診療一項就有非常多的應用場景。然而,近日來自美國波士頓一家名為FDNA的數字醫療公司的研究人員大開腦洞,提出用深度學習技術僅僅通過「看面相」,就能幫助醫生識別罕見基因疾病,並付諸實踐。他們的研究於1月7日登上了《自然—醫學》雜誌,引起業內關注。
打開今日頭條,查看更多圖片
中醫講究「望聞問切」,其中望即有「望五官知五臟」「望痰辨病」等含義。如果AI能「學會」這本領,相信很容易獲得人們青睞。不過,深度學習是一項比較「吃」數據的技術,而罕見病恰恰是臨床醫學上數據貧乏的領域。FDNA公司研究人員試圖依靠AI望五官辨識基因異常引發的罕見病,行得通嗎?
猜測準確率達65%
發表在《自然—醫學》上的這篇文章提出了一種深度學習演算法Deep Gestalt,它通過一款名為Face2Gene的App在智能終端發揮作用。據論文介紹,該App依靠深度學習演算法和類腦神經網路來區分人類照片中與先天性和神經發育障礙有關的獨特面部特徵,然後利用從照片中推斷出的模式,定位出可能的診斷結果,並提供可能的綜合征遺傳病選項。
在實驗開始之前,FDNA公司首席技術官Yaron Gurovich帶領研究者們首先訓練人工智慧系統來區分「Cornelia de Lange綜合征」和「Angelman綜合征」,這兩種疾病患者都有區別於其他疾病的明顯面部特徵;同時,研究人員還訓練該模型對「Noonan綜合征」的不同基因形式進行分類。接下來,研究者們給該演算法模型輸入了涵蓋216種不同綜合征的 17000多張確診病例的圖像。
論文顯示,在對502 張不同圖像上的新面孔進行測試時,Face2Gene的最佳診斷猜測準確率達到65%。如果考慮多個預測結果,則Face2Gene 的top10準確率可以達到約90%。
這個結果顯然有其一定的醫學意義。FDNA 首席醫療官、該論文的共同作者之一Karen Gripp使用該演算法幫助診斷了一名4歲女童的Wiedemann Steiner 綜合征——這是由一種叫作 KMT2A 的基因變異引起的罕見疾病。Gripp 在研讀了相關病例報告之後得知,該疾病會導致兒童牙齒過早生長。
由於年齡較小,這名小患者除了掉落大部分乳牙並長出多個恆牙,很多典型的軀體癥狀尚未顯現。Gripp將該女童的照片上傳至Face2Gene後,軟體上出現了「Wiedemann Steiner 綜合征」;接著,Gripp 用靶向DNA 測試進一步確診了這一結果。
雖然Gripp最終依靠的是DNA檢測進行確診,但這名醫生認為,該AI 方法可以幫助醫生縮小病症範圍,節約了昂貴的多基因檢測費用。
目前,Face2Gene這款App處於開放下載狀態,全世界的醫療專家都可以免費使用它。當然,這也是FDNA公司想要獲取更多數據的策略,它需要更多數據來訓練模型,使Face2Gene能夠駕輕就熟地幫助醫生辨別患者可能的基因遺傳病。
Yaron Gurovich介紹,現在該項目的資料庫中已有大約15萬張照片。而隨著更多醫療專家將病人的照片上傳到該App,該項目的準確率也得到略微提升。
質疑:結論並不令人信服
並非沒有質疑。在記者的採訪中,長年致力於罕見病治療研究的中科院生物物理研究所研究員劉光慧告訴《中國科學報》,罕見病種類太多,AI難以達到100%識別。
「一般的罕見病都有特殊面容,比如兒童早衰症及成人早衰症患者,面容都很特殊,通過AI識別有一定道理,這是一個很好的方向。」劉光慧轉而說道,「但也有很多罕見病沒有特殊面容或面容特徵不明顯,那麼AI可能還不能做到100%識別。」
言外之意,如果在上述4歲女童案例中,換一種面容特徵不那麼明顯的罕見病來測試,Face2Gene則可能會失靈;而如果Face2Gene一開始就判斷錯了,那麼最終到底能不能省下多基因檢測費,則又另當別論了。
更重要的是,該論文中的結論並不十分令人信服。
「502個圖的測試集,分了200個類,top10 的準確率達到90%——假設數據平均,每個類僅兩張圖片可測試,這樣的結果我不認為能得到『識別遺傳病準確率91%』的結論。」有質疑者認為,該論文結論稍顯草率。
更有專業人士指出,該結論有「過擬合」之嫌,在實測中不一定可以達到這樣的準確率。通常,在一些統計中,為了得到一致假設而使假設變得過度嚴格,就會出現「過擬合」,而要避免過擬合的發生,通常需要使用增大數據量和測試樣本集的方法對分類樣本進行評價。
對此,中科院自動化所研究員、生物識別與安全技術研究中心主任李子青(註:該文引用了李子青團隊的一篇深度學習研究論文)對《中國科學報》記者談了他的看法。他指出,這篇文章提供了三個實驗結果:其中兩個實驗是從已確診綜合征的人臉圖像中,識別出一種特定的綜合征;另一個是區分Noonan綜合征的兩個子類型。可喜的是,三個都超過了門診專家的準確性。但這篇文章所解決的問題,是從已確診的人臉圖像進一步分類或區分子型;從深度學習和模式識別角度來看,都不算難。
李子青認為,真正有挑戰的是綜合征篩查,即從普通人群發現有綜合征的人,並對大規模人群診斷達到一定的準確度。這個問題更加有臨床診斷意義,並且技術上比該文所處理的問題的難度要大很多。
對於深度學習演算法而言,李子青認為「只要有數據,總可以訓練出一個東西」,而至於效果如何,首先是取決於演算法——在合理演算法基礎上,就是拼數據和計算資源。至於如何判斷實效?則要看其推廣性及泛化性。他表示認同記者的這一觀點:罕見病病例少,數據難獲取,模型的推廣性不容易保證,這種方法的大眾普查中應用還不成熟。
技術風險仍存
一般而言,只有訓練數據集夠好,演算法才足夠好用。從這個評價尺度上,Face2Gene的技術存在風險。對此,牛津大學計算生物學家Christoffer Nellker很是認同。他認為,尤其是涉及到那些全球患者人數極少的罕見疾病時,數據集的封閉化、商業化「會威脅到這項技術的主要潛在優勢」。
此外,訓練數據過於集中導致的種族偏見(大部分為白人)也是一大問題。2017年的一份兒童智力障礙研究表明,Face2Gene 對唐氏綜合征的識別率在比利時白人小孩中為80%,而在剛果黑人小孩中僅為37%。對此,Yaron Gurovich意識到「這個問題需要解決」,但他也認為隨著訓練數據集變得更加多樣化,演算法對非洲面孔的識別準確率會隨之提升,「偏見會越來越少」。
除了數據量的問題外,數據維度也非常重要。匯醫慧影創始人兼CEO柴象飛在接受《中國科學報》記者採訪時說,有時更多維度的數據比簡單更大的數據更能幫助演算法模型更精準地預測結果。
不過,科大訊飛智慧醫療事業部總經理陶曉東向《中國科學報》提出了類似演算法在臨床上常被忽略掉的另一個技術風險,「這一波人工智慧過度依賴於數據,忽略了很多數據之外的信息」。
「深度學習解決問題的基本思路,到目前為止還都沒有什麼太大的突破。」陶曉東對記者說,在醫療領域裡尤其如此,「你不可能像ImageNet那樣獲得幾百萬、上千萬的訓練數據」。因此,最基礎的醫學理論,應該被考慮在內。
「連基本的解剖信息都沒有用在深度學習的框架里。」陶曉東說,這是值得目前如火如荼的「AI+醫療」深思的。
柴象飛對此也表示贊同,他對記者說,一些基於經驗或常識的推理對於模型更精準地接近真相也非常重要,這或許對於數據樣本偏少的罕見病模型意義更大。
(本報記者李惠鈺對本文亦有貢獻)
論文相關信息:DOI:10.1038/s41591-018-0279-0
※8000年前的瑞典「口香糖」包含人類DNA
※蛐蛐咋成了「民族昆蟲」?論文原作者這樣回應
TAG:科學網 |