一文看盡當下醫療AI現狀——前景雖遠大,但連數據關都過不了
「人工智慧」這味葯能解決什麼問題、怎樣用、什麼時候才能用、為什麼現在還不能用?
撰文 | 王藝
前段時間《流感下的北京中年》一文熱傳,作者用 2 萬 6 千字復現了岳父從流感到肺炎、從門診到 ICU、29 天陰陽兩隔的經歷。
儘管作者筆下描繪的是客觀的就診細節,但朋友圈廣泛轉發的背後,是人類面對疾病時的恐慌與無能為力。
在當前的醫療環境下,「大病」二字猶如掛在腰間的炸彈,擁有足以摧毀一個家庭的威力,且隨時都有可能被引爆。
如今,人工智慧技術被廣泛應用在各行各業,醫療健康領域更是重要應用場景之一。據統計,到 2025 年,世界人工智慧市場總值將達到 1270 億美元,其中醫療行業將佔市場規模的 1/5。
業界認為,在醫療水準的提升、醫療資源的下沉等方面,人工智慧將是一味濟世良藥。
在這樣的大背景下,「人工智慧」這味葯能解決什麼問題、怎樣用、什麼時候才能用、為什麼現在還不能用就成為了非常值得探討的話題。
3 月 22 日,在一個於上海召開的關於醫療人工智慧創新應用的沙龍上,我們得到了一些專家的看法。概括說來,現在的醫療人工智慧正處於「前景廣闊,前進艱難」的狀態,同時也已經有一些應用正在落地。
本文中,我們整理了各位專家的意見,希望能從一定程度上概括當前醫療人工智慧產業的面貌。
總的來說,人工智慧在醫療領域的應用可以分為六個細分領域——虛擬助理、病歷與文獻分析、醫療影像輔助診斷、診療結果預測、藥物研發、以及基因測序。在本次沙龍中,專家的探討主要集中在前四個領域。
虛擬助理——問答還談不上,只能做選擇題
大體來說,醫療領域的虛擬助理和普遍意義上的虛擬助理在任務目標上是相同的——通過人與機器之間的對話解決一些問題。然而,仔細說來,也有所不同。
醫療虛擬助理的官方定義是,利用語音識別、自然語言處理技術,將患者對自己病症的描述與標準醫學知識庫進行對比,從而完成患者自診、導診、諮詢等服務的信息系統。
與 Siri、Cortana 等通用虛擬助理不同的是,當用戶與通用虛擬助理進行對話時,可以自由表達,由虛擬助理理解用戶意圖(當然理解能力還有待加強);但當用戶與醫學虛擬助理對話時,由於患者的描述基本不是標準的醫學術語,因此很難與標準醫學知識庫進行對比從而得出結論。
「目前,醫療產業界的普遍做法是,以選擇題的方式與用戶溝通,了解問題並分診。」來自中國信息通信研究院的趙陽光介紹道,「目前科大訊飛的一些產品在某些醫院已經實際落地使用了。」
趙陽光是中國信通院互聯網醫療聯盟人工智慧工作組的組長,也是聯盟近期發布的《醫療人工智慧技術與應用白皮書》的牽頭人。
上海森億醫療科技有限公司專註於人工智慧與醫療的結合,CEO 張少典介紹了森億的醫療虛擬助理產品。「我其實不願意把我們的產品稱作聊天機器人,它其實是一個搜索引擎。我們做技術的人其實都知道聊天機器人的水平怎樣。」張少典說。
森億與上海市第一婦嬰保健院和上海兒童醫學心臟中心都開展過合作,進行人工智慧虛擬助理的嘗試。其解決方案是在識別病人的問題後,向病人推送來自專家知識庫的內容,並給出答案的出處。
「這個東西的用處在哪裡?」張少典說,「當患者有問題時,普遍會遇到不相信百度但是又找不到專家的情況。那有了這樣一個虛擬助理,它給你的答案都是專家寫的文獻,能夠起到一定的作用。」
病歷與文獻分析——幫助醫生提高效率
提到人工智慧與醫療的結合,最常見的要數醫生通過語音輸入電子病歷。面向醫療場景的語音輸入技術已經成為科大訊飛、雲知聲等人工智慧公司的搶灘重地。
「語音輸入技術解放了醫生的雙手,這對牙科醫生來講尤其重要。」趙陽光說,「口腔科醫生在手術台上往往是一個人,雙手都被佔用了,沒有手來書寫病歷。用語音識別的方式能夠對患者的基本信息、手術情況進行一些基本的記錄,提高醫生工作效率。」
在解放醫生雙手的同時,電子病歷也起到了醫療人工智慧發展的數據基石作用。在語音識別層面之下,如何利用自然語言處理技術將非結構化的自然語言轉化為結構化的數據,以便後續進行數據挖掘,是一個重要課題。
張少典介紹道,利用自然語言處理技術將病歷上的非結構化數據轉變成結構化數據主要分為以下幾個步驟。
首先,要對句子中的命名實體進行識別,簡單地說就是哪些詞是疾病、哪些詞是藥品、哪些詞是癥狀、哪些詞是手術名,也就是對各種各樣詞語類別的分類。
然後,需要查找語義之間的關聯,也就是說誰修飾了誰、誰約束了誰、誰否定了誰等,也即定義詞語和詞語之間的線性關係。
「語義關聯為什麼在醫療領域尤其重要?」張少典說,「比如你光知道這個人疼,不夠。你還要知道疼痛的部位、嚴重程度、時間、急慢性等附屬信息,這些信息才是重要的。」
在醫療領域的自然語言處理技術中,常常需要面對輸入不標準的情況。每個醫生都有自己的病曆書寫習慣,比如心肌梗塞這一種疾病,有的醫生會寫心肌梗塞,有的醫生會寫心肌梗死、心梗,甚至寫英文 MI(Myocardial Infarction)。
對於機器來說,在存儲時必須知道這些詞代表著同樣的意思,後續的工作才能進行。「否則就連一個最簡單的檢索任務都進行不了,因為關鍵詞沒法匹配。」張少典說,「另外,自然語言處理技術還能夠幫助醫生提高科研效率。要知道,科研是中國醫生很強烈的剛需。」
在做科研之前,需要進行大量的文獻查找工作。復旦大學附屬華山醫院信息中心主任黃虹認為,人工智慧在醫療領域應用的第一步,可以從醫生查找文獻開始。
她介紹道,由於醫生時間緊張,很多時候查找文獻的工作是交由研究生來做。雖然現在有資料庫可以查找,不用跑到圖書館翻閱紙質資料,但文獻查找仍是一件工作量很大的任務。
黃虹舉了這樣一個案例,當科研人員在進行一個與兒童殘疾相關的研究時,需要翻閱約 33000 份摘要,人工查找耗時耗力,引入機器學習技術後,效率大大提高。
「現在醫生做科研,很大一部分時間都花在了數據的收集和結構化上。」張少典說,「也就是說你要找病歷、翻病歷,然後從病例中抓取你需要的信息。利用自然語言處理技術,能夠把這個過程盡量自動化。」
「這件事情與臨床可能關係不大,但是對醫生來說說是非常重要的。」黃虹說。
醫療影像輔助診斷——減少誤診漏診率
「傳統醫療行業存在結構上的弊病。」趙陽光說。
他認為,當前醫療資源的分配呈倒 2-8 結構,也就是說,病人全部集中在三甲醫院,導致三甲醫院的醫師只有 20% 的時間處理疑難雜症。而事實上,80% 的普通疾病是可以去基層醫院就診的。
為什麼病人無論大病小情都一定要去三甲醫院?本質上是出於對基層醫院的不信任。也就是說,由於優質的醫師資源難以下沉,導致病人就算是沒有床位,住在走廊里,也一定要去三甲醫院就醫。
這在趙陽光看來,是醫療人工智慧比較典型的應用場景之一。「比如糖尿病引起的視網膜病變,是非常適合在基層做的。」他說。
眼科設備專業的要十幾萬,進口的要上百萬,讓基層醫院去採購這麼多專業設備是比較困難的。但同時,眼底也是眾多器官中比較特別的一個,醫生能夠直接看到眼底的血管表現,這就給人工智慧技術的應用提供了一個突破口。利用人工智慧技術,基層醫院能夠實現一些早期的篩查工作,也就是現在大熱的「分診醫療」。
除向基層醫院分診外,有專家認為,向病患個人分診也是未來非常有前景的一個研究方向。「不只是醫院才能診斷,自我診斷也非常重要。」黃虹說。
黃虹以人群中發病率較高的肢端肥大症為例,闡述了自我診斷的重要性。
肢端肥大症,顧名思義,患者癥狀為手腳生長過大,這是一個由於生長激素異常分泌導致的的疾病。目前很多肢端肥大症病人是在症灶積累到一定階段,有明顯表現時才到醫院就診。但事實上,肢端肥大症的早期診斷只需一個能夠進行人臉以及肢體掃描的 APP 就能完成。
「在病人的早期階段,通過對其面部、腹部、臀部、手部等數據進行分析,是很容易做到早期篩查的。」黃虹說。
在癌症的早期篩查方面,人工智慧的影像學技術能夠幫助醫生降低誤診、漏診率,且已經非常成熟。趙陽光提到,當前放射科的誤診率和漏診率相加高達 40%。這也是為什麼癌症、惡性腫瘤的確診需要多個醫師聯合給出意見。
「放射科醫生工作壓力大,拍一次序列影像會產生很多張片子,用人眼觀察很容易漏診,圖像識別技術能夠對醫生的診斷提供給比較好的補充。」趙陽光說。
用圖像識別的方式進行早期篩查是非常有意義的。以食管癌為例,2015 年我國新發食管癌人數為 47.7 萬。對於食管癌來說,早期治療非常關鍵。早五年治療食管癌,患者生存率為 90%,晚五年,生存率就是低於 15%。
趙陽光介紹道,人工智慧與醫療影像結合的具體做法如下:首先從放射科提取圖像;然後利用圖像分割技術提取圖像有意義的區域;再利用一些圖像識別方法對圖像進行預處理,突出圖像中有效的信息;然後利用演算法提取病變區域;最後將這些數據交給模型進行訓練。
經過訓練之後,再給模型一個新的圖片,模型就能夠自動標記出病灶的位置。
理想很豐滿,然而現實很骨感。「大家也都知道,輔助診療這件事情,產品化落地是非常複雜的。」張少典說,「它牽涉到醫院的治療流程、醫生的習慣、醫生本身的接受度、醫療行業的接受度,以及倫理、法律等相關的很多問題。」
診療結果預測——提早預估風險
人工智慧的輔助診斷並不僅僅體現在醫療影像方面,在診療結果的把控方面也已經有所應用。
張少典介紹了兩個案例。第一個案例是森億與上海兒童醫學中心的合作,針對小兒先天性心臟病,在術前確立最佳的診療方案。
「我們的系統能夠建立包括手術、麻醉、體外循環等在內的一套最佳的治療方案,還能夠預測病人術後的出血風險、出血量、在 ICU 的停留時間、以及術後綜合症的風險等。」張少典介紹道,「當醫生需要更改手術方案的參數時,系統還能自動計算參數修改後這幾個風險因素的變化。」
「其實我們的系統功能類似於 IBM Watson。但是 Watson 是舶來品,用的是外國人的數據集。我們用中國的本地數據,更符合中國患者的身體特徵。」目前這一系統的前期模型已經訓練完畢,森億正在尋找合作醫院嘗試落地。
除小兒先心病的診療系統外,森億還利用福州 37 家市級醫院的數據訓練了一個關於抗凝療法的風險預測模型。
「在抗凝治療做完之後,有的病人會再栓塞,有的病人會出血。對於不同病人來說,術後可能出現的情況是完全不一樣的。」張少典說。森億的系統所做的,就是預測抗凝治療後病人不同反應發生的風險。
黃虹認為,在利用人工智慧進行診療方案制定的同時,需要界定什麼是「好的」診療方案。「臨床上最好的方案不代表對這個病人就是最好,」黃虹說,「有一種說法是,你到底選擇有尊嚴的死去,還是選擇沒尊嚴的活著。」
黃虹認為,由於每一個病人的家庭情況不同,支付能力、宗教信仰等不同,治療方案也可能不同。因此,今天的人工智慧技術不應該僅停留在影像學、組織學、以及患者病史本身,還需要整合社會數據,才能讓最終的方案更加貼合實際。
數據對醫療 AI 的一萬種阻礙
當前醫療人工智慧面臨的首要問題,還停留在數據層面。
「不管終端應用是什麼,數據是基礎。」張少典說。「數據問題不是技術上的問題,而是體系上的問題。」
張少典提到,美國的醫療人工智慧產業界已經有一些比較成功的案例,而中國目前卻沒有。反思來看,與數據有很大的關係。「國內醫療機構大體上還處於比較分散的狀態,數據標準化、結構化程度都很低,並且相對不完整,醫院之間的互聯互通做的也不好。」他說,「你沒有辦法取得一個病人全面的歷史數據。」
擁有 2800 名 IT 人員的美國梅奧醫院在醫療人工智慧領域已經取得了一些成果。「我上個星期在梅奧交流的時候,發現整個梅奧體系加起來只有 1200 張病床,這個體量放在中國不算大。據我所知,上海瑞金醫院就有 1600 張左右的床位。」張少典說,「但是當對比梅奧的 1200 張床位和我們 1600 張床位所採集到的數據最後訓練出來的人工智慧系統的效果時候,你會發現二者根本不在一個數量級上。」
這意味著,數據多並不一定能成就好的人工智慧,高質量高價值的數據才能訓練出好的人工智慧。
「現在很多手術都是在內窺鏡下操作,比如膽囊炎、膽囊結石等。實際上醫生在手術時採集到的鏡像數據,都是要靠醫生自己用一個硬碟搬運的,其實現在的醫療系統遠沒有實現動態的數據共享。」黃虹說。
趙陽光認為,目前業界對數據標準的需求度比對數據的需求度還要大。
人工智慧模型是建立在硬體採集數據的基礎上的,以 CT 設備為例,市面上主流的 CT 設備廠商有 7-8 家,然而現在基本所有與 CT 相關的模型都是針對一套設備構建的,若想將模型移植到其它醫院其它設備上,需要重新對模型進行訓練,進而成為阻礙人工智慧技術在行業廣泛應用的瓶頸。
另外,趙陽光還提到,採集數據的過程中,醫師的手法也會直接影響到模型的效果。以心電圖為例,有時,醫生需要患者佩戴心電檢測儀器 24 個小時,以監測患者心率的動態表現。
這時,患者是如何佩戴設備的、導線連接的位置、甚至患者的胖瘦都會影響最後的監測結果。但是患者離開醫院後,這 24 小時的佩戴情況對醫生來說是不可見的。這一過程醫生沒有辦法控制,那麼訓練數據就更是無從使用。
另外,在病理、心電等領域,各廠商基本都是遵循自己私有的數據格式。趙陽光認為,業界需要主動將私有格式向公有格式進行轉化,才能積累對神經網路來說可用的數據。
「我相信做人工智慧的技術人員都很清楚,有了好的數據之後,演算法真的不是特別複雜的事情。」張少典說,「不管你是從事人工智慧、數據分析、還是數據挖掘,其實至少有 80% 的時間是花在數據清洗上的。」
除數據問題外,人工智慧在醫療行業的落地還存在模式和制度的問題。「當前人工智慧產品若想以銷售的方式賣給醫療機構,無論從資質還是產品的分類方式來講都是難以實現的。」趙陽光說,「對於這些人工智慧產品來說,未來通過醫院科研課題的方式落地是比較可行的。」
另外,趙陽光還提到法律問題。若醫療人工智慧系統診斷失誤導致患者死亡,那麼誰該承擔這個責任?就像不久前在無人駕駛領域發生的 Uber 車禍案一樣。
「現在醫療器械有 2 類和 3 類的分類,如果人工智慧被劃分到 3 類的話,就需要給出嚴格的臨床驗證,國家在這一方面還是非常重視的。」趙陽光說。
始於足下的千里之行
醫療人工智慧才剛剛起步,面向未來,還有很多問題需要解決。
例如,在醫療影像方面,目前業界的做法是僅針對圖像進行分析,沒有進行多模態融合。「未來一定要通過多模態的方式進行分析,」趙陽光說,「要結合患者的多種信息,例如臨床信息、隨訪病歷信息等,形成一個綜合的多模態的系統。」
另外,儘管目前人工智慧影像技術已經能夠實現 4-6mm 微小的結節診斷,在一定程度上已經體現出較好的敏感性。但是未來,在結節診斷方面,業界需要考慮的不止大小這一個因素,還需要能夠識別包括根源、突刺、分裂、鈣化等其它的特徵。
還有,目前的醫療人工智慧系統缺少歷史回顧性分析。也就是說,僅針對單一影像進行診斷,缺少時間維度的數據。對於例如腦梗等疾病,不同時間點的影片對於入日後的治療方案確定非常重要。
以及,當前我國病理醫師存在約 10 萬名的缺口,且培養一個病理醫師的周期很長。這個短時間內無法解決的問題亟待通過人工智慧技術進行緩解。
然而,病理影片比目前醫療人工智慧所涉及到的 CT、核磁共振等影片大太多。在上億像素的圖像中尋找微小的病變區域,對演算法和算力無疑都是一種挑戰。加之病理診斷不僅僅需要觀察局部特徵,還需要聯合整體特徵共同分析,因此挑戰更大。
此外,黃虹還提到了腦機介面、靶向治療、個體化用藥等工作,都是人工智慧未來發展的重要陣地。可以看到,對於醫療人工智慧來說,一切才剛剛開始。目標是明確的,前景是光明的,道路也是漫長的。
※要麼一步登天要麼一敗塗地?重溫馬斯克和SpaceX的榮光與低谷
※做無人駕駛應該遵循長板理論?Pony.ai卻認為這恰恰是圈內最大的錯誤
TAG:機器之能 |