當前位置:
首頁 > 新聞 > 鄧侃解讀:深度學習病歷分析前沿進展

鄧侃解讀:深度學習病歷分析前沿進展

鄧侃解讀:深度學習病歷分析前沿進展

最常見的用於電子病歷(EHR)分析的深度學習架構

【2018 新智元 AI 技術峰會倒計時 16 天】

諾貝爾獎唯一計算機領域評委親臨,峰會首批嘉賓陣容公布

3月29日,將於北京舉辦的2018 年中國 AI 開年盛典——2018 新智元 AI 技術峰會,我們邀請到了德國總理默克爾的科學顧問、諾貝爾獎唯一計算機領域評委、工業 4.0 教父、世界頂級自然語言處理專家 Wolfgang Wahlste 教授。Wahlster 教授將親臨 329 峰會現場,分享歐洲對人工智慧科技發展和 AI 產業化的思考。與諾獎評委面對面,點擊文末閱讀原文,馬上參會!

搶票鏈接:

http://www.huodongxing.com/event/8426451122400



新智元專欄

作者:鄧侃

編輯:聞菲

【新智元導讀】鄧侃博士又一力作,看深度學習如何讓電子病歷分析取得突破:Word2Vec、AutoEncoder讓文字轉換為張量,有助於更精準的預測;醫學知識圖譜,讓我們能夠清晰、量化地定義疾病表型;將圖像也編碼成張量,構建統一的患者畫像,完整表達病情描述,實現臨床導航和發病預測……曾經是冷門中的冷門,正在迎來一個又一個的進展。

鄧侃解讀:深度學習病歷分析前沿進展

2018年1月,谷歌頭號技術大神 Jeff Dean,攜手谷歌大腦項目組 30 余名研究人員,聯袂發表了一篇論文,題為 「Scalable and accurate deep learning for electronichealth records」。

把深度學習技術應用於病曆數據分析,原先是深度學習這個熱門領域中的冷門。谷歌大腦這篇論文,把冷門引爆成了熱門。

其實,把深度學習技術應用於病曆數據分析,並非只有谷歌大腦在做。2018年2月,佛羅里達大學的幾位學者,梳理了這個領域的前沿進展,在 Arxiv 上發表了一篇綜述,題為 「Deep EHR: A Survey of Recent Advances in Deep LearningTechniques for Electronic Health Record (EHR) Analysis」。

縱覽性的論文,總是值得讀讀。了解同行,促進自己。


建模,編碼,把病情描述轉換為數值張量

病曆數據是一條時間序列,記錄著收集病情、診斷、治療的過程。

病曆數據也是一條空間路徑。不妨把癥狀、體征、化驗和檢查指標、疾病、藥品、手術等等,都視為離散的點。診斷和治療的過程,是把這些離散的點,串連在一起,成為一條路徑。

不論是用時間序列,還是空間路徑,給病曆數據建模,驗證模型是否正確的辦法之一,是驗證模型的預測是否精準。譬如輸入病情描述,預測罹患什麼疾病。

學者們遇到的第一個問題是,如何表達病情描述?一個辦法是直接用辭彙,例如 「胃痛」、「腹瀉」、「白細胞計數超標」 。也可以換一個辦法,先做編碼(encoding),把辭彙轉換成張量,然後把張量作為模型的輸入。

研究發現,先做編碼預處理,會使預測精度大大提高。為什麼會這樣?

想一想地圖,標定位置的辦法有兩個,一個是用名稱,譬如 「清華大學正門」 ,另一個是用坐標(lat,lon)。很顯然,用坐標數值來標定位置,更有利於規劃導航路線。

原因是,坐標數值更容易表達各個位置之間的空間距離。而名稱辭彙卻無法做到相同效果,單從名稱辭彙來看,誰知道 「清華大學正門」 與 「五道口」 的距離有多遠?

如何把醫學辭彙轉換成數值張量?老套路,word2vec。外加一些改進,譬如 autoencoder。

數值張量有多神奇?「胃痛」 與 「腹瀉」,無一字相同,但是兩個張量,距離相近。

醫學知識圖譜,張量超點,精確定義疾病表型

編碼,把文字辭彙轉換為數值張量,不僅能夠提高疾病預測的精度,而且有利於病歷結構化。

「患者無誘因出現咳嗽,持續三日,夜間加劇,濃痰」,咳嗽是主詞,其餘是屬性。用傳統方法提煉主詞與屬性,非常吃力。

把文字辭彙轉換成數值張量,相當於把這段話,投射到醫學知識圖譜上去,誰是主詞,誰是屬性,一清二楚。

知識圖譜,無非是點和邊的關係。用數值張量而不是用文字辭彙,來表達圖譜中的點,是共識。更大的挑戰,是如何表達圖譜中的邊。

不存在單一癥狀與單一疾病之間的靜態關係。臨床實踐表明,多個癥狀多個化驗和檢查指標,組合在一起,才能正確診斷罹患的是什麼疾病。而且病情組合與疾病之間的關係,往往是非線性的,不能用一個靜態常數來表達。

也就是說,醫學知識圖譜與電子地圖相比,點相似,而邊不同

一個解決辦法是把小點聚合成大點,譬如把與某個疾病相關的,多個癥狀體征和多個化驗檢查指標的組合,聚合在一起,形成一個超點(hypernode),然後把這個超點與這個疾病關聯在一起。

病情組合的超點,與疾病之間的關聯,不再是複雜的非線性關係,而是簡單的常數關係。病情組合的超點與疾病,是一對一對等關係。一對一對等關係意味著什麼?病情組合的超點變成疾病表型(phenotyping)。

疾病表型的新方法,這事兒意義重大。

醫學教科書對各種疾病的表型定義,往往界定不清。同樣一個病情組合,可能符合多種疾病的表型。為什麼醫學教科書不把多種相似疾病之間的甄別邊界,描述得更清晰、更量化?因為文字辭彙很難把非線性的邊界,表達得很準確。

教科書的描述不清晰,醫生們如何甄別相似疾病呢?靠自己在實踐中摸索。醫生正式上崗前,都要有很長的實習期。一代又一代醫生,以一代又一代患者的生命為代價,自行總結疾病的甄別界定,而且這個經驗往往無法分享傳承。

如果醫學知識圖譜的張量超點,能夠精確地界定疾病表型,功德無量。


文字與圖像的統一編碼、臨床導航、患者畫像與發病預測

不僅可以把文字辭彙,編碼成數值張量,而且也可以把醫學影像的像素,也編碼成數值張量。

這樣不僅可以智能地自動地讀片,撰寫檢查報告。而且,更大的意義在於,把文字與圖像編碼成統一的數值張量,用一個張量,完整地表達患者的病情描述

完整的病情描述,大大便利了疾病的診斷,指導下一步需要做的化驗和檢查,推薦合理的用藥處方,為基層醫生提供智能的臨床導航,大大提高基層醫生的臨床水平。

如果把患者歷次病歷,匯總起來,編碼成更大的張量,這個更大的張量,實際上等同於患者的健康畫像。精準的健康畫像,能夠預測未來幾年,該患者罹患各種疾病的概率。

發病預測的意義,不再局限於臨床醫學,而且涉及到醫療保險,跨界到了經濟學領域。


診斷解釋、疾病表型的界定、患者畫像的聚類

深度學習模型的本質,是多層隱節點,通過非線性函數相連。輸入病情描述數據組合,輸出疾病診斷。但是光有結果,沒有解釋,很難贏得醫生和患者的信任。

如何解釋深度學習模型的內部推理過程?一個辦法是反向追溯。

輸入病情描述數據組合,深度學習模型輸出疾病診斷。從輸出的診斷,反向追溯。確定在最後一層隱節點中,哪些隱節點起了關鍵作用。然後追溯到倒數第二層隱節點,倒數第三層……漸次反向追溯到輸入,查看輸入的病情描述組合中,哪些病情描述,對診斷起到決定性作用。

反向追溯,不僅僅可以用診斷解釋,也可以用於確定醫學知識圖譜中的超點的組合。譬如說,通過反向追溯,確定某個疾病與哪些病情描述有關。把這些病情描述,組合起來,構建成醫學知識圖譜中的超點(hypernode)。

同時,不斷變換病情描述的超點中,各個小點的取值,估算各個小點的取值分布,確定什麼樣的取值分布,會導致疾病的發生,從而界定疾病的表型(phenotyping)。

同理,不斷變換患者畫像中,各個小點的取值,估算各個小點的取值分布,確定什麼樣的取值分布,會增加未來發病的概率,從而把不同的患者,聚類成相似人群,方便醫保精算。


缺失數據的補足、時間跨度不一致的數據對齊、隱私數據的 HIPAA 脫敏

病曆數據處理,有四大難點:1. 多模態,2. 數據缺失,3. 時間跨度不一致,4. 脫敏。

多模態的問題,已經基本解決。把文字、音頻、像素,全部編碼成統一的數值張量。換句話說,數值張量是超越語言音頻圖像的數學語言,可以表述各種模態的語義

數據缺失的解決辦法,是通過其他相關數據,猜測缺失數據的取值。如何知道哪些數據之間有關聯?辦法是,預先構建醫學知識圖譜。

心電圖數據的時間跨度,以秒計;脈搏血壓的時間跨度,以小時計;查房記錄,以天計……不同數據的時間跨度不一致,如何把它們對齊?一個思路是卷積,分層次整合細粒度的數據。

HIPAA 法案規定,病歷中 18 項數據涉及患者隱私,譬如姓名和住址。脫敏的問題,等同於在病歷的各個段落中,識別這 18 項數據。數值張量的編碼,讓脫敏問題變得簡單。只需要用 attention,在病歷的各個段落,找到與患者姓名和住址相近的張量即可。

一句話的總結:深度學習技術,讓病歷分析取得突破性進展。

相關論文

鄧侃解讀:深度學習病歷分析前沿進展

地址:https://arxiv.org/abs/1706.03446

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「重磅」LeCun 卸任!Facebook人工智慧實驗室換帥
「官方」谷歌中國AI中心2018實習生職位正式開放申請

TAG:新智元 |