機器學習如何加速醫療健康業轉型?
隨著計算機系統可以從大數據生成洞見並支持決策,機器學習正在改變醫療健康行業的方方面面。從這個意義上來講,使計算機通過學習,賦予新功能可以說是「塑造未來」,這不亞於人類教育。出乎意料的是,「教育」計算機系統其實是一個勞動密集型過程,這不僅需要大量的數據,還需要細緻了解來自每個數據源的每個數據元素,以及多年的反覆試驗、不斷試錯和深厚的專業知識。機器學習的關鍵不同之處,並不是具體的技術和科學應用,而是在此過程共所需的「教學材料」的量和質,以及「教師」的知識面。
機器學習需要人的參與及專業知識
如今,計算機滲透到人類生活的各個行業,這些計算機可以從經驗中學習,進而具備新功能,處理新情況。除了網路搜索、垃圾郵件過濾、音樂推薦等日常功能,計算機也在通過每一次人機交互變得越來越智能。
機器學習將加快醫療健康行業轉型的步伐,這是因為它能夠支持我們從海量的數據中生成洞見。越來越多的證據顯示,機器學習能夠支持藥物研發、識別風險人群、提高診斷、提供研發設計支持、優化銷售和市場營銷等。
1.高質量的數據
解決醫療健康業務問題,有時需要有廣度的數據,有時需要有深度的數據。但是大多數情況下,尤其是對於關鍵業務決策,數據必須是高質量的,「乾淨」的。這也就是為什麼大多數聲稱自己可以在「臟數據」上面工作的數據挖掘機構,在處理數據之前實際上有一個針對「臟數據」的集中清洗步驟。在這裡也有必要回顧一下數據清洗和處理中的三個基本步驟:橋接、編碼和鏈接。這些步驟不僅可以產生高質量數據,也是在處理和分析階段,高質量機器學習的基礎。
案例
機器學習正在實時地改變醫療健康行業。IQVIA建立了一個決策支持系統,使用機器學習來幫助葯企管理臨床試驗中的醫生選定,這也是試驗成功的基礎。
治療領域的專家構建了多維模型,闡述研究方案的所有細節。多名不同專長的數據科學家組成團隊,構建匹配的多維模型,以描述所有醫生開具處方或診療的模式和歷史。通過深度學習,我們訓練了一個基於8PB數據的系統,數據涵蓋了可追溯(橋接、編碼和鏈接後)的醫療報銷和電子醫療病歷(EMR)數據,最後按照成功幾率排列調查人員的優先順序。這使得未註冊的調查人員的百分比下降了兩位數,同時,參與類風濕關節炎研究的患者註冊人數百分比也增長了兩位數。
因為醫生的行為和研究內容非常複雜,所以領域專家有責任了解如何針對這種複雜性進行建模。建模結果的準確性取決於訓練過程,又直接受數據質量的影響。
機器學習的關鍵基礎就在於用於訓練模型的高質量數據的有效性,以及負責優化結果的行業專家的持續監督。
2.人類的持續介入
即便機器學習系統已經成熟,過去的60年里,機器每年都成功地處理了數十億或數萬億的業務;但是,日常的人工介入仍然是數據運營和數據挖掘的關鍵。行業專家必須與機器一同工作,監督並糾正機器工作。
3.機器學習+數據+領域知識
乾淨的、有關聯的和屬性豐富的大數據是高質量和有效分析的基礎。每一個利益相關方(製藥公司、支付方、供貨商等)和每一個衡量維度(國家、語言、供應商、數據類型),以及每一個特定的用途(治療、臨床、商業、研發等),都需要特定的機器學習演算法和配置。只有通過長期積累,持續建設不斷擴大知識儲備,才能逐漸開發出有效的分析。
分析被分為三類:描述性、預測性和規範性。
在預測性和規範性分析中,第一個階段是建模,首先是臨床醫生和數據科學家在內的專家團隊,對潛在問題及可用數據進行分析,並選擇能夠獲得最高成功率的機器學習演算法。在這個過程中,人的作用是不可或缺的,需要大量臨床實踐、數據、計算機科學和機器學習演算法,以及區域化的醫療和應用的專家意見。從這個意義上講,計算機系統(機器)才能依照正確的「指令」去學習。
由於數據和醫療健康行業發展日新月異,機器學習需要不斷地改進核心演算法和設置。只有對數據科學和醫療了如指掌的專家團隊,才能知道何時,以及如何改進模型。儘管與機器的日常交互和專家的定期監督是資源密集型,且費時費力,但這對計算機系統的性能提升是至關重要的。
結論
醫療健康行業每年都能產生數以億計的記錄數據。我們得到的數據越多,醫療服務就變得越加精準。同時,這些數據也帶來了成千上萬的分析類問題,如果具備高質量的大數據,前沿的科技,以及豐富的專業知識,機器學習可以在解決問題方面產生深遠的影響。
機器學習的各個步驟都要求專業人員對所研究課題有深入廣泛的知識。從這個角度來看,機器學習是一個需要人類深度參與的過程。
本文節選自IQVIA的AccessPoint雜誌——How Machines Learn in Healthcare
※機器學習老中醫:利用學習曲線診斷模型的偏差和方差
※機器學習如何從 Python 2 遷移到 Python 3
TAG:機器學習 |