精確率93.6%,機器學習文本識別加速科研轉化和新療法研發
發表在《JMIR醫學信息學》的研究論文顯示,利用自然語言處理和機器學習技術從非結構化文本中提取有效信息,準確率(accuracy)可達92.7%,精確率(precision)達93.6%,識別效果大大優於傳統的大數據分析演算法。該研究由威斯康辛大學麥迪遜分校(University of Wisconsin Madison)馬什菲德診所(Marshfield clinic)和愛爾蘭都柏林電子工程師學會(Institute of Electrical and Electronic Engineers)的研究人員完成。
本次研究是從海量非結構化數據中提取分析藥物不良反應、計量錯誤影響、相互作用等藥物不良事件,以為臨床決策提供信息支持,提高醫療質量,同時拓寬臨床科研課題設計思路,加速醫學的臨床轉化,使患者儘快受益於更新、更安全的藥物和治療手段。
人工智慧可快速有效進行大規模文本識別
研究小組表示,2007-2016年間共發表了超過342,000篇藥物分析、評估相關的文章,假設以PDF的標準長度計算,這些文章等同於超過1TB的非結構化數據。「研究人員、科學家、醫生不可能短時間完成這麼大量的醫學文獻閱讀和處理,但保持知識的及時更新對他們非常重要,因此,開發基於大數據的智能解決方案,以有效地處理這些數據愈發重要。」
該研究選取了 PubMed Central 的145萬份期刊文章,和 WebMD 等醫療網站上的近42萬篇博客文章,目的是驗證從全文本中提取既定的、高質量醫學信息的可行性,以及應用領先NLP和機器學習演算法進行大規模語義識別的效果,以應對海量生物醫學文本分析和識別的挑戰,高效、準確獲取對臨床治療有益的信息。
研究小組利用人工智慧演算法提取與ADE相關的句子,並進行標準化處理,通過分析句子中的詞及詞義,來確定是否發生了ADEs。訓練數據:包括145萬份期刊摘要和全文文章中提取的9720多萬個句子,42萬篇博客文章中提取的252萬個句子。訓練數據由三個醫學專家進行人工標準,並定義為「ADEs」和「No-ADEs」兩個類別,被歸類為「ADEs」的句子,表示該句子的內容涉及藥物不良事件。
最終識別結果顯示,人工智慧演算法從期刊文章中共提取了12,265個有關ADEs的句子,從健康網站博客文章中提取了181個有關ADEs的句子,發現了28種藥物不良事件,並對結果進行了可視化輸出,清晰展示常見藥物與其已知副作用之間的明確關聯。
例如,該研究結論顯示:華法林常見的嚴重副作用是出血,可能誘因是飲食調整、藥物相互作用或假性生理變化。該演算法還發現了一些較為罕見的情況,例如在服用二甲雙胍時可能發生乳酸性酸中毒。
自然語言處理方法也有它的局限性。研究小組說,「我們的系統發現噁心和嘔吐與地塞米松有關,雖然地塞米松確實能引起這些反應,但通常是化療引起的噁心和嘔吐居多。如果沒有上下文線索,我們無法確定地塞米松在這種情況下是一種療法還是一個致病因素。成功地分類這些少見案例可能需要額外的研究。」
自然語言處理未來更關注實時的臨床數據
本次研究是利用人工智慧發現藥物不良事件,這些發現對患者安全研究具有積極的意義。雖然研究有其局限性,但這種從非結構化數據中提取有效信息的方法,可以擴展應用到很多其他領域,
例如,利用大數據分析進行新葯或新療法的開發,特別是綜合患者的基本信息、家族史、疾病史等分析療法的安全性和有效性等。機器學習和自然語言處理工具可以加快召回或重新定位新藥物、新療法,以確保患者的安全並針對性改進以提供更好的療效,這對改善醫療質量和在臨床決策過程提供證據支持意義重大。
此外,此次研究語料採用了已發表的期刊和網站博客文章,這些文章的結果可能存在偏向性,尤其是期刊論文更關注一些罕見案例。未來,人工智慧大數據分析應當更關注那些臨床試驗以外的、臨床實際發生的異常情況,需要更多地從電子病歷實時數據中獲取真實數據,以提升大數據的可信度和決策支持的精度。
參考文獻:
P Tafti A, Badger J, LaRose E, Shirzadi E, Mahnke A, Mayer J, Ye Z, Page D, Peissig P
Adverse Drug Event Discovery Using Biomedical Literature: A Big Data Neural Network Adventure
JMIR Med Inform 2017;5(4):e51
URL: http://medinform.jmir.org/2017/4/e51
DOI: 10.2196/medinform.9170
PMCID: 5741828
※機器學習技法-lecture5:Kernel Logistic Regression
※小菜與老鳥之機器學習08
TAG:機器學習 |