精確率93.6％，機器學習文本識別加速科研轉化和新療法研發

最新 07-31

發表在《JMIR醫學信息學》的研究論文顯示，利用自然語言處理和機器學習技術從非結構化文本中提取有效信息，準確率（accuracy）可達92.7%，精確率（precision）達93.6%，識別效果大大優於傳統的大數據分析演算法。該研究由威斯康辛大學麥迪遜分校(University of Wisconsin Madison)馬什菲德診所(Marshfield clinic)和愛爾蘭都柏林電子工程師學會(Institute of Electrical and Electronic Engineers)的研究人員完成。

本次研究是從海量非結構化數據中提取分析藥物不良反應、計量錯誤影響、相互作用等藥物不良事件，以為臨床決策提供信息支持，提高醫療質量，同時拓寬臨床科研課題設計思路，加速醫學的臨床轉化，使患者儘快受益於更新、更安全的藥物和治療手段。

人工智慧可快速有效進行大規模文本識別

研究小組表示，2007-2016年間共發表了超過342,000篇藥物分析、評估相關的文章，假設以PDF的標準長度計算，這些文章等同於超過1TB的非結構化數據。「研究人員、科學家、醫生不可能短時間完成這麼大量的醫學文獻閱讀和處理，但保持知識的及時更新對他們非常重要，因此，開發基於大數據的智能解決方案，以有效地處理這些數據愈發重要。」

該研究選取了 PubMed Central 的145萬份期刊文章，和 WebMD 等醫療網站上的近42萬篇博客文章，目的是驗證從全文本中提取既定的、高質量醫學信息的可行性，以及應用領先NLP和機器學習演算法進行大規模語義識別的效果，以應對海量生物醫學文本分析和識別的挑戰，高效、準確獲取對臨床治療有益的信息。

研究小組利用人工智慧演算法提取與ADE相關的句子，並進行標準化處理，通過分析句子中的詞及詞義，來確定是否發生了ADEs。訓練數據：包括145萬份期刊摘要和全文文章中提取的9720多萬個句子，42萬篇博客文章中提取的252萬個句子。訓練數據由三個醫學專家進行人工標準，並定義為「ADEs」和「No-ADEs」兩個類別，被歸類為「ADEs」的句子，表示該句子的內容涉及藥物不良事件。

最終識別結果顯示，人工智慧演算法從期刊文章中共提取了12,265個有關ADEs的句子，從健康網站博客文章中提取了181個有關ADEs的句子，發現了28種藥物不良事件，並對結果進行了可視化輸出，清晰展示常見藥物與其已知副作用之間的明確關聯。

例如，該研究結論顯示：華法林常見的嚴重副作用是出血，可能誘因是飲食調整、藥物相互作用或假性生理變化。該演算法還發現了一些較為罕見的情況，例如在服用二甲雙胍時可能發生乳酸性酸中毒。

自然語言處理方法也有它的局限性。研究小組說，「我們的系統發現噁心和嘔吐與地塞米松有關，雖然地塞米松確實能引起這些反應，但通常是化療引起的噁心和嘔吐居多。如果沒有上下文線索，我們無法確定地塞米松在這種情況下是一種療法還是一個致病因素。成功地分類這些少見案例可能需要額外的研究。」

自然語言處理未來更關注實時的臨床數據

本次研究是利用人工智慧發現藥物不良事件，這些發現對患者安全研究具有積極的意義。雖然研究有其局限性，但這種從非結構化數據中提取有效信息的方法，可以擴展應用到很多其他領域，

例如，利用大數據分析進行新葯或新療法的開發，特別是綜合患者的基本信息、家族史、疾病史等分析療法的安全性和有效性等。機器學習和自然語言處理工具可以加快召回或重新定位新藥物、新療法，以確保患者的安全並針對性改進以提供更好的療效，這對改善醫療質量和在臨床決策過程提供證據支持意義重大。

此外，此次研究語料採用了已發表的期刊和網站博客文章，這些文章的結果可能存在偏向性，尤其是期刊論文更關注一些罕見案例。未來，人工智慧大數據分析應當更關注那些臨床試驗以外的、臨床實際發生的異常情況，需要更多地從電子病歷實時數據中獲取真實數據，以提升大數據的可信度和決策支持的精度。

參考文獻：

P Tafti A, Badger J, LaRose E, Shirzadi E, Mahnke A, Mayer J, Ye Z, Page D, Peissig P

Adverse Drug Event Discovery Using Biomedical Literature: A Big Data Neural Network Adventure

JMIR Med Inform 2017;5(4):e51

URL: http://medinform.jmir.org/2017/4/e51

DOI: 10.2196/medinform.9170

PMCID: 5741828

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※機器學習技法-lecture5：Kernel Logistic Regression
※小菜與老鳥之機器學習08

TAG:機器學習 |