醫生還未失業，IBM Watson已跌入深淵

科技 04-17

作者 | Eliza Strickland

譯者 | Major

編輯 | 琥珀

出品 | AI 科技大本營（公眾號ID：rgznai100）

導語：2011 年，Jeopardy! 挑戰賽的成功，讓外界看到 IBM 的人工智慧給醫學帶來的革命性改變。不過，醫生們對此卻持觀望狀態。

2014 年，IBM 為其人工智慧事業部 IBM Watson 新成立了總部。在曼哈頓下城的玻璃塔樓內，IBM 員工可以將潛在客戶和來訪的記者帶到類似於微型天文館的「沉浸室」。一個黑暗的空間里，參觀者坐在旋轉的凳子上，華麗的圖形圍繞著覆蓋在牆上的弧形屏幕閃爍。按 IBM 員工的說法，這是最接近 Waston 電子大腦的地方。

這一年，Watson 的一次令人眼花繚亂的創意演示，展示了其利用人工智慧改造醫學的潛力——IBM 首席執行官維吉尼亞 · 羅梅蒂（Virginia Rometty）經常稱之為該公司的「登月計劃」。在演示中，Watson 收集了一組奇怪的患者癥狀，並列出了可能的診斷列表，每個列表都附 Watson 對診斷的置信度以及相關支持醫學文獻的鏈接。

Watson 從來都讓人印象深刻：它的記憶庫保存著每一種罕見疾病的知識，它的處理器不易受到那種會讓醫生失望的認知偏見的影響。它可以在幾秒鐘內處理一個棘手的病案。如果 Watson 能夠將這種即時的專業知識帶給世界各地的醫院和診所，人工智慧似乎有可能減少診斷錯誤，優化治療，甚至幫助醫生更快更好地完成工作，而不是取代他們來緩解醫療短缺。

腫瘤專家顧問

MD 安德森癌症中心與 IBM Watson 合作，為腫瘤學家創建了一個諮詢工具。該工具使用自然語言處理（NLP）來匯總患者的電子健康記錄，然後搜索資料庫以提供治療建議。醫生們在白血病科試用了一個原型，但是安德森癌症中心在 2016 年花了 6200 萬美元之後，取消了這個項目。

然而，在公司總部之外，IBM 發現其強大的技術無法與當今醫療系統的混亂現實相匹配。在嘗試將 Watson 應用於癌症治療這一最大的醫學挑戰中，IBM 遇到了機器學習和醫生工作方式根本不匹配的問題。

IBM 改革醫療行業的勇敢嘗試始於 2011 年。Watson 在 Jeopardy! 比賽中徹底擊敗了兩位人類冠軍後的第二天，IBM 宣布了其 AI 智力競賽節目贏家 Watson 的新職業目標：它將成為一名 AI 醫生。IBM 將主要利用它在電視上展示突破性技術，即理解自然語言並將其應用於醫學的能力。Watson 當時承諾將在 18~24 個月內推出第一批醫療保健商業化產品。

事實上，IBM 當天宣布的的項目並沒有開發出商業化產品。在此後的 8 年中，IBM 大肆宣揚了許多更引人注目的努力，以開發人工智慧為動力的醫療技術，其中許多已經失敗，其中一些已經失敗得非常驚人。該公司花費數十億美元進行收購，以支持其內部努力，但內部人士表示，被收購的公司尚未做出多大貢獻。IBM Watson 醫療事業部推出的產品與曾經設想的出色的 AI 醫生完全不同，它們更像是能夠執行某些常規任務的 AI 助理。

「我認為他們在聲譽上遇到了麻煩，」舊金山加利福尼亞大學醫學系主任 Robert Wachter 說，他是 2015《數字醫生》一書的作者。他說，在某種程度上，IBM 正遭受其雄心壯志的折磨：它是第一家大力推動人工智慧進入醫院的公司。但它也因誇耀 Waston 的能力而遭遇了惡意和懷疑。他說：「他們首先參與市場營銷，其次是產品營銷，這讓每個人都很興奮。然後一切就變樣了。這是一組非常困難的問題，而 IBM 作為先行者，已經向其他人證明了這一點。」

2011 年以來，IBM 發布了一系列智能醫療項目。它們的成績如何？

目前為止，很少有成功的項目。

在 2017 年的一次健康 IT 專業人士會議上，IBM 首席執行官 Rometty 告訴聽眾說，人工智慧「是真實的，是主流，它在這裡，它可以改變幾乎所有關於醫療的事情」，並補充說，它可能會迎來一個醫學「黃金時代」。她並不是唯一一個看到機會的人：計算機科學家和醫學專家都同意 AI 有潛力改變醫療保健行業。然而，到目前為止，這種潛能主要是在精心控制的實驗中得到證明的。只有少數基於人工智慧的工具被監管機構批准用於真正的醫院和醫生辦公室。這些開創性的產品主要在視覺領域工作，使用計算機視覺來分析像 X 光和視網膜掃描這樣的圖像（不過，IBM 沒有分析醫學圖像的產品，儘管它在該領域有一個活躍的研究項目）。

然而，除了圖像，即使是當今最好的人工智慧也難以理解複雜的醫療信息。對一位人類醫生在軟體方面的專業知識進行編碼是一個非常棘手的問題。正如全世界所看到的那樣，IBM 在市場上經受了這些痛苦的教訓。雖然該公司不會放棄登月計劃，但其研發的失敗表明，技術人員和醫生都很難真正創建一位 AI 醫生。

2011 年的 Jeopardy! 競賽的勝利表明了沃森在自然語言處理（NLP）方面的非凡技能。要贏得這個比賽，它必須通過大量文字解析複雜線索，搜索大量的文本資料庫以檢索可能的答案，並確定最佳答案。Watson 不是一個簡單的搜索引擎；它不僅僅是基於關鍵字返迴文檔。相反，它使用了數百種演算法來映射一個句子中的「實體」，並理解它們之間的關係。它使用這種技巧來理解線索和挖掘數以百萬計的文本源。

認知教練系統

Under Armour 運動服裝公司與 Watson Health 合作，創建了一個「個人健康教練和健康顧問」應用。認知教練使用 Under Armour 的活動跟蹤 APP 中的數據，根據用戶的習慣提供定製的培訓計劃，以及基於對類似結果分析的建議。這個系統從未真正推出，而且 Under Armour 也不再與 IBM Watson 合作。

「Watson 幾乎可以理解語言的含義，而不僅僅是識別單詞的模式，」 Jeopardy! 競賽時的 IBM 研究部首席醫學科學家 Martin Kohn 說。「這比現有系統能力有指數級增強。」更重要的是，Watson 通過機器學習自己發展了這種能力。IBM 的研究人員通過給 Watson 提供數千條被標為正確或不正確的 Jeopardy! 線索和響應來訓練他。在這個複雜的數據集中，AI 發現了模式，並為如何從輸入（線索）到輸出（正確的響應）建立了模型。

早在 Watson 在 Jeopardy! 舞台閃亮登場很久之前，IBM 就考慮過其應用在醫療行業的可能性。醫學上擁有大量患者數據似乎對 AI 明顯適合，尤其是當醫院和醫生轉向電子醫療記錄時。雖然有些數據可以很容易地被機器上傳，如實驗室結果和生命體征測量，但大部分醫療數據是「非結構化」的信息，如醫生撰寫的病歷和出院總結。這種敘述性的文本佔了一個典型病人記錄的 80% 左右，它是一堆行話、速記和主觀陳述。

Kohn 在加入 IBM 之前曾獲得哈佛大學醫學學位和麻省理工學院工程學位，他很高興能幫助 Watson 解決醫學語言的問題。他說：「Watson 似乎有潛力克服這些複雜性。」他表示，通過將 IBM 強大的 NLP 能力應用到醫學領域，Watson 可以閱讀患者的健康記錄以及完整的醫學文獻集：教科書、同行評議的期刊文章、經過批准的藥物清單等。有了這些數據，沃森可能會成為一名超級醫生，識別出人類無法識別的模式。

Columbia 大學醫學和生物醫學信息學教授 Herbert Chase 說：「醫生們每天都要去工作，尤其是前線工作的人們，初級保健醫生們知道他們不可能知道一切，因此需要儘可能地實踐最好、最充分、最有效的醫學。」他與 IBM 合作開展了首次 AI 醫療保健工作。如果 Watson 變成一個「臨床決策支持」的工具，它也可以使醫生獲得這些知識。根據 Jeopardy! 線索，醫生可以給 Watson 一個病人的病史，並要求 Watson 作出診斷或最佳治療方案。

Chase 與 IBM 的研究人員合作開發了一種診斷工具的原型，這種工具讓 Watson 體驗廳室里的訪客眼花繚亂。但 IBM 選擇不將其商業化，Chase 在 2014 年與 IBM 分道揚鑣。他對 Watson 在醫學上的緩慢進步感到失望。「我預想不出會有什麼精彩的結果，」他說。

他是 Watson 早期眾多狂熱分子中的一員，現在他們都很沮喪。馬里蘭大學放射學教授、信息系統副主席 Eliot Siegel 也與 IBM 合作進行診斷研究。雖然他認為 AI 工具在十年內對醫生來說是必不可少的，但他不相信 IBM 會開發出這些工具。西格爾說：「我認為他們不處在 AI 的前沿。」「最令人興奮的事情發生在谷歌、蘋果和亞馬遜。」

至於 Kohn，他在 2014 年離開 IBM，他說公司陷入了一個常見的陷阱：「僅僅證明你擁有強大的技術是不夠的，」他說。科恩說，他一直在等待醫學期刊上發表同行評議的論文，證明 AI 可以改善患者的治療效果並節省醫療系統的資金。他說：「到目前為止，此類論文還很少發表，對 Watson 來說也沒有什麼影響。」

表1：人工智慧首次進軍醫療保健領域

醫生是一個保守的群體（這有充分的理由），而且採用新技術的速度很慢。但在醫療保健的某些領域，醫學專業人士開始認為人工智慧系統是可靠和有用的。表 1 是 AI 醫學的一些早期進展。

為了把人工智慧帶進診所，IBM 面臨著巨大的技術挑戰。但 IBM 在很多計算領域落後於像谷歌和蘋果這樣的技術巨頭，所以它需要一些大項目來保持自己的位置。2014 年，Watson 投資 10 億美元，為多個業務部門開發技術。2015 年，IBM 宣布成立一個特殊的 Watson Health 事業部。到 2016 年年中，這個事業部已經以大約 40 億美元的總成本收購了四家健康數據公司。IBM 似乎擁有使 AI 在醫療保健行業中發揮作用所必需的技術、資源和責任。

今天，IBM 的領導們把 Watson Health 說成是一個曲折的「旅程」。「將 AI「注入」醫療保健是一項艱巨的任務，這是一項挑戰。但我們正在這樣做，」IBM 認知解決方案和研究部高級副總裁 John E.Kelly III 說。Kelly 從 Jeopardy! 競賽開始就一直在指導 Watson 的工作，在 2018 年底，他還承擔了 Watson Health 的直接管理。他說，公司已經在需要的時候轉變了方向：「我們在不斷學習，所以我們的產品會隨著學習而改變。

Sugar.IQ

Medtronic 公司和 Wtson Health2015 年開始合作開發個性化糖尿病管理應用程序。該 APP 與 Medtronic 公司的連續血糖監測儀的數據一起工作，幫助糖尿病患者跟蹤他們的藥物、食物和生活方式，選擇如何影響他們的血糖水平。FDA 於 2018 年批准相關申請。

IBM 負責醫療保健和生命科學研究的副總裁 Ajay Royyuru 說，這種診斷工具之所以沒有上市，是因為沒有商業案例。他說：「診斷不是一個好去處。專家們做得很好。這是一項艱巨的任務，不管人工智慧做得有多好，它都不會取代專家實踐者。」當然，並不是說所有人都持這樣的看法。在 2015 年國家科學、工程和醫學院關於診斷錯誤的報告指出，改進診斷代表著「道德、專業和公共衛生的迫切需要」。

為了尋找醫療 AI 的商業案例，IBM 針對醫療保健系統中的所有不同參與者（醫生、管理人員、保險公司和患者）開展了數量驚人的項目。Kelly 說，將所有的線索聯繫在一起的，是努力「使用 AI（分析）海量數據集的決策支持」。IBM 最廣為人知的項目集中在腫瘤學上，該項目希望利用 Watson 的「認知」能力，將大數據轉化為針對患者的個性化癌症治療。

在許多嘗試中，Watson 的 NLP 和其他許多 AI 系統一樣難以理解醫學文本。蒙特利爾大學計算機科學教授、AI 頂尖研究人員 Yoshua Bengio 說：「我們在使用 NLP 方面做得比五年前好得多，但我們仍然比人類差得多。」Bengio 說，在醫學文本文檔中，人工智慧系統無法理解歧義，也無法找到人類醫生會注意到的細微線索。Bengio 說，目前的 NLP 技術可以幫助醫療保健系統：「它不需要有充分的理解，就可以做一些非常有用的事情，」他說。但迄今為止，人工智慧尚無法與人類醫生的理解力和洞察力相匹配。

IBM 在癌症方面的工作就是一個很好的例子。「我認為沒有人知道這會花費這久的時間或這麼複雜，」Mark Kris 說。他是紐約市 Memorial Sloan Kettering 醫療中心的肺癌專家，自 2012 年以來一直領導著他的研究機構與 IBM Watson 的合作。

改善癌症護理有兩條主要途徑。2015 年，Mark Kris 和其他傑出醫生訓練了一個人工智慧系統 Watson for Oncology 。在全美國範圍內，位於休斯頓的德克薩斯大學 MD Anderson 癌症中心的傑出醫師與 IBM 合作，創建了一種稱為腫瘤學專家顧問的工具。MD Anderson 在白血病科做了這麼多的測試，但從未成為商業產品。

這兩項努力都受到了強烈的批評。一篇關於 Watson for Oncology 的文章批評稱，它提供了無用的、有時是危險的建議（IBM 對這些指責有異議）。更廣泛地說，Kris 說，他經常聽到批評的產品不是「真正的人工智慧」。而 MD Anderson 項目卻戲劇性地失敗了：德克薩斯大學 2016 年的一次審計發現，癌症中心在取消該項目之前在該項目上花費了 6200 萬美元。對這兩個項目的深入研究表明，機器學習的前景與醫療保健的現實之間存在著根本的不匹配，即「真正的人工智慧」與當今醫生對功能性產品的需求之間存在著根本的不匹配。

Watson 在腫瘤科的研究應該是通過吸收大量關於癌症的醫學文獻和真實癌症患者的健康記錄來學習的。IBM 希望 Watson 能夠憑藉強大的計算能力，研究這些記錄中的數百個變數，包括人口統計學、腫瘤特徵、治療和結果，並發現人類看不到的模式。它還跟蹤每天發表的大量關於癌症治療的期刊文章。對於 Sloan Kettering 的腫瘤學家來說，這聽起來像是癌症治療方面的一個潛在突破。對 IBM 來說，這聽起來是一個很棒的產品。「我想沒人知道我們是為了什麼，」Kris 表示。

Watson 很快學會了如何瀏覽有關臨床研究的文章並確定基本結果。但事實證明，教 Watson 像醫生那樣閱讀文章是不可能的。Kris 說：「醫生從一篇文章中提取信息，用來改變其治療，但這可能不是 Watson 研究的重點。」Kris 解釋說，Watson 的想法是基於統計數據的，所以它所能做的就是收集關於主要結果的統計數據。但醫生不會那樣做的。」

例如，在 2018 年，FDA 批准了一種新的「組織不確定」類抗癌藥物，這種藥物對所有表現出特定基因突變的腫瘤都有效。根據僅 55 名患者的顯著結果，該藥物被快速追蹤，其中 4 名患者患有肺癌。Kris 說：「我們現在認為，每個肺癌患者都應該檢測這種基因。基於這 4 位患者，之前所有的指引都被剔推翻了。」但 Watson 不會僅僅基於 4 個病人而改變其結論。為了解決這個問題，Sloan Kettering 的專家們創建了「綜合案例」，Watson 可以從中學習到，本質上是讓具有一定人口統計學特徵和癌症特徵的患者相信。「我相信分析，我相信它可以揭露一些問題，」Kris 說。「但說到癌症，它真的不起作用。」

你是否同意？

幾項研究比較了 Watson 對腫瘤治療的建議和醫院腫瘤醫生的建議。兩者的一致性百分比指出了 Watson 的建議與專家的治療計劃相符的頻率。

信息來源：Journal of Clinical Oncology 2017; Cancer Research 2017; JCO Clinical Cancer Informatics 2018

認識到 Watson 無法獨立地從醫學文獻中的突發新聞中提取見解，這只是遇到的第一個問題。研究人員還發現，它不能像預期的那樣從患者的電子健康記錄中挖掘信息。

在 MD Adnderson 中心，研究人員讓 Watson 研究白血病患者的健康記錄，並很快發現這些記錄是多麼難以處理。是的，Watson 有驚人的 NLP 技能。但在這些記錄中，數據可能會丟失、以不明確的方式寫下或不按時間順序排列。在《The Oncologist》一篇 2018 年發表的論文中，研究小組報告說，其基於 Watson 的腫瘤專家顧問在從病歷文本文件中提取信息方面取得了不同的成功。在處理明確的概念（如診斷）時，它的準確率為 90%~96%，但對於時間依賴性信息（如療程）的準確率僅為 63%~65%。

在對 IBM 的 AI 超級醫生夢想的最終打擊中，研究人員意識到 Watson 無法將一個新病人與以前發現隱藏模式的癌症病人進行比較。Sloan Kettering 和 MD Anderson 都希望 AI 能夠模仿他們的腫瘤專家的能力，這些專家在為新病人設計策略時，利用自己對病人、治療和結果的經驗。一台可以更嚴格地進行相同類型人群分析的機器，並且利用更多的患者信息，將是非常強大的。

但是醫療系統的現行標準並不鼓勵這種現實世界的學習。MD Anderson 的腫瘤專指引只發布了與官方醫學指南和醫學文獻中發表的研究結果相關的「基於證據」的建議。例如，如果一個 AI 系統給出的建議是建立在其醫療記錄的基礎上，如某種藥物對某種類型的病人很有效果，那麼它的建議就不會被認為是「基於證據」的（這是醫學上的黃金標準）。如果沒有科學研究的嚴格控制，這樣的發現只會被認為是相關性，而不是因果關係。

IBM 前員工 Kohn 和其他許多人認為，為了使 AI 充分發揮其潛力並轉變醫學，醫療保健的標準必須改變。Kohn 說：「黃金標準並不是真正的黃金。」Kohn 說，AI 系統可以考慮比臨床試驗更多的因素，並且可以將患者分為更多的類別，以提供「真正的個性化護理」。基礎設施也必須改變：醫療機構必須同意共享其專有控制的隱私數據，以便 AI 系統可以從多年來接收的數百萬患者身上進行學習。

據報道，IBM 在美國很難找到 Watson 腫瘤產品的買家。一些腫瘤學家說他們相信自己的判斷，不需要 Watson 告訴他們該怎麼做。另一些人說，Watson 只建議標準的治療，他們對此很清楚。但 Kris 說，一些醫生髮現這是一個有用的第二種建議，他們可以與緊張的病人分享。Kris 說：「儘管它不完美，而且有限，但它是非常有幫助的。」IBM 的銷售代表在美國以外的地方更幸運，印度、韓國、泰國等地的醫院都採用了這種技術。這些醫院中的許多在營銷中自豪地使用 IBM Watson，告訴患者他們將獲得基於 AI 的癌症治療。

在過去的幾年裡，這些醫院已經開始發表他們與 Watson 在腫瘤方面的經驗研究。在印度，曼尼帕爾綜合癌症中心的醫生對 638 例乳腺癌病例進行了評估，發現治療建議的一致率為 73%；其評分因轉移性乳腺癌表現不佳而降低。在韓國的加川大學吉爾醫療中心，Watson 的情況更糟，該中心 Watson 對 656 名結腸癌患者的最佳建議與專家的建議只有 49% 匹配。醫生們報告說，Watson 在老年患者身上表現不佳，沒有推薦某些標準藥物，而且有一個缺陷，導致 Watson 建議對某些癌症轉移患者進行觀察而不是積極治療。

這些研究旨在確定 Watson 在腫瘤學技術方面的表現是否如預期。但還沒有研究表明它對患者有益。UCSF 的 Wachter 說，這對公司來說是一個日益嚴重的問題：「IBM 知道，Jeopardy! 競賽的勝利以及與 Memorial Sloan Kettering 的合作使他們跨入智能醫療的門檻。但它們需要相當快地給出堅實的影響力。」Wachter 說，IBM 必須說服醫院，該系統值得價值投資。他說：「他們取得成功是非常重要的…… 成功是類似發表在 New England Journal of Medicine 的一篇文章，展示了"當我們使用 Watson 時，病人情況更好，或者我們節省了錢"等等。」Wachter 仍在等待看到這樣的文章出現。

Sloan Kettering 的 Kris 並沒有氣餒，他說技術只會變得更好。「作為一種工具，Watson 有著非凡的潛力，」他說。「我確實希望那些擁有創意和計算機能力的人能夠堅持下去。這是一個漫長的過程，但值得堅持。」

Watson 在某些有限和受控的應用上，取得了一定成功，其中，Watson 似乎起到了增值作用。以 Watson for Genomics 產品為例，它是 Watson 與北卡羅來納大學、耶魯大學和其他機構合作開發的基因組學產品。這個工具被遺傳學實驗室用來為實踐腫瘤學家生成報告：Watson 接收列出病人基因突變的文件，幾分鐘後它就可以生成一份描述所有相關藥物和臨床試驗的報告。「我們使實驗室能夠擴大規模，」領導產品開發和 2016 年產品發布的 IBM 傑出工程師 Vanessa Michelini 說。

Watson 在處理基因信息時相對成功，這些信息存儲在結構化的文件中，沒有歧義，無論是有無突變。該工具不使用 NLP 來挖掘醫療記錄，而只使用它來搜索教科書、期刊文章、藥品批准和臨床試驗公告，並在其中查找非常具體的聲明。

IBM 在北卡羅來納大學的合作夥伴在 2017 年發表了第一篇關於 Watson 對基因組學有效性的論文。在參加這項研究的 32% 癌症患者中，Watson 發現了人類研究中沒有發現的潛在重要突變，這使得這些患者成為新葯或剛剛開放的臨床試驗的候選者。但到目前為止，還沒有跡象表明 Watson 的基因組學研究能帶來更好的結果。

弗吉尼亞州國家腫瘤項目主任 Michael Kelley 說，美國退伍軍人事務部使用 Watson 在全國 70 多家醫院做基因組學報告。弗吉尼亞州首次嘗試了肺癌治療系統，現在使用它治療所有實體腫瘤。Kelley 說：「我確實認為它能改善病人的護理。」當弗吉尼亞州的腫瘤學家決定一個治療方案時，「Watson 是他們可以帶來討論的信息來源，」他說。但凱利說他不認為沃森是個機器人醫生。「我傾向於認為它是一個機器人，一個醫學圖書管理員。」

大多數醫生可能會很高興有一個 AI 圖書館員隨時待命，如果這是 IBM 最初承諾的，他們今天可能不會那麼失望。Watson 現在成為一個被指責傲慢和炒作的故事。每個人都喜歡雄心壯志，每個人都喜歡登月，但沒有人想登上一個不起作用的火箭。

表 2：到目前為止，幾乎沒什麼成功的案例

2011 年，IBM 開始努力將 Watson 納入醫療保健行業。從那時起，該公司已經宣布了近 50 個合作夥伴，開發新的人工智慧醫療工具。一些合作為醫生和機構開發工具；一些合作提供消費者 APP 開發工具。雖然這些合作中的許多項目還沒有開發出商業產品，但 IBM 表示，這些研究工作是有價值的，而且許多關係還在繼續。下表是一些典型的項目。

（本文發表在 IEEE Spectrum 20194 月刊印刷版，題為「IBM Watson, Heal Thyself.」）

鏈接：https://spectrum.ieee.org/biomedical/diagnostics/how-ibm-watson-overpromised-and-underdelivered-on-ai-health-care

實習生招募

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI科技大本營 的精彩文章:

※受用一生的高效PyCharm使用技巧（二）
※全球AI報告出爐：美國稱王，中國砸80W年薪搶人才緊追！

TAG:AI科技大本營 |