被 AI 大牛肯定的 GAN 新葯探索公司,將眼光放向了區塊鏈
「AI 有兩個領域,真的讓我感覺很有前途,一是出行的自動駕駛,另一個就是醫療保健,」法國總統馬克龍前不久宣示了一系列的人工智慧國家級政策,明確點名了 AI 在醫療領域的巨大潛力。
圖丨法國總統馬克龍
對於人工智慧可以為醫療保健領域帶來創新,尋找新的治療方式或藥物,(而非取代醫生,至少在短期不會發生),已經是全世界的共識,例如訓練機器看醫學影像,不論是計算機斷層掃描(CT)、核磁共振(MRI)、X 光片,都吸引了 Google、許多的初創公司投入,2017 年初美國食品和藥物管理局(FDA)正式批准第一個基於神經網路和雲端的醫療成像分析平台 Arterys Cardio DL,讀取心臟的 MRI 圖像後,自動描繪出心室的輪廓,以及量測心臟收縮時的血流。
新葯開發是一個昂貴、漫長的過程
同時還有另一個領域也被寄與厚望,那就是製藥。在製藥行業中,包括研發成本和時間成本在內,新葯開發是一個投入成本非常高、但成功率卻偏低的苦差事,知名的英國癌症研究院(Cancer Research UK)就指出,對於藥物的測試和批准往往沒有時間表,在獲得許可之前,可能需要 10~15 年才能完成臨床試驗的所有階段,所以製藥大廠無奈宣布放棄開發某種藥物的事件也就是時常發生的新聞了,今年 1 月輝瑞藥廠(Pfizer)就宣布放棄在神經科學領域開發中的新葯,包括阿茲海默症與帕金森氏症。然而,當藥物從實驗室推向市場後,能否在市場中生存又是另一回事。
因此,高昂的研發成本和漫長的測試過程可謂是整個行業的痛點,在這冗長的流程中若能加速其中一個步驟,就可能對整條產業鏈起了重要的作用,有什麼方法可以幫助科學家、藥物開發人員加速研發的腳步,治療包括癌症、阿茲海默症、帕金森氏症在內的重要疾病?
人工智慧,已經成了一種新的視角,一個新的選項。輝瑞、默克(Merck)等藥廠巨頭、大學研究團隊紛紛嘗試 AI、機器學習來進行藥物探索(Drug Discovery)、新葯開發,像是 Genentech 計劃使用精準醫療公司 GNS 開發的機器學習和模擬平台 REFS,來查找和驗證潛在的候選藥物。而有一家美國初創公司 Insilico Medicine 更是率先引入了當紅的生成對抗網路(GAN),來預測治療效果最好的藥物分子。
新葯開發的流程
在談 GAN 怎麼與新葯開發結合前,先簡單了解一下藥物的研發(R&D),藥物的研究(Research)較偏向藥物的探索、作用,屬於前段;而發展(Development)多是針對有治療潛力的藥物進行商品化,包括製程、動物試驗、藥效觀察等。整個流程從早期的 Drug Discovery、找到有潛力的候選藥物,進入臨床前試驗(Pre-clinical toxicological tests)、再到臨床試驗(Clinical trials),在臨床試驗部分通常有四個階段,一些試驗的早期階段稱為階段 0(Phase 0 trials),進到階段 1 至 3,測試對象逐漸增多,從對照組和試驗組觀察效果、最佳劑量等,階段 4 則是藥物獲得上市許可後,觀察是否有嚴重副作用等。
製藥行業使用計算機進行藥物開發算是頗為成熟,例如電腦輔助藥物篩選與設計、高通量篩選(HTS)等,調研機構 TrendForce 生技分析師劉適寧對 DT 君表示,傳統電腦輔助藥物篩選與設計,其演算法建立在人們對於原子或分子間交互作用的理解,包含電子遷移、氫鍵、立體結構、靜電引力、疏水區等。整體來看有兩大類方法,受體為基礎(receptor-based),又稱活性位點,以及結構為基礎(structure-based),又稱資料庫搜尋的藥物輔助設計與大量篩選。
圖丨 TrendForce 分析師劉適寧
以往這種方式,可以知道所篩選或設計出來的藥物分子(稱之 ligand)跟作用標的(receptor)可以結合,有親和力、以及可預測的藥理活性,但是對於該新葯分子在人體內實際的功效與安全性卻處於未知狀態。
他進一步指出,新的發展方向則是嘗試把基因信息(基因體)、RNA 表現信息(轉錄體)、蛋白質表現信息(蛋白質體)、電子醫療數據、臨床文獻整合在一起。但由於數據量非常之龐大,已經無法使用人工方式去處理每個信息,更不用說以此建立起適用於藥物篩選與藥物設計的規則,因此導入大數據的數據處理方法,以及機器學習、深度學習等 AI 技術。
相較於以往,AI 輔助的藥物設計與篩選是建立在已知的人們個體差異、疾病致病機轉、現有藥物在人體作用所累積的信息,因此新產出的藥物分子被期待對於在人體的可能作用與功效有一定的了解與可預測性,雖然後續仍須依照藥物開發流程一步步走下去,但是有機會提高新葯的成功機率以及發現既有藥物的新使用方向。
GAN 不只換臉,也能開發新葯
被《麻省理工科技評論》評選為 2018 年十大技術之一的 GAN,獨到之處在於同時訓練兩個網路,一個是生成網路(generator network),又稱生成器(generator),另一個是鑒別網路(discriminator network),又稱鑒別器(discriminator)。生成器只想著一件事:騙過鑒別器,就是讓鑒別器覺得它做的東西是真實的、或是好的;而鑒別器的任務就是去抓什麼是真實的、什麼是由生成器製作出來的。簡單來說,可以想成是一個是詐欺犯,另一個是警察,詐欺犯極力想要做得完美,不讓警察發現破綻,警察則是費心尋找破綻,要抓出犯人。通過讓這兩個網路相互對抗、競爭,卻又互相學習的過程中,訓練出高質量的人工智慧。
目前 GAN 主要的應用多在圖像、視頻、語言上,而且都取得了很不錯的表現,像是中國 AI 獨角獸的商湯利用 GAN 作圖像的超解析度、相片的自動美化、圖像的標題生成,或是喧騰一時的 DeepFake 也是用了 GAN 來達到視頻中的人物「換臉」。
「很多 GAN 在成像的應用,就像是魔術一樣,但我們希望用它來做出真正有影響力的事情—加速藥物探索,」Insilico Medicine 首席 AI 官兼台灣區執行官 Artur Kadurin 對 DT 君這麼說。他進一步表示,全世界可能存在的化學化合物(compound)數量非常龐大,「多達 10 的 60 次方以上」,目前藥物探索的過程很大程度就是依賴在這巨大的化合物資料庫里進行盲目搜索,希望找出有潛力的前導化合物,才能進到下一步的臨床前試驗,這也就是為什麼新葯開發效率很低的原因。
圖|Insilico Medicine 首席 AI 官 Artur Kadurin(圖片來源:DT 君)
但新的機器學習,有機會帶動整個行業的進步。一開始,Insilico Medicine 利用深度學習來篩選分子資料庫中的數百萬個分子,「這有點像在乾草堆里找針,GAN 的意義在於,我們現在就可以生成完美的針,」他舉了一個很貼切的例子。Insilico Medicine 利用生成建模依照所需特性來生成分子結構,包括對靶蛋白具有高親和力(target protein with higher affinity)、低毒性、合成能力等,藉此輔助、甚至取代上述盲目篩選的過程。
Insilico Medicine 發表了一篇《The cornucopia of meaningful leads: Applying deep adversarial autoencoders for new molecule development in oncology》論文,他們使用美國癌症研究所(NCI)的 NCI-60 藥物篩檢資料庫中針對乳癌細胞 MCF-7 的 6252 種化合物,以及分子指紋(molecular fingerprints)和分子濃度(concentration of the molecule)、生長抑制(Growth Inhibition)百分比等數據,來訓練一個深度神經網路 AAE,經過與鑒別器的相互較勁,AAE 能夠根據想要的分子特徵,來產生具有潛在抗癌特性的候選分子(candidate molecules),並從中預測了 69 種化合物,有些分子已經被用來治療癌症,像是白血病和乳腺癌。
圖|基於生成對抗網路的 AAE 架構(資料來源:Insilico Medicine)
由於該論文被視為是 GAN 首次在藥物開發的應用,吸引了深度學習界大牛的目光,神經網路三巨頭中的 Yoshua Bengio 、 Yann LeCun 均公開讚許了這個研究,讓 Insilico Medicine 一戰成名,也在 2017 年被 NVIDIA 創始人黃仁勛選做最具社會影響力 AI 初創公司 Top 5 之一。
抗衰老醫療公司 Juvenescence 在去年與 Insilico Medicine 成立合資公司 Juvenescence.AI,專攻使用人工智慧進行藥物開發,不久前對外公布,藉助 AI 找出的化合物中,已經選定了第一個化合物家族(compound family)進行臨床開發。由於研究小組在不到 6 個月的時間,就確定了一個與特定年齡相關疾病領域的候選藥物(drug candidate),顯示出 AI 在新葯探索的潛力。
圖|神經網路三巨頭中的 Yoshua Bengio 在 Facebook 分享了 Insilico Medicine 的研究
用區塊鏈打造醫療數據交易平台,讓用戶從中獲利
除了利用 AI 開發新葯之外,區塊鏈與醫療領域的結合也是一種新的嘗試,特別是在 Facebook 爆發數據醜聞案之後,數據使用、個人數據隱私保護的問題又浮上了檯面,深度學習、遷移學習(Transfer Learning)技術將個人數據轉化為醫學數據,進行預測分析。但是,儘管這些數據來自於患者,但病人卻無法掌握、更不要說是控制醫療記錄的訪問許可權。
健康數據有很高的價值,不論 Google 、三星和蘋果都正在利用這些數據開發非常有價值的產品,但是貢獻數據的人卻沒有從中獲得該有的利益。因此 Insilico Medicine 聯合了區塊鏈技術公司 Bitfury,在韓國舉辦的 2017 全球領導者論壇上發布了 Longenesis 項目,並發表了一篇論文《Converging blockchain and next-generation artificial intelligence technologies to decentralize and accelerate biomedical research and healthcare》說明他們的想法。
他們先利用 AI 打造了一個價值模型,會依照用戶的數據內容、時間等參數,評斷出數據組合的價值,當醫藥研發公司或研究機構想要使用這些數據,就會依此來估算費用,這些錢則會支付給用戶,也就是說,這是一種「數據市集」的概念。
圖|在數據市集里,客戶想要購買數據時,價值模型就會算出需要多少成本(資料來源:Insilico Medicine)
一般來說,數據可分為兩類:動態—反映抽樣時生物體的狀態,例如血液測試、轉錄組(transcriptome)、表觀基因組(epigenome)、蛋白質組(proteome)、微生物組等;靜態—在用戶的生命期間內幾乎不會改變的,例如基因組、指紋。在先天遺傳疾病中,有些是年齡相關性疾病,生命第一年的記錄對於疾病的進一步研究至關重要,隨著年紀增加,數據的價值就會下降,有些則是相反。在用戶個人檔案部分,除種族、生日、性別、血型等常見信息外,還要有診斷數據、醫療處方、接種疫苗、慢性病等。
圖|預測數據的類型可以包括罕見數據,如轉錄組特徵、頭髮組成等,以及回顧性數據,包括常見的血液測試或來自社交網路的數據(資料來源:Insilico Medicine)
另外,Longenesis 醫療數據交易平台是基於企業級開源區塊鏈 Exonum 框架,具備了區塊鏈的特點,用戶可以直接將他的數據上傳到系統,並擁有其數據的所有權和訪問許可權,他們也可以將數據出售給藥廠、研究單位等有數據需求的人,並且通過價值模型算出的價格來計價,因此強調價格的透明及公平性。而數據購買者也可以選擇購買單一個用戶的數據,或是相同類型群體的紀錄組合。
另外,考量進行跨國的數據交易,支付可能存在一些困難,在他們的設想這可以通過加密貨幣來解決,因此提出了一種名為 LifePound 的代幣,一是方便數據交易,二是貢獻數據者也可以獲得代幣獎勵。
圖|醫療數據市集生態系統包括區塊鏈、數據存儲、用戶和公共實例。區塊鏈用於處理新的交易區塊,存儲和發送密鑰並進行審計。數據存儲包含加密數據。用戶發送和銷售他們的數據,系統會驗證這些數據,客戶則可購買個人醫療數據,並用 LifePound 交易(資料來源:Insilico Medicine)
以發論文不發 ICO,來推廣醫療數據交易平台
不過,Artur Kadurin 強調,有許多首次代幣發售(ICO)項目是魚目混珠,甚至涉及了欺詐行為,對於醫療行業來說,必須相當重視信譽,因此 Insilico Medicine 目前沒有 ICO 的想法或計劃,「這就是為什麼我們選擇在醫療相關期刊上發表研究論文,並且在沒有進行 ICO 的情況下,開發區塊鏈系統。」
Insilico Medicine 正在展開 AI 驗證的研究,並對提交給系統的數據進行質量控制,而 BitFury 則負責區塊鏈技術的開發,「我們計劃先從簡單和匿名的數據類型開始,希望建立一個由數據驅動的經濟,」他說。
這個基於區塊鏈的個人健康數據生態系統有兩個目標,一是讓用戶能夠掌握自己的數據控制權,可以因提供用於研究或商業目的的數據而獲得獎勵,另一個點同樣很重要,希望讓更多的開發者參與,創建醫療研發社群,在這樣的生態系統可能允許包括監管機構、製藥和消費產品公司交換數據,很可能為藥物探索、生物標誌開發和預防性醫療保健帶來新的方法和進展。
圖|個人數據驅動型經濟:個人對數據有完全的控制權,可因提供用於研究或商業目的的數據而獲得獎勵,這樣的生態系統可能允許監管機構、製藥和消費品公司互相交換數據(資料來源:Insilico Medicine)
由於個人醫療數據在取得難易度及研究價值比起一般數據來得更有價值,因此「數據有價」這件事在醫療行業開始被提及跟思考,Insilico Medicine 並非是第一家提出此想法的公司。例如遺傳學大牛、哈佛大學教授 George Church 共同創立的 Nebula Genomics 的新基因測試公司,在今年初就提出一項測試項目,計劃以 999 美元完成全基因組測序,並通過分享基因數據獲取加密貨幣,讓消費者分享基因數據來從中獲利,這同樣是利用區塊鏈進行醫療數據交易的一個知名案例。
雖然這些項目的嘗試性意味較大,但 Facebook 用戶數據遭濫用一事,已經徹底激怒全球互聯網用戶,既然數據是由用戶貢獻的,為什麼錢卻被企業賺走,用戶反而還要淪為被你研究、甚至操弄的受害者,導致部分民眾數據分享的意願下降,甚至是拒絕分享。因此,數據的所有權、價值是否該還給用戶,已經成為備受討論的議題。
而區塊鏈的數據不可篡改性、加密設計、交易便利性、以及分潤激勵下,確實有助於讓用戶願意分享自己的數據,特別如何大量收集數據,一直是醫療領域的痛點,因此這種創新的商業模式,對於醫療行業來說,或許是一種好的嘗試,有助於加速藥物、疾病研究的腳步,但前提是有一套好的數據保護、透明的利潤交易機制。
與亞洲合作,將在 ICML 大會上發表新成果
近幾年的 AI 復興,第一波高峰可說是由深度學習系統在圖像識別方面超越人類所掀起,吸引了人們對 AI 的大量關注,第二波高潮就是在「Computer Go」這種棋類遊戲中,使用深度學習和強化學習,完全超越人類,DeepMind 的 AlphaGo 打敗了多位人類棋王,顯示了 AI 廣泛應用的潛在應用。Artur Kadurin 認為,「第三個高峰將是把所有這些進步具體地跟醫療保健、新葯探索專業知識相結合。」
雖然醫療行業應用 AI 還在初期階段,Artur Kadurin 解釋,新藥物探索是非常困難的工作,不僅需要專業的團隊和專家,而且「要驗證更是困難得多」,當你使用影像數據,可以快速查看你的深層神經網路是否產生了有意義的東西,但是在化學和生物學方面,需要數個月的時間來測試你的輸出,所以它的成本要高得多。他也透露,他們已經跟中國知名的製藥公司、台灣的財團法人生物技術開發中心合作,展開實驗驗證,預計 7 月份於 AI 界的頂級大會 ICML 2018 上發表研發成果,「這或許將成為人工智慧在藥物探索的真正轉折點,」他說。
雖然新葯開發在人工智慧的幫助下,讓行業內外都有一種高度期待,劉適寧指出,AI 是強化新葯開發(new drug discovery)有利的工具之一,但實質的成效還有待臨床驗證。現有藉助 AI 輔助開發出的候選藥物分子們,預期 3~5 年內會發展至臨床一期或臨床二期階段,意味著到達「first-in-human」與「proof-of-concept in human」,因此 AI 在新葯開發的實質效益方會逐漸顯現。另外,藥品重新定位(新適應症)的開發所需的臨床試驗時間較短,AI 從這方面著手,對藥品開發的效益,可望能夠較快獲得證實。
AI 在藥物開發是否能獲得如圖像或遊戲領域的成功,目前來看,還是得中性看待,但至少給了一個新的途徑。
※急起直追,法國將在 2022 年前在人工智慧方面投入 15 億歐元
※剛剛,中國晶元獨角獸寒武紀發布新一代AI 雲端晶元,全方位覆蓋IP與晶元方案
TAG:DeepTech深科技 |