正在被AI深刻改變著的科研：從尋找Higgs到治癒疾病

知識 10-03

來源 Science News Staff

翻譯雪婷雷鳴

審校阿金譚坤

AI早期試驗：搜尋新粒子

早在二十世紀80年代「神經網路」引發公眾想像之初，粒子物理學家就盯上了人工智慧（AI）。他們的研究領域適用於 AI 和機器學習演算法：幾乎每個實驗都專註於從複雜粒子探測器無數相似的數據輸出中找到其微妙的空間模式，這恰恰是 AI 所擅長的。「我們用很多年的時間來讓人們相信這不僅僅是魔法、戲法或黑盒子那類的東西，」伊利諾斯州巴達維亞的費米國家加速器實驗室(Fermilab)成員 Boaz Klima 說，他也是首批擁護該技術的物理學家之一。如今，AI 技術已然躋身於物理學家的標準工具。

粒子物理學家嘗試通過以巨大的能量撞擊亞原子粒子得到獨特的新物質，以理解宇宙內部的運作機制。例如，2012年科學家使用位於瑞士的世界最大大型強子對撞機(LHC)發現了預言已久的希格斯玻色子(Higgs boson)，這個轉瞬即逝的粒子正是物理學家解釋其他所有基本粒子獲得自身質量的關鍵。

神經網路搜索LHC碰撞碎片中的新粒子特徵

圖片來源：2012 CERN, FOR THE BENEFIT OF THE ALICE COLLABORATION

然而，上述獨特的新粒子出現時並非自帶標籤。在 LHC 中，約十億次的質子對撞才會出現一個希格斯玻色子，並且它在十億分之一皮秒內就衰變為其他粒子，如兩個光子或四個 μ 介子。為了重建 Higgs 粒子的軌跡，物理學家必須檢查其他更為常見的粒子，看看重建結果是否與衰變方式一致。——一次典型撞擊後的一大群沒有關聯的粒子使得這項工作變得更加艱難。

費米實驗室的物理學家 Pushpalatha Bhat 認為，像神經網路的這類演算法很擅長從背景中篩選信號。粒子探測器通常是一個由不同感測器組成的大型桶狀裝置，光子在其中一個被稱為電磁量能器的子系統中往往會產生一簇粒子流或粒子「簇射」（shower）。儘管我們也稱電子和粒子為強子，但是它們的簇射與光子的簇射存在著細微差別。機器學習演算法通過發現多個描述粒子簇射變數間的關聯可以找出其中的不同點。比如，這種演算法也可以幫助區分任意一對由希格斯玻色子衰變而來的光子對。「這就像人們通常說的大海撈針，」Bhat說，「所以從數據中提取最有用的信息很重要。」

機器學習並沒有接管該領域。物理學家仍主要依靠自身基本的物理認知來判斷如何搜索新粒子和新現象出現的數據。但是 AI 很可能變得越來越重要，加利福尼亞州勞倫斯伯克利國家實驗室的計算機科學家 Paolo Calafiura 說道。2024年，研究人員計劃升級 LHC，將其對撞率增加10倍。到那時，機器學習對趕上大數據的洪流至關重要。—Adrian Cho

演算法如何分析大眾情緒？

依靠數十億的社交媒體用戶和每年數千億的推送和轉發，社交媒體為社會科學帶來了大數據。同時心理學家 Martin Seligman 承認，它也開創了使用 AI 從人類交流中收集信息的先河。在賓夕法尼亞大學積極心理學中心，他和20多名心理學家、物理學家及計算機學家在世界幸福工程（World Well-Being Project）項目上使用機器演算法和自然語言處理篩選大數據，評估公眾的心理及生理健康情況。

傳統的方法是通過調查。但是社交媒體數據「無干擾性，成本低，得到的數量級更大，」 Seligman 說。同時，它也很混亂，但是 AI 為揭示數據模式提供了強有力的方式。

在最近的一項研究中，Seligman 及其同事考察了 Facebook 上29000名做過抑鬱自測用戶的更新信息。利用28000名用戶的數據，機器學習演算法找到了他們更新信息中的詞語和抑鬱等級間的聯繫。之後就可以僅僅依據用戶的更新，就可以成功地評估出他們抑鬱等級。

而在另一項研究中，團隊通過分析1.48億條推特預測出縣級地區的心臟病死亡率；與生氣和消極人際關係相關的詞語被證明是高危因素。和基於吸煙、糖尿病等10項高危因素的預測相比，從社交媒體得出的預測更接近真實死亡率。研究人員同樣使用社交媒體預測性格、收入和政治思想，研究住院治療、神秘經歷和定型傾向。該團隊甚至依據推特的數據，按照幸福感、抑鬱度、信任感和五大性格特質等製作了一張美國各縣的彩色地圖。

「分析語言與心理的關係已經成為一場勢在必行的革命。」奧斯丁市德克薩斯大學的社會心理學家 James Pennebaker 說道。他關注的不是內容，而是風格，比如他發現大學入學申請論文中功能性詞語的使用能夠預示成績。冠詞和介詞暗示了分析性思維，預示著更好的成績。代詞和副詞暗示敘事性思維，預示著較低的成績。他還找到了支持1728年出版的戲劇《雙重背叛》（Double Falsehood）大部分是由莎士比亞撰寫這一說法的證據：機器學習演算法依據認知複雜性和罕見辭彙，將該劇本與莎士比亞其他的劇本進行比對並發現它們是吻合的。「現在我們可以分析你曾經轉發、推送的一切，逐漸知道你和 Alexa 是如何談話的，」 Pennebaker 說。最後得到的是：「關於人類真實面目越來越豐富的圖像。」—Matthew Hutson

從基因上尋找孤獨症的根源

對遺傳學家來說，孤獨症是一個煩擾的挑戰。遺傳模式顯示基因組對孤獨症影響巨大。但是很多對孤獨症起作用的變異基因只能解釋其中20%的案例。找到其他的變異型基因或許能為從25000種其他人類基因和相關 DNA 數據中尋找線索提供條件——這是一項人類勢在必行的調查任務。所以普林斯頓大學計算生物學家 Olga Troyanskaya 和紐約西蒙斯基金會支持使用 AI 工具。

「我們能做的也只能跟生物學家一樣多，努力展示孤獨症等疾病背後的根源。」項目合作者、紐約基因中心創始人、紐約洛克菲勒大學醫師 Robert Darnell 解釋說，「科學家只能問十個問題的地方，機器可以問一萬億個問題，這就顛覆了我們的遊戲規則。」

人工智慧工具正在幫助我們揭示成千上萬可能與孤獨症有關的基因

圖片來源：BSIP SA/ALAMY STOCK PHOTO

Troyanskaya 把數百組數據集整合起來，這些數據包括：在特定人類細胞內基因的活躍表現、蛋白質互作關係、轉錄因子的結合位點及其它關鍵基因組特徵的定位。她的團隊運用機器學習建立基因互作圖譜，並把少數已經確認的孤獨症基因與其它成千上萬未知的基因相比較，從中尋找相似點。他們標記了出另外2500個很可能與孤獨症有關的基因，去年在 Nature Neuroscience 報道了這項成果。

然而遺傳學家近期發現，基因並不是單個起作用，它們的行為受到附近數百萬非編碼鹼基的約束，這些鹼基同時與 DNA 結合蛋白及其它因子相互作用。識別哪些非編碼基因變體可能影響附近的孤獨症基因，是一項比發現第一順位基因更加棘手的問題。普林斯頓 Troyanskaya 實驗室的研究生 Jian Zhou 正在運用 AI 解決這一難題。

Zhou 利用「 DNA 元件百科全書」和「表觀基因組路標」所收集的數據訓練他的深度學習系統，這些數據描述了數萬個非編碼 DNA 位點如何影響鄰近基因。事實上，該系統已經學會尋找相關特性，用以評估非編碼 DNA 未知的潛在活動。

2015年10月 Zhou 和 Troyanskaya 在 Nature Methods 描述了這套稱為「DeepSEA」的深度學習系統。加州大學爾灣分校計算機專家 XiaohuiXie 稱讚它為「深度學習應用於基因組學的一個里程碑」。目前普林斯頓研究組正在運用 DeepSEA 研究孤獨症患者的基因，希望對非編碼鹼基產生的影響效果進行排序。

Xie也在運用 AI 研究基因組，但所關注的範圍並不限於孤獨症。他希望把各種基因變異分門別類，以有害幾率作為分類標準。不過他提醒我們，在基因組學領域，深度學習系統只能做到跟訓練它的數據一樣好的程度。「我想目前人們還在懷疑」這樣的系統能否可靠地解析基因組，他說。「但我認為今後會有更多人願意展開雙臂接納深度學習。」—Elizabeth Pennisi

機器成就天空之眼

今年四月，天體物理學家 Kevin Schawinski 在推特上貼了四張朦朧的星系圖片，順帶一個請求：天文學同行們可否幫他把這些圖像分類？他的同事回復說，這些圖像看上去好像我們熟知的橢圓星系和螺旋星系。

有些天文學家懷疑這是擅長計算機的 Schawinski 設下的圈套，所以直截了當地問他，這是真實的星系，還是計算機模擬出來的相關物理模型？其實兩個都不是，他回答說。在瑞典的蘇黎世理工學院，Schawinski 與計算機專家 Ce Zhang 以及其他合作夥伴運用神經網路構造星系。神經網路對物理一無所知，只是好像對星系的性狀有深刻的了解。

Schawinski 只想通過推特確認神經網路的造物如何令人信服。不過他有更遠大的目標。如同電影里那種能銳化模糊的監控圖像的魔幻技術，他想開發一套神經網路系統，使得模糊的星系圖像看上去比實際更清晰，好像是性能更好的望遠鏡拍攝出來的那樣。這能方便天文學家從實際觀測圖像中找到更細微的細節。「數億甚至數十億美金已經砸到太空觀測上面」 Schawinski說，「運用這項技術我們能夠提取更多信息。」

Schawinski 貼在推特上的贗品由生成對抗網路所造。生成對抗網路是一種深度機器學習模型，內含兩組彼此對抗的神經網路，一組生成星雲圖像，另一組是鑒別器，全力尋找圖像中所有可能的缺陷，讓生成器不斷修改操作，以此達到自我優化。Schawinski 的團隊找了數千幅真實的星系圖像，人為降低它們的權重係數，然後訓練生成器重新美化這些圖像，使其繞過鑒別器的審查。結果在銳化模糊星系圖片方面神經網路超越了其它的同類技術。

「熟知」星系性狀的AI把模糊的星系圖像（左）轉變為清晰的圖像（右）

圖片來源：KIYOSHI TAKAHASE SEGUNDO/ALAMY STOCK PHOTO

伊利諾斯州巴達維亞費米國家加速器實驗室天體物理學家 Brian Nord 說，Schawinski 的方法是機器學慣用於天文學的先鋒典範，但並不是唯一。在美國天文學會一月份的會議上，Nord 提交了一份機器學習捕捉強引力透鏡效應的研究戰略：遙遠星系圖像穿越彎曲的時空到達地球的途中，會在天空形成罕見的光弧。引力透鏡效應可用於測量宇宙間的距離，以及發現不可見的暗物質。

人類可以輕鬆分辨與眾不同的強引力透鏡效應，但對於傳統計算機卻十分艱難，因為我們很難用簡單的數學法則來描述。Nord 等人發現，神經網路經過數以千計訓練之後可以獲得與人類相似的直覺。接下來一個月，「用某種機器學習手段探索強引力透鏡效應的論文實際上已有一打之多。如同龍捲風。」 Nord說。

人工智慧為 PB 級大數據挖掘提供了一種強大的手段，不過相比它在天文學領域日益廣泛的應用，這只是冰山一角。「我想我們將在人工智慧這條路上展開實實在在的發現之旅，在這樣一個時代：『哦，上帝，我們擁有的數據太多了！』」 Schawinski 說。—Joshua Sokol

神經網路學習化學合成的藝術

有機化學家擅長逆向作業。就像大廚首先想像一道製成的菜品，然後研究它的烹制方法；很多化學家從他們需要製作的最終分子結構出發，揣摩如何把它們組裝出來。「你需要正確的材料，以及正確的烹飪方法，」德國明斯特大學研究生 Marwin Segle 說。MarwinSegle 等人正在把人工智慧（AI）引進他們的分子廚房。

他們希望 AI 幫助他們應對分子合成的關鍵難點：從幾百種構件單元以及數千種把它們鏈接起來的化學法則中做出選擇。幾十年來，化學家煞費苦心地運用已知化學反應編寫程序，希望創建一套系統，能夠迅速計算最簡易的分子合成工藝。然而，Segler 說，化學「極其微妙，我們很難用二進位把化學法則全部記錄下來。」

於是 Segler 轉向 AI，連同明斯特大學計算機專家 Mike Preuss 及 Segler 的導師 Mark Waller 一起。他們沒有在複雜快速的規則中為化學反應編寫程序，而是設計了一套神經網路深度學習系統，讓它遍曆數百萬樣本，自己研究化學反應的進程。「提供給它的數據越多，它的學習能力越強。」Segler 說。經過一段時間之後，神經網路學會了為分子合成的預想環節預測最佳反應流程。從零基礎開始，最終它找到了自己的分子合成工藝。

對照傳統分子設計程序，三人小組通過40種不同靶分子測試神經網路，結果在2小時的計算窗口中，傳統程序有效計算時間為22.5%（這段時間成功獲得靶分子合成方案），而AI的有效時間達到95%。他們在今年的一次會議上彙報了這一成果。Segler 不久將去倫敦一家製藥公司任職，準備運用這項技術改進藥物生產。

加州帕洛阿爾托斯坦福大學有機化學家 Paul Wender 說，現在就說 Segler 的方法如何有效還為時過早。不過同樣把 AI 用於分子合成的 Wender 認為，AI 的功用並不局限於合成已知分子，在探索未知分子合成方法的研究中它也會「產生深遠的影響」。Segler 補充說，AI 不會在短期內替代有機化學家，因為除了預測化學反應將如何進展，化學家還可以做更多。AI 好比是化學的 GPS 導航系統，擅長發現一條路線，但憑它自己的力量，還沒有能力設計分子，並完成全套合成工藝。

當然，AI開發者同時也在關注其它課題。—Robert F. Service

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 科研圈 的精彩文章:

※實至名歸！引力波探測獲諾貝爾物理學獎
※在一個『被遺忘的實驗』中，生物學家們發起了預印本革命——而這發生在50年前！
※諾貝爾生理學或醫學獎剛剛出爐！三位美國科學家因「生物鐘」研究獲獎
※如果這些交通工具上了路，我們還會經受堵車的煩惱嗎？
※2000 份國慶大禮免費送，小米檯燈、凌美簽字筆等你認領

TAG:科研圈 |