高度關註:人工智慧對材料、化學、物理等基礎科研的深刻影響
未來,基礎科研領域的發展將構築於數據與人工智慧的基礎之上。對此,我應該抓住AI 2.0時代的發展契機,積極構建基礎科研資料庫,高效利用人工智慧技術,搶佔技術創新高地,實現材料、化學、物理等基礎科研領域的「彎道超車」。
材料、化學、物理等基礎科研領域的研究過程中充滿了「大數據」,從設計、實驗、測試到證明等環節,科學家們都離不開數據的搜集、選擇和分析。人工智慧技術(機器學習演算法)擅長在海量數據中尋找「隱藏」的因果關係,可用於解決基礎科研中的種種問題,因此得到了科研工作者的廣泛關注。
近兩年,人工智慧在材料、化學、物理等領域的研究上展現出巨大優勢,正在引領基礎科研的「後現代化」。在AI2.0時代,把握人工智慧技術不僅意味著科研效率的提升,更意味著科研「彎道超車」機遇的到來。
一、人工智慧如何影響材料、化學、物理等基礎科研?
2016年,谷歌AlphaGo的橫空出世,將世人的焦點吸引到了人工智慧領域。短短兩年時間,人工智慧技術在商業領域獲得了空前的成功。語音識別、圖像識別、無人駕駛、智慧金融等領域,無一不在影響著人們的生活。
但不為大眾所關注的是,人工智慧技術在科研領域也掀起了巨大的「波瀾」。本文以2018年Phys.org網站(物理學家組織網)和頂級期刊上的文章為基礎,向大家介紹人智能在材料、化學、物理等領域如何產生作用。
(一)新材料領域
2018年7月,Keith Butler等人在《Nature》期刊上發表題為「分子和材料研究用的機器學習」的文章,對人工智慧技術在材料、化學中的作用進行了綜述。
文章認為,計算化學/材料學的研究流程已經更迭至第三代。第一代是「結構-性能」計算,主要利用局部優化演算法從結構預測出性能;第二代為「晶體結構預測」,主要利用全局優化演算法從元素組成預測出結構與性能;第三代為「統計驅動的設計」,主要利用機器學習演算法從物理、化學數據預測出元素組成、結構和性能。
其中,機器學習主要分為四個步驟:一是數據搜集,包括從實驗、模擬和資料庫中獲取;二是數據選擇,包括格式優化、噪點消除和特徵提取;三是機器學習方法選擇,包括監督學習、半監督學習和無監督學習;四是模型選擇,包括交叉驗證、集成和異常檢測。
在實際的新材料研發中,人工智慧技術已經在文獻數據獲取、性能預測、測試結果分析等各環節展現出巨大優勢:
2018年1月,美國加州大學和馬薩諸塞大學的研究人員合作開發人工智慧平台,可自動分析材料科學研究文獻,並可根據文本中提及的合成溫度、時間、設備名稱、製備條件及目標材料等關鍵詞進行自動分類。結果表明,該平台識別文章段落的準確度為99%,標註關鍵詞的準確度為86%。(發表於《MRSBulletin》)
2018年6月,美國斯坦福大學的物理學家開發了一種新型的非監督人工智慧程序「Atom2Vec」。該程序只用幾個小時,就「重新發現」了元素周期表。Atom2Vec是非監督型人工智慧,未來科學家們可以通過給它設定目標,引導其尋找新材料。(發表於《美國國家科學院學報》)
2018年9月,東京大學利用理論計算方法建立了與原子結構相匹配的光譜資料庫,並利用層聚類和決策樹兩種機器學習方法,對光譜大數據進行解釋和預測。結果表明,該方法可成功應用於複雜光譜的解釋,以及材料光譜特徵的預測。(發表於《Scientific Reports》)
(二)化學領域
2018年3月,上海大學Mark Waller團隊在《Nature》期刊上發表題為「利用深度神經網路和符號AI規劃化學合成」的文章,引發了業內的廣泛關注。
研究團隊首先收集了截止到2014年發表過的幾乎所有的化學反應,加起來大約有1250萬個反應。然後,研究團隊應用深度神經網路及蒙特卡洛樹演算法,成功地規划了新的化學合成路線,即便是權威的合成化學專家,也無法區分這款軟體與人類化學家之間的區別。
與兩種傳統的合成方法相比(紅色和綠色),使用新型人工智慧技術(藍色)在較短時間內可以完成更多分子的合成路線預測。該研究是人工智慧在化學合成領域的重大突破,Mark Waller也被媒體譽為「化學AlphaGo」的先驅。
「化學AlphaGo」僅是人工智慧用於化學領域眾多案例中的一個。近年來,人工智慧、機器學習、深度學習在合成化學、藥物化學等領域不斷產生新應用,其熱度變得越來越高,有望為化學領域帶來革命性的變化。
2018年7月,英國格拉斯哥大學研究人員採用機器學習演算法,開發出可預測化學反應的有機化學合成機器人。在學習了100種(10%)化學反應後,該智能機器人能夠以80%的準確度預測出其他化學反應,並且還能夠預測出人類未知的新型化學反應。(發表於《Nature》)
2018年7月,美國北卡羅來納大學開發名為「結構演化的機器學習」(ReLeaSE)的人工智慧系統,其包括兩個神經網路,可學習170萬個已知生物活性分子化學結構,並隨時間推移推測出新型藥物分子。(發表於《Science Advances》)
2018年7月,美國萊斯大學和賓夕法尼亞州立大學的研究人員合作,利用機器學習技術和量子化學模擬改善催化劑的設計,可大幅節約時間與成本。利用量子化學模擬,研究人員可以創建出包含各類催化劑屬性的資料庫;機器學習技術可快速搜索資料庫中隱藏的模式,幫助研究人員設計更便宜、更高效的催化劑。(發表於《Natural Catalysis》)
(三)物理領域
2018年8月,美國能源部斯坦福直線加速器中心和費米國家加速器實驗室的研究人員合作,在《Nature》期刊上發表題為「在粒子物理學的能量和強度邊界應用機器學習」的文章,總結了在粒子物理學的前沿使用機器學習所帶來的機遇和挑戰。
歐洲核子研究中心(CERN)的大型強子對撞機(LHC)是目前世界上最大的粒子加速器,其每秒可產生一百萬吉位元組(GB)的數據。如此海量的數據,給存儲和分析帶來了極大難題。研究人員利用專用的硬體和軟體,通過機器學習技術來實時決定哪些數據需要保存,哪些數據可以丟棄。結果表明,機器學習演算法可以至少做出其中70%的決定,大大減少了人類科學家的工作量。
近期人工智慧在物理學領域的應用,除大型強子對撞機的數據分析外,還包括以下幾方面:
2018年9月,美國勞倫斯伯克利國家實驗室的科研人員與英特爾、克雷公司的工程師合作,利用深度學習技術開發出物理科學應用程序CosmoFlow,可用於處理大型三維宇宙學數據集。(發表於arxiv.org)
2018年9月,美國加州大學伯克利分校Breakthrough Listen項目的研究人員利用機器學習基礎,從距離地球約30億光年的光源中發現了72個新的宇宙無線電爆發。(發表於《The Astrophysical Journal》)
二、人工智慧在基礎科研領域中扮演什麼角色?
材料、化學、物理等基礎科研領域的發展,是大國科技競爭力的重要保證,其直接決定了社會各方面進步的步伐,重要性不言而喻。在AI 2.0時代,如何利用大數據挖掘和人工智慧技術為基礎科研領域賦能,成為了基礎科學實現「彎道超車」的重要命題。
(一)傳統科研模式需要進一步革新
2007年,圖靈獎得主Jim Gray在NRC-CSTB大會上提出了科學研究的四類範式:經驗科學(實驗科學)是第一範式,在研究方法上以歸納為主,帶有較多盲目性的觀測和實驗;理論科學是第二範式,偏重理論總結和理性概括,在研究方法上以演繹法為主;計算科學是第三範式,主要根據現有理論的模擬模擬計算,再進行少量的實驗驗證;數據密集型科學即第四範式,它以大量數據為前提,運用機器學習、數據挖掘技術,可從大量已知數據中得到未知理論。
以材料科學為例,當前普遍採用的基礎科研模式主要以第一、二範式為主,第三範式為輔。在實際科研工作中,傳統模式帶來的問題主要有:一是重複性勞動過多,新材料研發環節中變數多,「試錯法型」的實驗量繁雜;二是「失敗實驗」的數據遭拋棄,海量數據沉默,無法被人有效利用;三是耗時太長,以航空渦輪發動機為例,單晶高溫合金葉片的研製周期往往長達10年以上。
隨著互聯網時代的發展,數據傳播、分享的門檻大大降低,而計算機硬體計算能力的提升又令大數據的計算分析成為可能,從而催生了科學第四範式。隨著第四範式的誕生,所能解決的科學問題的複雜度進一步提升,勢必會給材料、化學、物理等基礎科研領域帶來效率和效果的極大提升。基礎科研領域擁抱第四範式,已經成為必然的趨勢。
(二)人工智慧如何支撐基礎科研領域發展?
在AI 2.0時代,數據是最核心的資源,也是實踐基礎科研領域第四範式的基礎。當前,不同科學領域資料庫的建設,已經受到各國的高度重視。例如,美國國立衛生研究院的生物基因序列庫GenBank迄今已收錄超過2億條基因序列,並正以大約每18個月翻一番的速度增長;美國國家標準技術院Materials Data Facility收集的數據量已達到12.5TB;日本物質·材料研究機構建設的MatNavi資料庫是關於高分子、陶瓷、合金、超導材料、複合材料和擴散的世界上最大的資料庫之一。
21世紀以來,「材料基因組」、「化學基因組」和各類物理學資料庫的建設正加速進行。在人工智慧演算法和計算機硬體不斷進步的背景下,「數據挖掘+人工智慧分析」已經成為基礎科研領域快速發展的重要驅動力:
人工智慧變革科研數據的搜集、獲取方式。利用人工智慧語義分析技術,科研論文中的數據將更易搜集和獲取,解決了人工搜集科研數據效率低的問題。
人工智慧變革科研數據的分析方式與效率。利用深度神經網路及其他機器學習技術,科學家們將可從海量的結構化數據中高效獲得隱藏的因果關係,從而大幅提升數據分析效率。
未來,基礎科研領域的發展將構築於數據與人工智慧的基礎之上。對此,我應該抓住AI 2.0時代的發展契機,積極構建基礎科研資料庫,高效利用人工智慧技術,搶佔技術創新高地,實現材料、化學、物理等基礎科研領域的「彎道超車」。
作者丨宮學源
※引進還是本地化,工業互聯網面臨選擇
※中美研發創新支持政策比較及建議
TAG:全球技術地圖 |