AI已經進化到幾小時就能發現元素周期表，還能創造所有漢字！

斯坦福AI幾小時發現元素周期表，張首晟團隊將設計替代圖靈測試的新標準

元素周期表可以說是化學歷史上最重要的科學成就，人類科學家們經過將近一個世紀的摸索和嘗試來把元素周期表整理成當前的形式；而一個來自斯坦福的物理學家們的人工智慧程序只需要幾個小時。

這個程序叫Atom2Vec（從原子到矢量）。它能夠分析從網路資料庫得到的不同元素組合而成的化合物名稱來學習區分不同的原子，整個過程是獨立無監督的，並沒有人類智能的參與。這個程序的開發借用了自然語言處理中的簡單概念：一個詞語的特性是可以從它周圍出現的其他單詞來得出的；把化學元素根據它們所出的化學環境聚類。

項目的負責斯坦福人文與科學學院J. G. Jackson and C. J. Wood

教授張首晟說：「我們想知道是否一個人工智慧可以智慧到獨立發現元素周期表，我們的團隊證明了這一點。」

借鑒NLP概念搭配化合物中的原子，Atom2Vec將來可用於發現和設計新材料

張教授和他的團隊對於Atom2Vec的開發基於谷歌工程師們分析自然語言使用的Word2Vec。這是一個可以把單詞濃縮成為電腦中有限的幾個數字（矢量）。通過分析這些矢量，這個人工智慧程序可以估計在這個單詞周圍可能出現哪些其他單詞，他們的概率是多少，之間的組合關係如何。

例如，單詞「國王」經常和「王后」出現在一起，而「男人」經常和「女人」出現在一起。因此，Word2Vec分析出的代表「國王」的矢量可以跟代表「王后」，「男人」和「女人」的矢量有如下簡單的關係：「國王」＝「王后」－「女人」＋「男人」。

張教授指出，「我們可以把類似的想法用到原子上，就像輸入給谷歌的Word2Vec很多文本里不同單片語成的句子，我們可以輸入給我們的Atom2Vec不同原子組成的化合物，就像NaCl（氯化鈉）, KCl（氯化鉀）, H2O（水）等等。」

從這些數據的分析中，人工智慧程序可以發現鉀和鈉有著類似的性質，因為它們都可以跟鹵素結合成化合物，張教授說，「就像國王和王后很類似一樣，鉀和鈉也是類似的。」

Atom2Vec工作流學習材料資料庫中的原子。對材料資料庫中的每一種化合物生成原子-環境對，在此基礎上構造原子-環境矩陣。這裡使用一個包含7個化合物的小數據集作為示例。原子-環境矩陣的條目表示原子-環境對的數量。插圖顯示化合物的單元中和對應於目標原子Bi和環境(2)Se3的條目。只考慮成分信息，而忽略結構信息。Atom2Vec學習演算法從原子環境矩陣中提取原子的知識，並對原子向量中學習的屬性進行編碼。

張教授希望在未來，科學家們可以使用Atom2Vec的知識來發現和設計新材料，「在這個項目里，我們的程序是無監督的，但是你可以給它一個特定的目標去優化，例如，找到最有效率轉換太陽能的材料。」

張教授的團隊已經開始團隊人工智慧程序2.0版本的研究，集中攻克一個生物醫學上很困難的問題：設計出正確可以攻擊抗原的抗體，通常來講，抗體是由免疫機制生成的。這對於癌症的研究極其重要，當前最有前景的治療癌症方案之一——免疫治療，就試圖找到並且控制能夠攻擊癌細胞抗原的抗體。

然而人類身體可以創造超過1000萬種不同的抗體，每一種都是大約50個基因的一種不同組合，「如果我們可以把這些基因數據里的信息濃縮到一個數學矢量里去，像排列元素周期表一樣排列它們，那麼，如果我們發現其中一種抗體對一個抗原有效然而有毒，我們可以從我們的表中接著尋找它同類的但毒性更小的抗體。」

更宏大的目標：設計出替代圖靈檢驗的新標準

張首晟表示，這項發表於6月25日美國國家科學院院刊的研究將是實現更宏大的目標之前的重要的第一步。更宏大的目標是設計出替代作為機器智能標準的圖靈檢驗的新標準。

圖靈檢驗裡面，一個機器如果可以和人類一樣回複檢驗者的問題，讓檢驗者無法區分其是否是人類，就可以通過檢驗。但張教授認為，這種檢驗是有瑕疵的，主觀的，「人類是一個漫長進化的結果，人類的心智里充滿了種種不理性的因素，如果一個人工智慧要通過圖靈檢驗，它需要能夠重複這些人類複雜的非理性的一面，這是非常困難而瑣碎的，因此並不能夠有效利用程序設計者的時間創造價值。」

張教授提出，對於一個機器智能可以有另一種標準，「我們想試試我們是否可以設計出在發現自然規律上可以擊敗人類的人工智慧，但是在此之前，我們要先測試我們的人工智慧是否可以重複人類已經完成的一些偉大發現。而Atom2Vec獨立發現元素周期表就是後者的一個成果」。

小編向張首晟教授提問：如果AI發現了自然規律，我們怎麼知道那就是事實呢？張首晟教授認為，實驗是檢驗規律的唯一標準，人類可以通過實驗來認證人工智慧做出的理論預言。

張首晟教授還認為，純理性的標準才是客觀的，人機競智的標準一定要客觀才行。

此外，這個項目中其他的參與者有，斯坦福的博士生周權和劉慎修，博士後湯沛哲等。

論文地址：

因為我們都是中國人，從小看著漢字、寫著漢字長大，所以已經忘記了漢字本身是一件多麼困難的事情。

是的，漢字基本的筆畫就只有點橫撇捺等幾種，但是，中國文字從甲骨文、金文、篆書、隸書一路走來，不同程度存在難寫難認的缺陷。就算只是一個「點」，在不同的字裡面，這個點的大小和方向也是各不相同。因此，對於漢字設計師來說，可是要了老命。

調查記者 Nikhil Sonnad 曾經在 QZ 發表過一篇文章，詳細講述了設計一個漢字字體漫長艱苦而又令人沉迷的過程。其中有這樣一個例子，展示了言字旁在不同的文字中擁有不同的大小和方向：

言字旁在不同的文字中擁有不同的大小和方向。來源：QZ

Nikhil Sonnad 在那篇文章中指出，一位經驗豐富的設計師可以在6個月的時間裡設計一種涵蓋幾十種西方語言的新字體。但是，對於單個中文字體，至少需要一個好幾人的設計師團隊兩年以上的時間。

有沒有什麼好的方法能夠解決這個問題？

作為讀者，或許有人已經猜到我們接下來會說什麼。是的，還是神經網路。

谷歌大腦東京分部的研究人員hardmaru，使用神經網路生成漢字，但他與眾不同的地方在於，由於提供給神經網路的數據是「筆畫」，因此生成的是所有理論上可以存在，但現實中並沒有在使用的漢字。

GIF

或許你要說，這樣做有什麼用，但仔細看就能發現作者這樣做在理論和實際上的意義。

漢字這個系統本質上是開放的。使用可用的元素（偏旁部首、筆畫等等），可以製作出無數個不同的字元。雖然代碼目前還不能很準確地定位筆畫的位置，但hardmaru實驗中的一些結果，看起來非常像真實存在的漢字。

認識一個字不一定寫得出，但寫得出就一定認識它

在一篇介紹他的這項工作的博客中，hardmaru表示，他從小也被父母硬逼著去學漢字，雖然他周圍的人大多說英語。老師教他寫漢字的過程就是抄寫聽寫抄寫聽寫的不斷循環，就好像LSTM根據訓練樣本輸出序列結果一樣。

另一方面，他也注意到，「寫」漢字和「讀」漢字是兩個非常不同的過程。你認識一個字（能夠閱讀或者發出讀音），但不一定寫得出來；但是，如果你能寫出一個漢字，你一定知道它的發音。現在，人們越來越多的依賴基於發音的輸入法來「寫」漢字，當真正提筆寫字的時候，常常會出現忘記怎麼寫的情況。

在一定程度上，機器學習的過程也一樣，最初都是從簡單的分類問題開始：判斷輸入的圖像是貓還是狗，交易是真實的還是是欺詐……這些任務非常有用。但是，hardmaru認為，更有趣的任務是生成數據，在hardmaru看來，生成數據是數據分類的延伸和擴展。相比能夠認出某個漢字，能夠把這個漢字寫出來表明我們對這個漢字有更多的理解。同理，生成內容也是理解內容的關鍵。

生成對抗網路（GAN）在生成數據方面有著優異的表現，機器翻譯也算是一類生成數據的例子。但hardmaru想生成的是矢量數據。因為他認為很多內容都更適合用矢量的形式來表達，比如用數碼筆畫的素描、CAD設計、科學實驗數據等等。

字體和筆畫也更適合用矢量來表示。精心設計的TrueType字體，不管大小，顯示出來都很美麗。

用 Sketch-RNN 新造一本《新華字典》

接下來，我們將介紹hardmaru如何使用RNN生成矢量格式的手寫體漢字。漢字以矢量保存（SVG格式）。

hardmaru實現的是一個生成「新造」漢字的網路sketch-rnn，與Graves手寫體生成模型框架（見下）類似。

用於訓練的數據是真實的漢字，並且包含了筆畫順序。因此，神經網路生成的漢字看上去也是按照一定程度上合理的筆畫順序來的。

訓練數據樣本，不同的顏色代表了筆畫順序，來源於KanjiVG數據集

在sketch-rnn中，每一筆都用類似筆畫的數據建模，其中每一步數據都包含x和y軸的偏移量，以及這一筆是落在紙上還是沒有落在紙上，如果落在紙上，那麼上一筆和這一筆之間就會有連線。神經網路必須為下一步提供概率分布。這個概率分布不是離散的，而是連續分配x軸和y軸上的偏移量，以及筆在下一步在紙上抬起的概率（也即筆畫結束的概率）。sketch-rnn使用混合高斯分布來估算下一筆的位移。這個用來生成筆跡的方法叫做混合密度網路（Mixture Density Networks，MDN）。

以上是使用混合高斯密度來生成漢字筆劃的一個例子。黑點代表在寫字過程中連起來的線，LSTM + MDN演算法將持續估計下一個點出現位置的概率分布。這個分布被建模成混合高斯分布。這意味著下一個位置是許多不同位置的混合（深淺不同的紅色橢圓），並且每個位置本身都是x軸和y軸偏移的二維聯合高斯分布，每個偏移都有自己的位置2×2協方差矩陣。

MDN軌跡展示

除了筆劃的位置分布和結束概率之外，還需要對寫完整個漢字的概率進行建模，也即結束字元「end-of-char」概率。但是，每個筆畫完結的概率跟整個漢字完結的概率有一定重複，hardmaru 花了不少功夫嘗試對上述兩個信號（筆劃完結概率、字元完結概率）建模。最終，他通過神經網路中的softmax層將筆的狀態建模為一組離散的狀態。筆的狀態分為三種：筆畫結束、字元結束、落筆。模型會計算每一步三種狀態的概率。

LSTM+MDN基本上是LSTM+Softmax的擴展，hardmaru以後想嘗試更強大的方法。GAN（生成對抗網路）也許能應用到循環網路上，但他預計訓練LSTM GAN會非常困難。

除了上面展示的各種例子，這是已有的一些有趣的結果，hardmaru自己做了「注釋」：