Science：機器學習成功挑戰交叉偶聯反應

最新 03-09

科學家們很早就可以利用計算機來幫助探索化學世界，發現新的合成途徑並預測反應結果。然而，產率預測軟體卻經常出錯，這是因為多年來許多組織收集的數據往往和實際不一致、不完整。比如，那些不起作用的反應通常不會被記錄。現在可以通過一個計算機程序準確預測交叉偶聯反應產率。該演算法的關鍵在於訓練用數據是從數千個小規模反應中提煉得到。「這只是邁出一小步，最終的目標是能夠在沒有實驗的情況下預測新底物的反應性能。」普林斯頓大學的Abigail Doyle解釋道，她與默克公司的Spencer Dreher一起領導了這項工作。

這個科研團隊創建了一個定製的資料庫，其中包含近5000個Buchwald-Hartwig偶聯反應——這是一種鈀催化的反應，可以在碳和氮之間形成一個鍵。將異惡唑（一種已知抑制交叉偶聯的雜環）加入到每個反應中。儘管增加了難度，但普林斯頓—默克團隊使用這些數據對演算法進行訓練最終可以在小幅度的誤差里正確預測產率，接近實驗結果。

將來自5000次交叉偶聯實驗的數據輸入程序後，能夠預測此類反應的產率

（來源：Science）

由於進行5000次實驗對於人類化學家而言，需要花費數月甚至數年時間，於是Doyle和Dreher使用了默克的高通量實驗平台，可以在一天之內執行1500個納摩爾級反應。隨後用隨機森林演算法（Random Forest Algorithm）預測3000個反應的結果以及計算的每種試劑的計算參數，例如HOMO和LUMO能量。森林演算法通過構建決策樹來學習。對於每個問題，該程序添加一個新的分支。輸出是成千上萬的決策樹的平均值。為了檢測演算法的預測準確性，團隊進行了230次實驗。儘管預測結果並非與實際實驗結果完全吻合，但是誤差只在較小的範圍里浮動。

然而，找出演算法預測背後的推理過程仍然具有挑戰性。正如作者所言，模型可能很難解釋。儘管這種「黑匣子」方法的推理結果頗為喜人，但是如果不能夠了解其背後的原理，會對演算法預測結果的可信度大打折扣。這篇論文反映的重要信息是，假設有足夠的預測因子，反應產率的預測是可行的。該團隊將繼續訓練他們的演算法處理更多結構複雜的化合物。在之前的研究中，底物都是平面結構，將來會把底物換成三維結構，這樣的差異會帶來額外的挑戰，而應用前景會更加廣闊。

通訊作者：

Abigail G. Doyle

Spencer D. Dreher

論文鏈接：

http://science.sciencemag.org/content/early/2018/02/14/science.aar5169

了解更多最全、最新論文快訊

登錄CBG官網（www.chembeango.com）

下載ChemBeanGo APP

CBG資訊∣知識就是力量

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！