Nature論文預測餘震只是炒作？數據科學家歷時半年揪出漏洞

新聞 06-26

機器之心報道

參與：張倩、shooting

「《nature》、《Science》等或許是最負盛名的期刊，但其學術態度未必是最嚴謹的。」

最近，四川宜賓、雲南楚雄接連發生地震，再次掀起人們對地震的恐慌。預測地震自古以來都是地震科學工作者的奮鬥目標。在深度學習如此火爆的今天，人們不禁想到，強大的深度學習能否用於地震預測？

去年 8 月，《Nature》上發表了一篇題為《Deep learning of aftershock patterns following large earthquakes》的火爆論文。該論文由哈佛和谷歌的數據科學家聯合撰寫，論文一作所屬單位是哈佛大學地球與行星科學系。

該論文展示了如何利用深度學習技術預測餘震。研究者指出，他們利用神經網路在預測餘震位置方面的準確率超越了傳統方法。

但很快，這一方法就遭到了深度學習從業者的質疑。一位名叫 Rajiv Shah 的數據科學家表示，論文中使用的建模方法存在一些根本性的問題，因此實驗結果的準確性也有待考究。這名數據科學家本著嚴謹的精神在通過實驗驗證之後聯繫了原作和《Nature》，卻沒得到什麼積極的回復。

於是，Rajiv Shah 在 medium 上寫了一篇博客揭露論文中存在的根本性缺陷以及《Nature》的不作為，後來這件事又在 Reddit 上引起了廣泛的討論。下面我們回顧一下事件的始末。

文章有點長，目錄預覽：

《Nature》原論文介紹
Rajiv Shah 博客揭露問題
論文作者的回復
Reddit 熱評精選

谷歌&哈佛團隊利用深度學習預測餘震，準確率空前

Nature論文預測餘震只是炒作？數據科學家歷時半年揪出漏洞

這篇名為《Deep learning of aftershock patterns following large earthquakes》的論文展示了如何利用深度學習技術預測餘震。

論文指出，解釋和預測餘震的空間分布非常困難。庫侖破裂應力變化可能是解釋餘震空間分布最常用的判據，但其適用性一直存在爭議。於是，研究者使用了深度學習方法來確定一種基於靜態應力的準則，該準則無需提前假設破壞的方向就能預測餘震的位置。

研究者在超過 131,000 個主震-餘震對上訓練了一個神經網路，然後在一個包含 30000 多個主震-餘震對的獨立測試集上測試其預測餘震位置的準確率。

研究者利用 ROC 曲線來衡量神經網路預測餘震位置在測試數據集上的準確率。為了構建這些曲線，他們繪製了一個二元分類器的真陽性率與該分類器所有可能閾值的假陽性率。ROC 的曲線下面積用來度量模型在所有閾值下的測試性能（如圖 1 所示）。

Nature論文預測餘震只是炒作？數據科學家歷時半年揪出漏洞

圖 1：主震-餘震對示例

下圖 2 的測試結果表明，神經網路預測餘震位置的準確率（AUC 為 0.849）高於經典的庫侖破裂應力變化（AUC 為 0.583）。

Nature論文預測餘震只是炒作？數據科學家歷時半年揪出漏洞

圖 2：模型性能比較。

論文鏈接：https://www.nature.com/articles/s41586-018-0438-y

論文全文：https://sci-hub.tw/https://www.nature.com/articles/s41586-018-0438-y

Rajiv Shah 博客揭露論文根本缺陷

以下是 Rajiv Shah 題為《Stand Up for Best Practices: Misuse of Deep Learning in Nature』s Earthquake Aftershock Paper》的博客內容。

機器學習炒作的危害

AI、深度學習、預測建模、數據科學等方面的從業者數量在過去的幾年裡急劇增長。這個混合了多種知識且曾被認為有利可圖的領域正在成為一個快速發展的行業。隨著人們對 AI 的熱情持續高漲，機器學習增強、自動化和 GUI 工具的浪潮將促進預測模型構建者人數的持續增長。

但問題是，儘管使用預測模型的工具變得越發簡單，但預測建模所需的知識還不是一種大眾化的商品。錯誤可能是違反直覺且微妙的，你一不小心就會得出錯誤的結論。

我是一名數據科學家，與數十位數據科學專家共事，每天目睹這些團隊努力構建高質量模型。最好的團隊通力合作，檢查他們的模型以找出問題。有很多問題可能難以被檢測到，這樣就會得到有問題的模型。

挑毛病的過程一點也不好玩，需要承認那些振奮人心的結果「好得不真實」，或者他們的方法不是正確的方法。換句話說，這是一門嚴謹的學科，與那些登上頭條的性感數據科學炒作沒多大關係。

糟糕的方法得到糟糕的結果

大約在一年前，我讀到了《Nature》上的一篇論文，論文作者聲稱他們利用深度學習預測餘震達到了前所未有的準確率。讀過之後，我對他們的結果產生了深深的懷疑。他們的方法根本不具備一個嚴謹預測模型的諸多特徵。

因此我開始深挖。與此同時，這篇論文成了爆款，而且得到了廣泛認可，甚至出現在 TensorFlow 的版本更新公告中，用於說明深度學習的應用。

然而，我在深挖過程中發現了論文的重大缺陷，即導致不真實準確率得分的數據泄漏（data leakage）以及模型選擇（當一個較為簡單的模型可以提供相同水平的準確率時，完全不必構建一個 6 層的網路）。

Nature論文預測餘震只是炒作？數據科學家歷時半年揪出漏洞

測試集的 AUC 比訓練集高得多……這不正常。

如上所述，這些都是很微小但卻非常基礎的預測模型錯誤，可能導致整個實驗結果無效。數據科學家在工作中會學著識別並避免此類問題。我認為作者只是忽視了這一點，因此我與她取得了聯繫，以告知她這些問題來提高分析結果。但她沒有回復我的郵件。

他們充耳不聞，我不能

那麼我接下來該做什麼呢？我的同事建議我發篇 twitter 就算了，但我想站出來，為那些好的建模實踐發聲。我認為理性的推理和良好的實踐會比較有說服力，因此我開始了一場為期六個月的研究，並寫下我的結果分享給《Nature》。

分享了我的結果之後，我在 2019 年 1 月收到了《Nature》的一份通知，稱雖然擔心數據泄漏和建模選擇可能會使實驗無效，但他們認為沒必要糾正錯誤，因為「Devries 等人的主要目的是將機器學習作為一種工具來深入了解自然界，而不是設計演算法的細節。」而作者給出了更嚴厲的回應。

僅僅用「失望」來表達我的感受是遠遠不夠的。這可是一篇重要論文（《Nature》發的！），這助長了 AI 的炒作之風，尤其是在其使用了有缺陷的方法之後還是得到了發表。

就在這周，我偶然看到了 Arnaud Mignan 和 Marco Broccardo 發表的關於這篇餘震預測論文的文章。這兩位數據科學家也注意到了論文中的缺陷。

Arnaud Mignan 和 Marco Broccardo 的論文：A Deeper Look into 『Deep Learning of Aftershock Patterns Following Large Earthquakes』: Illustrating First Principles in Neural Network Physical Interpretability

論文鏈接：https://link.springer.com/chapter/10.1007/978-3-030-20521-8_1

我把我的分析和可復現代碼貼在了 GitHub 上。

GitHub 鏈接：https://github.com/rajshah4/aftershocks_issues

Nature論文預測餘震只是炒作？數據科學家歷時半年揪出漏洞

你可以親自運行分析，看看問題所在

支持預測建模方法，但論文存在根本缺陷

我想說清楚的一點是：我的目的並不是詆毀餘震預測論文的作者。我相信他們不是惡意的，我覺得他們的目標可能只是想展示機器學習如何應用於餘震。Devries 是一位有成就的地震科學家，她只是想在自己的研究領域中使用最新的方法，並從中發現了令人興奮的結果。

但問題是：他們的見解和結果是基於有根本缺陷的方法。「這不是一篇機器學習論文，而是關於地震的論文。」這樣評價是不夠的。如果你使用預測建模方法，那結果的質量是由建模質量決定的。如果你做的是數據科學工作，那你的科學嚴謹性岌岌可危。

在這個領域，人們對使用最新技術和方法的論文有著極大的興趣。而一旦有問題，收回這些論文又比較困難。

但如果我們允許有基本問題的論文或項目繼續推進，那會對所有人都不利。它破壞了預測建模領域。

請反對不好的數據科學，公布那些糟糕的發現。如果他們不行動，那就去推特發帖子，公布你發現的結果，讓大家能夠知道。如果我們希望機器學習領域繼續發展並保持信譽，那我們需要的是良好的實踐。

論文作者回應

上文中，Rajiv Shah 對論文作者的回應僅用了一個詞：嚴厲。而 Reddit 網友發現，作者的回復可以說是很不客氣了。在下面這篇寫給《Nature》編輯的回復中，論文作者在最後一段甚至這麼表述：「我們是地震科學家，你是誰？」

Nature論文預測餘震只是炒作？數據科學家歷時半年揪出漏洞

以下是作者回復原文：

我們很高興人們下載我們的數據並運行代碼。但這些具體的評論並不值得在《Nature》上發表。他們並不了解這個領域；事實上，這些觀點要麼是錯的，要麼是完全忽略了科學的要點，同時又想方設法讓自己的觀點處於一種居高臨下的地位。

總之，這些評論可以分為三點：1）「數據泄漏」的想法可能會誇大結果；2）隨機森林方法的表現類似於神經網路；3）我們學習的是一個簡單的信號。下面，我們將依次解決這幾個問題。

1）對「數據泄漏」誇大結果的擔憂在科學背景下毫無意義。如論文中所說的，我們根據不同的主震隨機劃分訓練/測試數據集，並根據簡單、固定的 time-window 方法選擇餘震。

評論者正確地指出，這種方法意味著在一些訓練/測試樣本中，會出現主震 B 被包含在主震 A 的餘震序列中的情況。如果斷章取義地來看，這似乎會誇大結果。但如果你考慮了具體的科學方法，就會發現根本不是這樣的。

例如，假設主震 A 被分配到訓練數據集，主震 B 被分配到測試數據集，但主震 B 被包括在主震 A 的餘震中。神經網路會在主震 A 的餘震序列上接受部分訓練（使用主震 A 引起的應力變化作為輸入）。由於主震 B 包含在主震 A 的餘震中，網路可能會在一些相同的餘震上進行測試，但使用主震 B 引起的應力變化作為輸入。

網路把建模的應力變化映射至餘震，這種映射對於訓練數據集和測試數據集中的樣本來說是完全不同的，儘管它們在地理上重疊。訓練數據集中沒有任何信息會幫助網路在測試數據集中表現良好，相反，測試數據集會要求網路解釋它在訓練數據集中見過的相同餘震，但這些餘震的主震不同。如果主震相似，的確會損害網路在測試數據集上的性能。

由於這種「數據泄漏」，評論者稱我們誇大了神經網路的性能。如上所述，我們隨機將數據分成訓練集和測試集，並早早地留出了測試數據集。這是一種標準的方法。在最後的評估中，最大剪應力變化、米塞斯屈服準則（von-Mises yield criterion）和神經網路在測試數據集上都表現相似（AUC 得分為 0.85）。

神經網路的良好性能、最大剪應力變化和米塞斯屈服準則是本論文的中心結果之一。神經網路有可能在地震觸發中發揮作用。迄今為止，最大剪應力變化和米塞斯屈服準則尚未在地震觸發文獻中廣泛使用。

2）評論者說這篇論文會「給人一種誤解，即只有深度學習能夠學習餘震」。在論文中，我們使用神經網路作為工具來深入了解餘震模式；但我們並沒有認為其它機器學習方法是無用的。

神經網路和隨機森林通常在淺顯或不可感知的機器學習任務上表現相似。這並不奇怪。論文中有一個深刻的結果：神經網路學到了一個與簡單的基於物理的應力量高度相關的位置預測。就算另一種機器學習方法也可以提供這些見解，也不能否認這個結果。這就好像在說「我們在用鉛筆而不是鋼筆寫著同樣的內容」，科學還沒有進步。

3）神經網路學習一個簡單的模式是論文的要點。神經網路學習了一個與非常簡單卻很少使用的量高度相關的模式——最大剪應力和偏應力張量的第二個不變式。如上所述，我們在論文中對此進行了大量討論，因為這就是論文的要點。

評論者沒有專業背景。我們是地震科學家，我們的目標是使用深度學習方法來深入了解餘震位置模式。我們實現了這一目標，但那些評論者沒有，如果《Nature》選擇發表那些評論，我們將會非常失望。

Reddit 熱評精選

在 Rajiv Shah 發表自己的分析結果之後，一位網友將此事發到了 reddit 平台上，引發了眾多討論。

Nature論文預測餘震只是炒作？數據科學家歷時半年揪出漏洞

熱評 1：相比評論者（Rajiv）的言論，作者的回復更居高臨下。

評論者認為更簡單的方法可以達到差不多的效果，強調了進行適當控制變數實驗的必要性。作者回復的最後一段基本上在說「我們是地震科學家，你是誰？」，並告訴《Nature》如果發表這些評論他們會很失望。

為什麼評論者的這些擔憂不值得在《Nature》上發表？為什麼這些評論要被限制？發表它們不是會促進更健康的科學討論嗎？如果我在為機器學習大會審查這篇論文，我也會有類似的擔憂。至少需要一些控制變數實驗吧。

熱評 2：論文的論點有些奇怪，Rajiv 的批評可以更具體

個人認為，Rajiv 犯的一個錯誤是指出更簡單的模型可以做同樣的工作，這讓他的批評焦點變得不明確。這個問題並不會使論文無效，它更適合單獨寫一篇文章來討論，就像 Mignan 和 Broccardo 所做的那樣。

不過，在作者的回復中，論文的論點有些令人困惑：他們的論點似乎是「剪應力的最大變化和米塞斯屈服準則是有用的量，因為神經網路得出的準確率與它們相同」。如果這些基於非機器學方法的 AUC 分數只能相對於神經網路來解釋，那準確地實現神經網路非常重要。

總之，我認為 Rajiv 最好這麼做：1）明確指出對該研究應做的修改，例如更新 AUC 分數並在論文中解釋方差值；2）寫下他更廣泛的評論並發表在 arXiv 或類似的網站上。

btw，我的博士生導師經常說，像《Nature》和《Science》這樣的頂級期刊有相對較高的幾率發表那種後來無法復現或者被發現有某種缺陷的論文。它們可能是最負盛名的期刊，但這並不意味著它們是最科學嚴謹的。

熱評 3：《Nature》負有不可推卸的責任，不作為實在令人惱火

人們都把注意力集中在作者身上，但有網友指出，《Nature》本身也有責任。人們花了那麼多錢才能讀他們的內容，因此他們應該花功夫仔細審查，避免發表錯誤的方法。

另一位網友表示，Ta 被《Nature》的反應惹火了。《Nature》好像在說，「反正大眾也不懂這些批評，所以我們什麼也不用做」。至少要讓論文作者更新論文來應對批評啊。

熱評 4：論文作者真的懂什麼是數據泄漏嗎？

博客中已經提到，這篇論文的兩大問題之一在於「數據泄漏」，那麼什麼是數據泄漏呢？

Reddit 熱評認為，數據泄漏是指當你進行預測時，使用了一些現實上無法用於預測的信息，比如說 2017 年做預測的時候無法獲得關於 2018 年的數據。網友認為，關於地震預測，使用的數據只能用來預測關於同一場地震的信息，而如果要預測未來的地震，你沒有相關的信息數據來訓練模型。

網友 Xorlium 表示，Ta 沒看論文，因此也不太理解其它討論。但作者關於數據泄漏的回答卻似乎暴露了其沒有真正理解數據泄漏的真相。

熱評 5：他們只是為了經費

一位網友表示，「你們是地震科學家，那麼你們應該知道自己的知識和教育邊界，而機器學習並沒有包括在裡面。」

這只是眾多真正的科學家走向墮落的故事之一。他們不是為了科學，而是為了得到關注（發表），以此獲得更多的經費，然後利用這些經費得到更多的關注。這不再是關於真理的研究。因此他們那「更加嚴厲」的回應是出於自我防衛。他們根本不在乎真理和真正的科學。

參考鏈接：

https://towardsdatascience.com/stand-up-for-best-practices-8a8433d3e0e8

https://github.com/rajshah4/aftershocks_issues/blob/master/correspondence/Authors_DeVries_Response.pdf

https://www.reddit.com/r/MachineLearning/comments/c4ylga/d_misuse_of_deep_learning_in_nature_journals/

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※ICLR 2019論文解讀：量化神經網路
※如何動手設計和構建推薦系統？看這裡

TAG:機器之心 |