AI和機器學習想取得進展，首先要規範研究報告

新聞 10-05

2017 年 11 月 8 日，在北京國家會議中心舉辦的 AI WORLD 2017 世界人工智慧大會開放售票！早鳥票 5 折搶票倒計時 3 天開搶。還記得去年一票難求的AI WORLD 2016盛況嗎？今年，我們邀請了冷撲大師」之父 Tuomas 親臨現場，且谷歌、微軟、亞馬遜、BAT、訊飛、京東和華為等企業重量級嘉賓均已確認出席。

AI和機器學習想取得進展，首先要規範研究報告

我的機器學習之旅從高中開始。我很幸運地翻開了幾本關於人工神經網路的老教科書。那是2000 年，電視上正熱播《老友記》，痞子阿姆的說唱傳遍大街小巷。我則沉迷於對象識別系統不能自拔，那玩意兒當時還是邊緣科學。我的第一篇論文寫於18歲，題目是《將對象識別看作物理過程——人工神經網路的實踐和理論應用》，這是我年少時成為科學家的初次嘗試。它為我贏得了獎學金，把我帶到了英國（劍橋）和荷蘭（格羅寧根）最好的大學，並最終把我帶進了蛋白質的計算生物物理學的學術生涯。最後，我很幸運地將科學專業知識和機器學習結合成一個AI 創業公司，Peptone。

但是，我的學術發展道路既不美好也不浪漫。作為一個「學術天才」，我最大的痛苦是科學寫作，並為此產生了嚴重的挫敗感。我那時絕對相信我在浪費時間，寧願把時間花在實驗室里。

但是，我大錯特錯了！

從時間和經驗的角度來觀察思想的變化軌跡很有意思。特別是，當你到達了你事業的轉折點，並在你年少時就崇拜的領域開始有所貢獻時。讓我直說了吧——

就在前幾天，我偶然發現了MIT Review 中的一篇文章，這促使我寫下這篇短文。

AI 黔驢技窮了嗎？我們正在進步，還是只是在無盡的池化、優化、架構、歸一化方法和圖像識別方法中打轉轉？

恐怕，我們沒有在進步。

請記住，這是我的個人意見，但它來源於我花在閱讀機器學習/AI 論文的無數個小時。我嘗試採用這些論文中的發現，用於自動化蛋白質工程。

大量的AI / ML 論文缺乏適當的引文

大量的AI / ML 論文缺乏適當的引文。作者較少或根本不引用AI / ML 領域的開創性工作（例如引入感知器或反向傳播概念的論文）。反過來，對於具有足夠數學知識的AI 領域的新晉研究者來說，很難將其實際的科學發現放在更廣泛的範圍內。

缺失或不正確的引文導致對已知和現有科學概念的過度重新標註（excessive relabeling of known and existing scientific concepts），這使機器學習領域變得膨脹，但卻不是在推動其發展，且增加了絕對不必要的煩惱。我剛剛看了和AI 有關的生物信息學領域的兩篇論文（作為同行評議期刊的匿名評審），其中作者宣稱其方法可追溯到2004 年，至少有600 多次引用！你怎麼會錯過？此外，我已經看到「AI 專著」的作者將完全已知和良好概括的梯度優化方法問題與牛頓N 體問題進行比較，或者設計簡單依賴於逆平方律（具有其所有限制）的損失函數，聲稱它建模自電磁庫侖定律。女士們先生們，庫倫都要從墳墓里坐起來了。如果你要用庫侖定律，請談靜電！把電磁留給法拉第和麥克斯韋爾。

對結果缺乏適當的統計分析

對結果缺乏適當的統計分析。我個人認為這是他們最大的問題。結果呈現方式不符合任何可呈現科學研究的標準。最突出的問題是以任意單位報告準確性，而都不簡單討論一下改進的統計相關性。您的網路將對象識別準確率提高了1％，其相關性如何？它對於您模型使用的參數到底意味著什麼？您的模型有多少自由度，與較不複雜的模型相比如何？您如何確保不過擬合或只是創建了退化模型，而這些幾乎沒有統計學意義。

由於擬合統計分析和評估自由度數量的基本統計測試的稀缺或根本不存在，許多 AI / ML 論文正在面臨「無法重現」的問題，這很要命，用戶很快就發現使用那些存儲在Github 上的「官方」ML模型，「純粹的凡人」無法使用相同的數據和 ML 網路架構來重現「專家」的偉大發現。

這件事為什麼很重要？因為我們所有人都需要將創新與周期性的工作模式分開。二者的混淆不分不僅減慢了機器學習領域的進步，更重要的是引發了公眾、新聞界和科技投資者的極度焦慮，並最終導致了這樣的頭條新聞：

AI和機器學習想取得進展，首先要規範研究報告

請不要誤會我的意思。我完全不打算與馬斯克或霍金教授爭吵，我對他們深表敬意。然而，事實是，AI和機器學習正被描述成一個想要消滅人類的怪物。

我們可以做些什麼，來改善正在進行的AI / ML研究？

我的一位老師，格羅寧根大學的Ben Ferninga 教授（他最終因發現organic nano-machines 在2016年獲得諾貝爾獎）告訴我和我的同學：你必須「在你的研究中保持謹慎的樂觀」。機器學習和AI 領域的謹慎樂觀，以及嚴格的科學報告將使評估更容易，使實施和規範AI 驅動的自動化更容易。最終社會和新聞界會看到，AI / ML 不會完全取代工作，而是增加工作機會，提高生產力，並延長午休時間。另外，關於機器學習方法的更嚴格和科學客觀的報告應該最終為更有效的立法途徑鋪平道路。

原文地址：https://hackernoon.com/should-machine-learning-and-ai-advance-proper-scientific-reporting-is-a-must-cc122af5ee74

【掃一掃或點擊閱讀原文搶購五折「早鳥票」】

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※「谷歌新項目公開」無需學編程，用手機攝像頭和瀏覽器即可機器學習
※AI上帝？前谷歌工程師設立宗教組織「未來之路」
※「解讀谷歌TFX」基於TensorFlow可大規模擴展的機器學習平台

TAG:新智元 |