「不在谷歌？沒關係」不在大公司，如何做好深度學習

新聞 06-17

新智元編譯

「不在谷歌？沒關係」不在大公司，如何做好深度學習

（文／Bharath Ramsundar）很多人都以為機器學習和大數據是同義詞。原因很簡單，演算法需要大量的訓練數據識別雜訊信號。因此，機器學習技術一般都由手中握有大量用戶數據的網路公司所使用。對於谷歌、Facebook、微軟、亞馬遜和蘋果（也即《紐約時報》的 Farhad Manjoo 所說的「五巨頭」［Fearsome Five］），獲得大量的用戶數據很簡單。數據使用政策變得越來越寬泛，讓這些公司能夠在我們使用其產品時，獲取從點擊到個人位置等一切信息。因此，依賴大規模數據集，網路公司能夠提供非常有用但同時也非常具有侵入性的產品和服務。拿出數十億規模的數據集對這些公司而言並非不可能。

在學術界，機器學習在各個學科中出現的次數也越來越多。學術界掌握數據的情況與產業界有著顯著的不同。要獲取大量科學數據或醫療數據並不容易。在學術界，最大的障礙是成本。傳統上，研究人員依靠 Amazon Mechanical Turk 收集數據。那裡，低薪工人（時薪遠低於美國聯邦政府規定的最低工資，平均為 1 美元/小時）執行重複性勞動，例如在圖像中標記物體和人臉，或在文本中注釋說話者是誰。這些勞動所需要的技巧，通常在人類幼兒園時期就能掌握。但是，進行科學實驗需要大量的專業知識。因此，在實驗中使用人類專家的成本比使用 Mechanical turker 服務高太多。

解決這個問題的一個方法是錢，大量的錢。谷歌最近發表了一項研究，用深度學習系統識別眼球掃描圖像中糖尿病性視網膜病變的跡象。為了獲得這項研究的數據，谷歌支付專業醫生人工注釋大量數據，這項工作可能花費數十萬或數百萬美元。對於谷歌來說，這可能算一筆不小的財政支出——但仍然能夠負擔。而對於學術研究人員，進行這樣的研究必須從贊助機構獲得大量資助。不用說，如今很少有研究人員能夠得到這樣的資源。

那結果是什麼呢？難道我們註定要生活在這樣一個世界，最好的研究只能由有錢的大公司進行？

錢多總是會更好，但也許情況並不像看起來那麼糟。

最近，在小數據機器學習（low data machine learning）領域湧現出大量的工作。MIT 幾年前的工作[1] 表明，可以使用概率編程，從單一的一個例子中構建「one-shot」圖像識別系統。DeepMind 的後續工作[2] 表明，像 TensorFlow 這樣的標準深度學習工具包可以複製這一壯舉。從那時起，有很多工作都表明，小數據學習（one-shot learning）可以擴展到藥物發現[3]、機器人[4] 等領域。

現在，越來越多的研究人員認為，有時我們可以在不同的數據集之間傳輸信息。雖然對於特定的機器學習問題，可用的數據集非常有限，但如果有大量可用於相關問題的數據，那麼就有技術可以讓模型在兩個系統之間傳輸有用的信息。這些技術可以幫助機器學習系統，將知識從數據豐富的問題空間轉移到數據不足的問題空間，從而克服其數據少的問題。

「不在谷歌？沒關係」不在大公司，如何做好深度學習

為了直觀地了解這些技術如何工作，我們來看看這樣一個故事。假設你把侄女帶到動物園。你帶她去看長頸鹿展覽。她以前從未見過長頸鹿，所以非常興奮，學會說：「長頸鹿！」幾個星期後，你再帶她去動物園，路過長頸鹿館時，她會說：「長頸鹿、長頸鹿！」這是怎麼回事？小孩是怎麼學會認出只見過一次的長頸鹿的？

雖然發展心理學和認知科學對於人類是如何學習識別動物的還沒有確切的解答。但是，我們現在有可以（粗略）解釋這個過程的數學模型。

雖然你的侄女以前從未見過長頸鹿，但她看到過很多其他的東西。特別是，她可能學會了如何區分事物。在數學上，這就叫做圖像空間的度量（metric）。Metric 表示兩個物體之間的差距。要知道她看到的新物體是不是長頸鹿，她只需要從記憶中提取長頸鹿的圖像，然後用這個 metric 去判斷，新物體是否與「長頸鹿」足夠近似。

以前討論過的一系列有關學習（learning）的論文已經表明，這一情況能夠在現實世界的數據集上有效實現，並且能夠從視覺領域擴展到分子領域，以及機器人領域的機器學習問題（robotic machine learning）。

那麼，這些技術能拓展到多遠？大數據機器學習的時代是否會完結？先不要這麼快下結論。小數據（One-shot）藥物發現分析工作[3] 表明，信息傳遞目前存在許多限制。至少對於分子問題來說，的演算法還不能推廣到新的系統。學會的 metric 相對不靈活，不能處理有著明顯區別的數據點（datapoint）。

因此，很容易想到，類似的限制也存在於其他機器學習應用程序當中。雖然 one-shot 和低數據技術能夠進行一些信息傳遞，但無法讓系統像人類那樣靈活有效地舉一反三。

有理由認為，將今天的人工智慧與一般人類智能區隔開來的主要障礙之一，是低數據信息傳輸問題（low data information transfer problem）。人類科學家能夠從非常有限的信息中獲得深遠的見解。就像故事裡說的，牛頓從一個蘋果掉下來的事例中，得出行星運行的萬有引力定理。這簡直是 one-shot learning 的壯舉！

以此看，物理本身就是低數據學習（low data learning）的一種極端形式，旨在從有限的數據點中提取一般原則。

我們可以從物理學家那裡吸取經驗和靈感嗎？我們能夠設計出具有類似學習屬性的學習系統嗎？

在設計理論時，物理學家通常會依賴不朽（invariance）和美（aesthetics）。

從長期的經驗來看，物理學家知道，科學理論往往滿足一定的數學標準。愛因斯坦對廣義相對論的研究主要取決於他對協方差（covariance）的看法，即不存在絕對靜止的空間或時間，所有時空都是和運動的物體聯繫在一起的。

同樣，我們也可以假設，能夠泛化的學習演算法必須利用世界上的隱藏結構。

我們如何編碼演算法提取這些能夠泛化的規律？這是一個重大的研究問題，我個人希望，我們能夠找到一種方法，教導學習系統理解美。

數學家、物理學家和科學家訓練自己，在自然界的法則中感受到美的存在。

能夠從隱藏結構中學會欣賞這種美的演算法可能十分重要，這種演算法有一天或許能做出偉大的科學理論發現。

參考文獻

Lake, Brenden M., Ruslan Salakhutdinov, and Joshua B. Tenenbaum. 「Human-level concept learning through probabilistic program induction.」 Science 350.6266 (2015): 1332-1338.
Vinyals, Oriol, et al. 「Matching networks for one shot learning.」 Advances in Neural Information Processing Systems. 2016.
Altae-Tran, Han, et al. 「Low Data Drug Discovery with One-Shot Learning.」 ACS central science 3.4 (2017): 283-293.
Duan, Yan, et al. 「One-Shot Imitation Learning.」 arXiv preprint arXiv:1703.07326 (2017).

原文地址：http://rbharath.github.io/machine-learning-with-small-data/

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※谷歌開源移動設備視覺模型MobileNets
※「TensorFlow的「移動為先」」谷歌開源移動設備視覺模型MobileNets
※「歷史最高A輪？」Bengio聯合創立的Element AI融資1.375億美元
※「谷歌 GAN 生成人臉」對抗創造新藝術風格，128 像素擴展到 4000

TAG:新智元 |

您可能感興趣