當前位置:
首頁 > 科技 > 大數據研究項目中數據科學家需要掌握遷移學習

大數據研究項目中數據科學家需要掌握遷移學習

遷移學習在任何一種學習中都是至關重要的。可以這樣說,對於人生中每一個任務或是難題,我們沒有被授以解決方法以獲得該事件的成功。每個人都會遇到從未遇到過的情況,我們仍然設法以特殊的方式解決問題。從大量的經驗中學習,並將「知識」導入到新的環境中,這正是遷移學習的全部意義所在。從這個角度來看,遷移學習和泛化在概念層面上是非常相似的,兩者的主要區別在於遷移學習經常被用於「跨任務遷移知識,而不是在一個特定的任務中進行泛化」。因此,遷移學習與所有機器學習模型所必需的泛化概念,兩者之間有著內在的聯繫。

遷移學習是確保在存含有大量小數據環境下實現深度學習技術突破的關鍵所在。在研究中,深度學習幾乎是無處不在,但是在很多實際生活場景,我們通常沒有數百萬個標記數據點用以對模型進行訓練。深度學習技術需要大量的數據以調整神經網路中的數百萬個參數。特別是在監督學習的情況下,這意味著你需要大量(非常昂貴的)已標記數據。標記圖像聽起來微不足道,但是對於自然語言處理(NLP)中的樣本來說,需要專家知識才能創建大型標記數據集。例如,賓州樹庫(Penn treebank)是一個詞性標記語料庫,已經有7年的歷史了,需要許多具備專業知識的語言學家密切合作對其加以改進和完善。遷移學習是減少數據集所需大小的一種方法,以使神經網路成為可行的選擇。其他可行的選擇正朝著具有更多概率性啟發的模型發展,這些模型通常更適合於處理有限的數據集。

遷移學習有著顯著的優點,同時缺點也是顯而易見的。了解這些缺點對於成功的機器學習應用來說具有至關重要的作用。知識遷移只有在「適當」的情況下才有可能實現。在這個上下文下,對「適當」進行確切的定義並不是一件容易的事情,並且通常需要進行實驗。你不應該相信一個開著玩具車孩子能夠駕馭一輛法拉利。對遷移學習來說道理是一樣的:雖然很難對其進行量化,但遷移學習是有上限的,它並不是一個適合於解決所有問題的「萬金油」。

遷移學習

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 深度數據挖掘 的精彩文章:

大數據和人工智慧的學習和人才培養要從娃娃抓起
2018年是否值得針對區塊鏈做出新春投資的意向

TAG:深度數據挖掘 |