學機器學習要走彎路?不存在的!
營長的一位轉型AI的朋友,最近對營長抱怨,「走過的最遠的路,就是機器學習過程中的彎路」,然後開始各種blablabla,從論文的坑,到模型的坑,再到培訓的坑...一路吐槽。
2
尤其是論文,他罵道:
「
最討厭的就是那種,高高在上、假裝清高、站著說話不腰疼、戳不到痛點的論文。比如那一堆只能在理論中刷存在感,實際落地中只能
『
呵呵噠
』
的論文,根本就是浪費時間。
」
的確,對於現在剛剛入行的機器學習新人來說,不怕吃苦,但最怕走彎路,最怕白白浪費時間。
那麼,總結起來,都有怎樣的彎路呢?來看幾位點贊量頗高的知乎答主的總結:
那些年,他們在機器學習中走過的彎路
...
在知乎答主張馨宇(就職於百度地圖)看來,
機器學習的彎路有以下四個
:
最大的彎路就是自己
xjb
學
xjb
試,和加入一個真正能做出東西的團隊或跟隨真正的牛人一起學習相比,速度要慢十倍都不止。學是要學,但不要以為自己
xjb
學就夠了,差得遠呢。
第二大的彎路就是成天
xjb
看論文,以為這樣就能打通任督二脈,從來不復現論文或者嘗試自己做出一些東西,這都是〇。
第三大彎路淺嘗輒止,有些東西不往死里懟屁都做不出來。
第四大彎路迷信複雜的東西和新技術,以為新東西懟上去肯定就效果爆棚。其實都是不存在的。
還有一位知乎答主
ycszen
,在他看來,最大彎路,就是迷信論文,不去實驗
。
DLML
其實是一門實踐性的學科,只有通過實驗才能把握到其中的細節與真諦。雖說也是在寫程序,但是
DL
的程序基本上無法直觀地
debug
,所以非得自己去復現一下,實踐一下,用
performance
來說話,才知道有沒有出錯。
尤其是
DL
,研究發展到現在,論文和實際做的東西脫節已經是心照不宣的事了。正因為
NN+GD
的魯棒性,你
xjb
搞好像也能搞上去,所以寫論文很多純粹在編故事
(
好論文除外
)
所以,我們最好不要一味相信論文所說,尤其是各種解釋
(
經典演算法,優秀論文除外
)
。
NN
就是個黑盒,誰也別說誰。而我們能做的,更重要的是,去實踐去復現,去去偽存真,去發現其中真正的本質所在。
而知乎答主:
YukiRain
(
CV/ML
方向研究生在讀)則認為,非科班出身,剛轉型
AI
的程序員最大的彎路是:沒學好數學
。
而對於數學基礎好,科班出生的
AI
程序員來說,則應注意以下幾個問題
:
1.
一開始沒人帶的時候,看論文喜歡看最新的,很大程度上忽視了很多比較老比較基礎的論文,嫌棄以前的方法
performance
不好什麼的
......
感覺我身邊一些人也走進過這個誤區
......
2.
永遠不要迷信某個特定的模型,不要因為
random forest
在某個任務上效果好,就以後遇到什麼任務都上
random forest
;也不要覺得深度學習就是萬能的,什麼都可以套神經網路解決;不要看到比賽裡面大家整天用
xgboost
就整人云亦云地複製。學各種演算法的時候,書上一般會告訴你這個演算法有
balabala
優點一堆,但是一般不會告訴你這個演算法也有
balabala
一堆缺點,我花了蠻長時間在這個坑裡,慢慢摸索各種不同模型的特性。
3.
不要迷信一些理論性很強的論文,我一開始的時候,經常看到一大堆公式就下意識會覺得這個模型可能效果不錯。事實上很多論文的理論推導和它的代碼毫無關聯(參見已經徹底回歸煉丹的
WGAN GP
),還有很多論文的推導需要很強的
assumption
支持(參見每年都會出現在頂會的一些給模型加
riemannian geometry
的論文),等等。
那麼面對這些彎路,又應該如何解決呢?
那就是走正統的教育路線,你
follow的人一定是真正做事情的人。機器學習還沒有達到批量化流水生產的階段,因此一個好的
「
老師傅
」
比自學效果好很多。不僅如此,老師傅們一般都有自己多年經驗總結出來的經驗,往往可以避免很多不必要彎路。目前機器學習的資料有很多,動輒就有幾個
G
的材料可以下載或者觀看。而很多朋友都有
「
收集癖
」
,一下子購買十幾本書的人我也常常能夠看到。而機器學習的發展和變化速度很快,在入門期間,建議
「
小而精
」
的選擇資料。這不僅可以節約重複學習的時間,也可以讀有品位的材料。
為了防止我們走更多的彎路,小象給我們提供了一個follow大牛的機會,幫助我們強化機器學習中需要的數學基礎知識,深入理解經典演算法的數學原理,不僅可以掌握工業界廣泛應用的機器學習模型,還會培養用機器學習解決問題的思路。
《機器學習》全新升級版Ⅲ
原價
¥ 899.00
現超
370
人蔘團
僅售
¥ 399.00
點擊文末閱讀原文立即參團
參團,諮詢,查看課程,請點擊
【閱讀原文】
↓↓↓
TAG:ImportNew |