怎麼才能堅持自學數據分析?這裡有個好榜樣
編者註:本文原作者楚德來,原載於作者的知乎專欄,雷鋒網 AI 研習社已獲授權。
今天是開始數據分析學習的第一百天,像一開始預備的那樣,今天會寫一個階段性的總結來紀念這一段短暫但是也很有意義的時光。
我,一個普通人,不是 985,211,不是留學,研究生,不是統計,數學,代碼出身,不是工作相關,不是學生,沒有專人輔導,通過不斷的搜索,買課,閱讀,提問,自學,只通過工作之餘的空白時間,靠自己的智力和意志力,
認認真真的去做一件事,自己到底能做到什麼程度。
所以從最開始,我就給自己定了一個目標:去完成一個百日作業。
歷程
其實一百天里的最開始只是在朋友圈進行打卡來記錄一下累積的有效學習時間,但是在一個月過去之後,我突然意識到,自己正在生產數據,而這一部分的數據,對我自己是很重要和寶貴的。於是就動手做一個 excel 表格,開始記錄的整個的學習過程。
我自己看數據的話可以感受到 100 天里主要是分成三個階段的,第一個階段是從第一天到第 30 天,一共學習了 51 小時,空白 3 天,這裡是效率最高的一段時間,因為這個時候自己在更多的關注一些理論知識,入門知識以及瘋狂的去補一些教學視頻。
去了解數據框是什麼樣的一個概念,了解一些數據語言的最基本的操作,包括一些很簡單的命令,反覆的去看。因為你甚至會在儲存格式上的問題都遇到的不少的麻煩。實話說,在這一段學習里我浪費了不少時間在一些最開始完全想不到的地方,而且是各種書籍教學裡極少提到的那一部分弱智問題上。
而這一部分用我朋友的話說是 「這是代碼常識啊!」
……
抱歉,我確實沒有常識。
所以我哪怕會寫幾個可視化函數了,卻會弄錯 utf-8 和 gbk 的編碼問題,然後苦苦掙扎幾個小時,毫無頭緒,等等等等。
這真的是媽的智障的一段心酸過程,而且可以預見的,未來的日子還會出現幾次的。
……
所以說那個時候其實是很充實,很快樂,但是也很痛苦的一段時間。因為那個時候獲得的成就感是最頻繁的。「啊,今天又學了兩個小時」,「今天又知道了很多新的概念」,等等。
但是真正當 30 天后,最開始的非常激情的一個月過去之後,開始接觸一些真正的操作和應用的之後。也就是從 31 天到 90 天的這段時間,對我來說,可能是更重視的一個過程。
進入 3 月中旬之後,工作開始忙碌了起來,在前 30 天中,自己再累也會騰出半小時的時間來翻看視頻和閱讀書籍。但是在 3 月中開始,工作開始忙碌之後,學習時間出現了第一次的大面積空白。
從第 42 天到六第 60 天,一共 18 天里只學了四天,最核心的原因是期間,涉及到了一次出差,出差前的工作準備,出差中的疲勞,出差後的報告波折…… 而這個時候的學習,涉及到更多的思考,更多的工具使用,很多時候並不是半個小時可以解決的。所以在知道自己不能保證效率的時候,我選擇的是休息。
但是確實非常心疼。
學習很多時候,就是自己的情緒,理智,和自控力不斷的鬥爭的過程。
而從記錄上看,第 80 天左右的時候,又出現大面積段的間斷學習,從第 78 天到 89 天一共 11 天的時間裡只學了一天,而這一段學習空白,我的備註上也標記得非常清楚:
【外勤】,大量的【外勤】
而且由於工作本身的原因積累了很多的壓力,當然一部分也是學習的焦慮造成的。這段空白的時間裡還有一個五一小長假,我的備註欄里寫著【沒心情,休息】。
這個時候,我已經意識到了工作和這樣高強度的學習是存在著一定程度上的衝突的,畢竟人的精力是有限。哪怕我自詡精力旺盛,但每當工作強度和壓力上升的時候,學習就會非常明顯的受到影響。也是在那個時候,自己開始認真的考慮停產學習的事情。
最後,在第 96 天的時候,我離職了。
然後就像突然後知後覺的,我開始真正意義上的,懷念起大學的時光,非常自由也非常純粹的一段時光。也像很多人曾經做過的那樣,慨嘆自己的年幼無知和對於自由時光的奢侈浪費。
最後說回這次百日作業的實踐。其實這段時間裡,自己一直有去完成不同老師課程裡布置的各種作業,但是很多時候是無法聯繫起來的,技巧上一些練習。像很重要是 sql 技能,常用指令其實不多,但是可練習項目其實真的少的可憐。而 kaggle 上的項目,經過幾次嘗試,我發現更多的是需要一些思路上的突破,需要很多的演算法積累,模型學習,而這一部分,是我需要大量補習的內容。如果只是簡單的做幾個數據的可視化,其實並沒有很大的重複意義。
所以自己也去開始想著:如果從實際應用出發,自己怎麼去獨立的解決一個命題呢?
遇到的問題
於是就開始了這次的作業實踐,也遇到非常非常多的問題。
首先就是爬蟲技術的問題,因為一開始在做 R 和 python 二選一的時候,我選擇了名字比較短的那個,所以到後面發現 python 的技術可能更適合爬蟲應用的時候,我的臉是非常傲嬌的…… 通過取巧,採用了爬蟲插件來工作。但是在應用的時候還是遇到了各種問題,首先就是因為智聯的搜索機制問題,它在無法滿足搜索機制的時候,會自動的填充其他內容,所以我當初爬到了 3000 多的時候發現爬取內容已經完全沒有 「數據」 兩個字了,然而工作還在繼續!這就很窩心了。
但是那個時候根本不知道問題在哪裡,只能重新再爬一次,然後定期回來檢查…… 這工作居然要人工來做,可想有多窩火。而且因為不知名原因,gooseeker 爬取還會出現很多的爬取失敗和卡頓現象,盯著那個爬取頁面卡著半天,然後報錯,然後下一個…… 這是一種很讓人沮喪的體驗,也是在那個時候,我下決心,還是把 python 追上了學學吧。
哎。
數據的源文件,我爬了整整 2 個晚上,然後只有 2000 出頭可以用,後面整合爬取文件的時候,因為要通過 excel 的宏來操作,又是遇到各種零碎的麻煩,最後甚至還是通過笨辦法解決的……
效率低下!心疼啊!
然後就是文本問題的處理上,首先我是想通過代碼來進行職業關鍵詞篩選的,後來發現研究了整整兩天,最後發現現有的知識量,沒有頭緒去做到。查了半天就是找不到方法。最後不得已放棄,採用了觀察,然後數字篩選的方法,也幸虧我當初是人工叫停的。否則還真不知道要翻數據翻到哪裡去。
文本的第二個問題出現在月薪機制的篩選上,其實原本就知道這個東西通過 excel 的命令特別容易做到(畢竟我也是看【七周成為數據分析師 - Excel 實戰篇 - 知乎專欄】才動的實踐課題念頭)但是通過 R 語言來實現的時候就遇到了各種問題,這個時候還沒有人教過我的文本處理,也不知道去哪裡問,問什麼,只能到處逛,到處搜,搜到了之後好不容易處理好代碼,然後發現不斷的報錯,最後長時間的 debug 然後發現是問題出在 「1000 以下」(別人都是 「6000-8000」)心情可想而知…
而後面在詞雲的文本分析和處理上,發現僅僅學會技術的話可提供的幫助太少了,文本分析需求的邏輯鏈條可能更模糊也更困難。尤其是在關鍵詞不明朗的前提下。
最後就是代碼優化和可視化的輸出上。因為完成思路的周期其實很長,零碎的思路在最後回頭再看的時候,又會有很多的想法。而在自己的數據閱讀中,我一直想去嘗試優化自己的思路和代碼,這種嘗試的過程會很,幸福。哈哈,不說笑,真的很幸福。尤其是在可視化的時候,這個圖到底能不能清晰的表達我的思路,我全篇的邏輯線是否流暢,是我想要去完善的一個東西。可能一直是在從事比較務實的工作的原因,能不能儘可能的簡單,儘可能方便拿起來就用,是我關注的重點。這個琢磨的過程其實給予我很多。
————
而在實踐完成的時候我也如願的拿到了我的作業的結論,也清楚了自己下一階段的學習重點,而且也算增加了自己的項目實踐素材。
最重要的是,我證明了,我可以做到。
路還長,而明天,就是 Day101 了。
2017.5.13
※提高網路模型的泛化能力!深度學習之父Geoffrey Hinton的神經網路第九課
※用RNN實現機器寫詩,機器寫作思路發展歷程你必須了解!
※最經典的SVM演算法在Spark上實現,這裡有一份詳盡的開發教程
※玩深度學習選哪塊英偉達 GPU?有性價比排名還不夠!
※如何用深度學習推薦電影?教你做自己的推薦系統!
TAG:唯物 |
※看完這些作品,你才能真正知道這位自學成才的大師有多厲害!
※自學書法有哪些輕鬆上手的好技巧呢?只需要掌握這些就可以了
※肝功能看懂這幾項就夠了,自學自查病情好壞,簡單方便
※自學學不會?你是不是也踩了這些坑呢?
※自學能畫成這樣,無敵了!
※這7個缺點在你身上,自學永遠不可能
※整理幾個自學網站給你!讓你也成為一專多能無缺陷的斜杠青年!
※自學成才,一年畫一幅,有錢不一定能買到他的作品
※這樣自學八字效果會更好一些
※站樁不可不懂的十個要領,自學的愛好者尤其要明白
※跆拳道能不能自學,這篇有深度的文章告訴你!
※自學站樁只要掌握這五點,再也不愁找不到明師
※自學打坐,不要忘了這6個「注意事項」,以免坐出問題,得不償失!
※比人類還聰明?這種AI靠自學就會玩魔方,百分百成功且只需20步
※如果你自學平面設計,那下面這幾個基礎知識點你知道嗎
※自學打坐,不要忘了這六個「注意事項」,以免坐出問題,得不償失!
※自學書法的8個狠招,逼自己一把或許還有救!
※日本女孩是這樣自學插畫的,每天一幅,看了你不得不服
※四十一歲開始靠自學畫成這樣!這真的是畫不是照片嗎?
※做數控操機這麼多年了,為什麼我依然無法自學成為編程師?