學了這些機器學習知識 沒有經驗也可以得到數據科學家這份工作
圖:pixabay
數據科學家是如今最有吸引力的專家之一,但如果你的簡歷中沒有「項目」這一欄的話,進入這個行業也不是那麼容易的。你需要有經驗才能得到這份工作,而你只有得到這份工作才能獲得經驗。這看起來像不像一種惡性循環?
基於此,Statsbot的數據科學家Denis Semenenko寫下了這篇文章,可以幫助大家做出你的第一份雖然簡單但非常具有說明性的數據科學項目,而這個項目你只要花費不到一個星期的工作時間就可以完成。
這些項目的優勢在於它們都是一個全面的數據科學問題。
這意味著你需要制定問題,設計解決方案,查找數據,掌握技術,構建機器學習模型,評估質量,並將其包裝成簡單的UI。這比Kaggle比賽或Coursera課程更為多樣化(當然了,他們也是非常好的)。
如果你想通過使用數據科學項目來為你的簡歷增添光彩,為大學項目尋找靈感,或僅僅是想在特定的機器學習領域進行練習的話,那我覺得你真的可以從這篇文章中學到不少東西。
垃圾郵件或非垃圾郵件
垃圾郵件存在於任何可能會留下信息的地方。垃圾郵件檢測是經典數據科學問題之一。你可以訓練一個模型來檢測垃圾郵件,垃圾信息和垃圾郵件用戶的評論,以便將其隱藏在瀏覽器中。
機器學習引擎是基於在垃圾郵件中遇到諸如「銷售」和「購買」這樣的單詞的概率來定義垃圾郵件的。因此,你可以在大約一周內的時間裡獲得AdBlock的工作原型。
ML問題:文本分類
演算法:樸素貝葉斯演算法,線性分類器,樹狀分類器,任何你想要的分類器
技術:sklearn,nltk,scrapy
數據:簡訊垃圾郵件數據集,電子郵件垃圾郵件數據集,YouTube評論垃圾郵件數據集
實現:瀏覽器擴展
參考文獻:AdBlock,Adguard
指南:如何構建簡單的垃圾郵件檢測機器學習分類器,入門:構建Chrome擴展
Not Hotdog
Not Hotdog是來自矽谷系列的病毒應用程序,它可以識別照片中的熱狗和非熱狗。
你可以通過使用社交網路或谷歌圖像來收集一個數據集(使用主題標籤或搜索查詢),以便來訓練任何你想要的圖像分類器。
從頭開始訓練神經網路是非常麻煩的,因為這需要大量的訓練樣本和計算時間,因此最好的辦法就是使用預訓練的網路(這種方法稱為遷移學習)。
ML問題:圖像識別,圖像分類,遷移學習
演算法:卷積神經網路
技術:keras,lasagne,Instagram API(或外部資料庫,例如Instabot)
數據:使用Instagram API和主題標籤來收集數據集
實施:移動app
參考文獻:Not Hotdog
指南:使用Keras遷移學習,使用非常少的數據構建強大的圖像分類模型
Netflix電影推薦
推薦系統對於像Google或Facebook這樣的大型公司來說是非常必要的,因為從收入和參與度(Facebook廣告,Youtube推薦)的角度來看的話,推薦系統是有價值的。
對於數據科學家初學者來說,他們能夠在數據科學的這個子領域中得到實踐,並建立他們的個人電影推薦系統。
插圖:movielens.org
ML問題:推薦系統
演算法:降維(dimensionality reduction),協同過濾(collaborative filtering),分類演算法(classification)
技術:sklearn,vowpal wabbit
數據:Netflix prize 數據集,MovieLens數據集
實施:web應用
參考文獻:Jinni,MovieLens
指南:在Python中構建推薦引擎的快速指南
原裝Snapchat鏡頭
如果你善於圖形設計,你應該嘗試創建自定義的Snapchat鏡頭。 任何社交網路都有這樣的東西—— Instagram、Facebook和Snapchat。
GIF/1.2M
來源:https://support.snapchat.com/en-GB/a/lenses1
鏡頭檢測關鍵面部點,以顯示嘴唇、眼睛、鼻子和臉部的邊界。然後,即使您正在移動(例如,使用openCV或任何圖形庫),ML引擎也可以正確構建面孔。
機器學習問題:圖像識別,人臉檢測
演算法:卷積神經網路,面部關鍵點檢測
技術:dlib,openface,keras,openCV
數據:面部關鍵點檢測數據集
實施:移動應用
參考文獻:Snapchat,Instagram
指南:使用dlib,OpenCV和Python的面部地標,構建簡單的相機應用程序
Twitter stream
很多公司會在互聯網上收集客戶的意見,儘快對負面tweets做出反應。 例如,T-Mobile和Verizon需要快速響應負面tweets,並找出問題所在以及如何解決問題。
每個人都可以使用簡便的Twitter API和情緒分析演算法來使這個項目在整個stream中檢測到這樣的tweets。
機器學習問題:情緒分析
演算法:情緒分析
數據:Twitter API
技術:nltk,spaCy
實施:網路應用
參考文獻:Twilert,Tweetreach
指南:使用Python和NLTK的Twitter情感分析
網球betmaker
專業投注者總是尋找有利可圖的賭注。由於大量的統計數據,網球是一種很好的預測體育運動,有時莊家會出現失誤。
數據科學家可以將具有匹配歷史和玩家信息的網站放在一起,構建預測模型,並將結果與博彩公司的評估進行比較。
目標是找出機器學習預測與博彩公司評估之間的差距,從而有機會獲勝。這是一個數據科學家面臨的特徵工程學的問題!
機器學習問題:分類
演算法:分類
數據:atpworldtour.com
技術:sklearn,scrapy
實施:網路應用
參考文獻:olbg.com,verifiedbets.com
指南:機器學習在職業網球比賽預測中的應用
股價預測
ML的流行應用是時間序列預測。數據科學引擎可以預測匯率和股票,所以交易者或機器人可以根據這些預測進行投資。
如果你選擇這個問題,你會發現很容易得到這樣的數據並加以實踐。這個子域是從計量經濟學和經典機器學習得出的,所以你應該準備好探索統計學方法。
ML問題:時間序列預測
演算法:ARIMA,回歸
技術: sklearn, prophet, scrapy
數據:Quandl
實施:網路應用
參考文獻:financeboards.com
指南:使用Python介紹股票市場數據分析
※馬云:人工智慧和機器學習可能導致第三次世界大戰
※1小時入門機器學習經典模型
※如何辨別人工智慧和機器學習的真假
※機器學習之用 Python 從零實現貝葉斯分類器
※機器學習(2)之過擬合與欠擬合
TAG:機器學習 |
※這不是學佛法所要得到的結果
※物理學上還有哪些反常的實驗現象沒有得到科學系統的解釋呢?
※職場並非沒有捷徑,學會這幾招輕鬆得到領導重用
※學不會這4件事的女人,很難得到幸福
※這下都閉嘴吧 不用質疑穎寶的演技了 她已經得到了國家的認可
※學習了中陰法門,動物也可以得到我們的幫助
※有建造師證書不一定能做項目經理,但一定會得到這些!
※其他球隊可以學得到勇士的戰術,但是這一點他們永遠學不到!
※瑜伽雖然得到很多人去學習,但是很多地方大家還在要去注意的
※護膚品用的不少,但是肌膚並沒有得到改善,你可能犯了這幾個錯誤
※要學懂這十六句話,最終你會得到更多
※高七師:學會這些修行技巧,定會得到你想要的
※想讓更多人學佛,先自己得到佛法的受用
※學會這幾條冷知識,你得到very多的好處,你記住那條了呢
※災難藝術家告訴我們,不是所有的努力都能夠得到我們想要的結果
※孩子學習編程究竟能得到什麼?
※科學家想要尋找一種新粒子,卻得到了一個完全相反的結果
※就是要這樣才存得到錢 4 招心理學存錢法讓你不知不覺存款翻倍
※你能夠想像得到這就是女學霸的房間嗎?
※心理學:為什麼得到就不愛了?學會這個技巧,鑒別身邊的「渣男」