春招快到了，送你一份數據分析常見面試題

自我介紹

幾乎所有的面試都免不了以自我介紹為開頭。對於考官，通常也會想基於自我介紹發現接下來要問的問題。所以，自我介紹非常重要。我參考的模板：

教育背景：簡單說說哪年在哪裡獲得什麼學位。

相關經驗：按時間順序講一下2個做過的項目，介紹下用了什麼辦法，比如用了什麼編程語言，最後的成果是什麼。最好有些量化的指標，比如發表了多少論文，被引用了多少次。這些項目最好和面試的職位有關係。實在沒有，也可以看看從中學到的知識或者技能可否擴展到data science. 比如之前做過信號處理，可以講這個項目為data science打下了統計基礎。

最自豪的成就和表態：介紹一下自己最自豪的項目，關鍵是要點出自己的優勢，比如迅速掌握了一個很大的代碼庫，或者在代碼庫中加入了一個很有用的特性，並再次強調一下自己的優勢，結尾說，我希望能在XX公司繼續發揮這些優勢。

機器學習（Machine learning）演算法

包括演算法對數據的假設，推導，有什麼優缺點，何時改用什麼演算法，怎麼選擇演算法，很類似P2 student intervention的model選擇問題。

作為入門的參考書：Introduction to Data Mining(Pang-Ning Tan, Michael Steinbach, Vipin Kumar)；

複雜一點兒的：The Elements of Statistical Learning(Trevor Hastie, Robert Tibshirani , Jerome Friedman)

相關的演算法可能包括：

Classification / Regression

SVM：是很多考官的最愛，最好做到可以推導

Neural Networks

Trees & ensemble methods: boosting, bagging

Clustering

K-means/median/medoids

Spectral clustering

Hierarchical

DBSCAN: density based spatial clustering of applications with noise

Self organizing map

Association: 這個在Udacity沒有介紹，但是大數據可能會用到

Apriori 以及它對大數據的衍生

FP growth 並行實現

其他演算法問題:

1、Q-learning: 解釋為什麼update Q value的時候要用下一個state的max Q，為什麼不能用mean?

2、Kalman filter: 在項目中用到了，要求推導

3、Expectation maximization

關於大數據的問題

1、很多職位要求的數據量，要遠遠大於Udacity的項目，所以會牽扯到一些大數據相關的問題

2、參考書：Mining of Massive Datasets(Jure Leskovec, Anand Rajaraman, Jeff Ullman)

免費的下載：//infolab.stanford.edu/~ullman/mmds/book.pdf

3、演算法：

Finding similar items

Find frequent itemsets

Recommendation systems

Social graph mining

關於大數據的問題：

用過的數據量有多大

GPU的相關經驗？

Hadoop是怎麼讀入很大的數據的？接受HDFS？

Spark的相關項目，用的什麼model和library

Spark: RDD相關的概念

Spark: 如果數據遠遠大於內存，是怎麼處理的?

是否遇到過這樣的情景：通過對數據的初步分析，觀察到有趣的現象？

Spark: 舉例說明inner join, outer join, etc.

其他網上看到的常見問題：

Support, confidence, and lift

What is curse of dimensionality?

A/B testing

Precision, recall, F1

How to handle missing data?

來源：優達學城

精彩活動

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 大數據 的精彩文章:

TAG:大數據 |

春招快到了，送你一份數據分析常見面試題

自我介紹

幾乎所有的面試都免不了以自我介紹為開頭。對於考官，通常也會想基於自我介紹發現接下來要問的問題。所以，自我介紹非常重要。我參考的模板：

被問過的問題總結