當前位置:
首頁 > 科技 > 爬取去哪兒網 6000 多個景點數據告訴你,國慶哪裡不是人山人海!

爬取去哪兒網 6000 多個景點數據告訴你,國慶哪裡不是人山人海!

國慶長假已經過去一半啦,朋友們有多少是堵在了景區和路上?

為了方便大家的出遊選擇,筆者爬取了去哪兒網上面的 6000 多個景點數據,包含景點評級、熱度、銷量等等數據,匯總成這篇出遊參考指南。

爬蟲

爬蟲繼續用的是最近的心頭愛 Selenium,打開去哪兒網站,右鍵,分析網頁。

我們需要的數據非常地清晰:

話不多說,只要定位到自己想要的信息,那麼代碼非常簡單。

本文僅爬取國內的數據,由於景點數據眾多,每個省份僅取了前 13 頁。獲得景點個數 6630 個。

數據可視化

熱門景區 TOP30:

大熊貓不愧為國寶,最熱門就是它。其次是故宮、鄭州動物園、峨眉山、秦始皇兵馬俑等等。因為筆者沒有去過多少地方玩,也不知道為什麼鄭州動物園能排到第三,大家知道的可以分享一下它的特色嗎?

省份與評級:

說實話,這個圖的配色真的是太丑了,主要是筆者過於懶惰,不想好好配色了。

熱力圖:

熱力圖根據省份和城市分別作圖,其次在根據銷量和熱度兩類圖,這裡採用的是 Python 調用高德地圖 API 實現經緯度換算、地圖可視化一文的方式,調用高德地圖 API 完成。

首先是省份和景區熱度:

然後是省份和銷量:

接下來是城市和景區熱度:

最後是城市和景區銷量:

值得注意的是,城市和銷量一圖熱力範圍不明顯,原因為景區之間銷量天差地別,一些太少的統計下來,作圖非常的不明顯了。若大家不喜歡用高德地圖 API 作圖,那麼人生苦短,我要用 pyecharts 畫圖的方法也非常適合做熱力圖,比如這裡筆者做了一張省份和銷量的圖:

綜合來看,北京、四川及沿海地區都是旅遊的熱門省份。建議大家盡量避免去這些省份遊玩。

推薦景區:

知道了需要避免的景區和省份城市,那麼可以去哪些人少的地方呢?這裡筆者根據景區分級,分別推薦 15 個人少的景區:

最後兩張圖是根據熱度做的圖,沒有條形的則是熱度為 0,那麼大家可以選擇上述景點中熱度較高的進行遊玩。

可視化代碼:

結語

爬蟲採集於 2018.9.27,可能因為採集時間不同,結果會有偏差。需要注意的是,若採用 pyecharts 做城市和景區熱度、銷量的圖時,需要考慮 pyecharts 無法獲得一些景區位置,解決辦法可以參考《狄仁傑之四大天王》影評分析(爬蟲+詞雲+熱力圖)一文。

分析完了之後,筆者反正決定國慶節都呆在家裡了,不想出門,只想當快樂的肥宅。最後,祝大家國慶快樂,珍惜剩下不多的假期!!!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 CSDN 的精彩文章:

工程師親述在 Google 從事 TypeScript 工作的獨家體會!
程序員如何內外兼修?

TAG:CSDN |