當前位置:
首頁 > 科技 > Python 爬取數萬條北京租房數據,揭穿房租瘋漲的秘密!

Python 爬取數萬條北京租房數據,揭穿房租瘋漲的秘密!

作者 | 丁彥軍

昨天還幻想海邊別墅的年輕人,今天可能開始對房租絕望了。

8 月初,有網友在「水木論壇」發帖控訴長租公寓加價搶房引起關注。據說,一名業主打算出租自己位於天通苑的三居室,預期租金 7500 元/月,結果被二方中介互相抬價,硬生生抬到了 10800。

過去一個月,全國熱點城市的房租如脫韁野馬。一線的房租同比漲了近 20%。一夜醒來,無產青年連一塊立錐之地都懸了。

從 2018 下半年開始,租金海嘯洶洶來襲,資本狂歡,官方默然,房東糾結,租客尖叫。

這不是一方的過錯,而更像是一場全社會的「集體謀殺作品」。最令人不安的是,過去房地產的那套玩法和上漲邏輯,今天正在轉移到房租上。

房租暴漲的不只是北京。有數據顯示,7 月份北京、上海、廣州、深圳、天津、武漢、重慶、南京、杭州和成都十大城市租金環比均有所上漲。其中北京、上海、深圳的租金漲幅最猛,北京 7 月份房租同比上漲 3.1%,有小區甚至漲幅超過 30%。

圖自「21 世紀經濟報道」《最新房租數據出爐,你一個月要交多少錢?(附房租地圖)》一文

接下來,筆者通過 Python 獲取某網數萬條北京租房數據,給大家說說真實的房租情況。

還是老規矩,老套路(是不是有股熟悉的味道),筆者常用的三部曲:數據獲取、數據清洗預覽、數據分析可視化,與你一起探究最近房租的狀況。

數據獲取

筆者今天就把目前市場佔有率最高的房屋中介公司為目標,來獲取北京、上海兩大城市的租房信息。

目標鏈接:https://bj.lianjia.com/zufang/

整體思路是:

先爬取每個區域的 URL 和名稱,跟主 URL 拼接成一個完整的 URL,循環 URL 列表,依次爬取每個區域的租房信息。

在爬每個區域的租房信息時,找到最大的頁碼,遍歷頁碼,依次爬取每一頁的二手房信息。

post 代碼之前簡單講一下這裡用到的幾個爬蟲 Python 包:

requests:就是用來請求對鏈家網進行訪問的包;

lxml:解析網頁,用 xpath 表達式與正則表達式一起來獲取網頁信息,相比 bs4 速度更快。

詳細代碼如下:

數據清洗預覽

數據共 14038 條,10 個維度,由上圖可看出北京房源均價為 9590 元/月,中位數為 7000。一半的房源價格在 7000 以下,所有房源的價格區間為[1000,250000],價格極差過大。

數據分析可視化

四維度-北京房租均價

接下來,筆者將北京各區域、各路段、各樓盤房屋數量、均價分布放在同一張圖上,更直觀地來看待房租。

從圖中可看出,最近,北京市各區域的房租均在 6000 元/月以上,其中最高區域為東城,均價達 12463 元/月。不過,由於房源信息過多過雜,房屋位置、面積、樓層、朝向等對價格均有較大影響,因此,價格這個維度需要進一步分析。

由上圖可得,各路段的均價基本都在 6000 以上,其中海淀北部新區的房源數最多,但均價最低,為 3308 元/月,這或許與海淀北部生態科技新區作為高新技術產業的承載區、原始創新策源地的研發基地,以及科技園集聚區,目前已入駐華為、聯想、百度、騰訊、IBM、Oracle 等近 2000 家國內外知名的科技創新型企業有關。另一方面,海淀紫竹橋的房價竟一起衝天,其附近以博物館、體育場館為特色,交通便利,配套設施完善,均價較高也是情理之中。

可以看出,不同樓盤的均價浮動很大,但都在 6000/月以上。最高的甚至達到 17516/月。由於每個樓盤戶型差別較大,地理位置也較為分散,因此均價波動很大。每個樓盤具體情況還需具體分析。

附詳情代碼:

由上圖可以看出,均價在 8000-10000 之間的房屋數量最多,同時 1500-2000 這個價位之間房屋數少的可憐。

據北京市統計局的數據,2017 年全市居民月人均可支配收入為 4769 元。另據 58 同城和趕集網發布的報告,2017 年北京人均月租金為 2795 元。

北京租房者的房租收入比,驚人地接近 60%。很多人一半的收入,都花在了租房上,人生就這樣被鎖定在貧困線上。

統計數據也表明,北京租房人群收入整體偏低。47%的租房人,年薪在 10 萬以下。在北京,能夠負擔得起每月 5000 元左右房租的群體,就算得上是中高收入人群。就這樣,第一批 90 後扛過了離婚、禿頭、出家和生育,終於還是倒在了房租面前。

附詳情代碼:

面積&租金分布呈階梯性

上圖可以看出,80%的房源面積集中在 0-90 平方米之間,也符合租客單租與合租情況,大面積的房屋很少。

面積&租金分布呈階梯性,比較符合常理。租房主力軍就是上班族了,一般對房子面積要求較低,基本集中在 30 平。

附詳情代碼:

大多數房屋年齡在 10 年以上

由上圖看出,房屋年齡大多集中在 10-20 年、25 年以上,而 5 年以下的不到 2%;不過,別看這些都是老房子,最近房租變得這麼猖狂?原因其中之一就是資本圈地。

這條網貼立馬點燃了大眾的情緒:「好啊,原來是這些長租平台燒錢圈地,一心只想要壟斷市場房源,哄抬租金,企圖賺取暴利差價!」

後記

拿自如舉例,表面上看跟中介公司沒啥兩樣,收了各種散盤,然後集中裝修、出租、管理,因為運營成本和住房質量提高,房租肯定有所上漲。

但更關鍵的事情在背後。自如把項目打包起來搞起了資產證券化,以租金收益權為基礎資產做擔保,投放到金融市場上發行國內首單租房市場消費分期類 ABS,讓各路資金來認購,每年給大家搞點分紅。

大量資本都在賭租房這個風口,而前期誰的規模越大、資源越多,以後的定價權就越大,利潤空間就越不可想像。

這次筆者一共從鏈家網上爬取 14038 條數據,而那就是大概一周前,8 月 17 日北京住建委約談了幾家中介公司。最終的結果是自如、相寓和蛋殼承諾將拿出 12 萬間房子投入市場其中,自如將拿出 8 萬間(鏈家、自如、貝殼找房),他們的實際控制人是同一個人 —— 鏈家老闆左暉。

也就是說,平常的時候,鏈家網+自如一共在網上待租的也就是 1 萬多套房子,但是一被約談他們就一口氣拿出了 8 萬套房子增援??怎麼增?繼續收房,讓房源更加供不應求?

昨天買不起房,今天租不起房,如果連這樣的生活也要因為市場的不規範而被逼迫、被奪走,真的會讓人對一個城市失去希望。

聲明:本文為作者投稿,版權歸對方所有。作者獨立觀點,不代表 CSDN 立場。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 CSDN 的精彩文章:

Python3 vs.Python2 大作戰,誰將是性能之王?
使用 React與Vue 創建同一款 App,差別究竟有多大?

TAG:CSDN |