爬取了 31502 條北京自如租房數據,看看是否居者有其屋?
作者 | 小獅子是LEO
責編 | 郭芮
自如友家作為北京租房的主要途徑之一,租房數據都展示在官方網站之上,價格等房屋信息與網站數據一致,數據可信度較高、格式規整。因而選取自如友家官方網站作為租房數據的獲取來源,分析自如友家的租房數據,可以一定程度上反映出北京的租房現狀。
本文的具體思路如下:
首先使用爬蟲獲取租房數據,定時爬取自如官網8月9日到9月8日之間展示的合租信息,爬取間隔為每天一次。
然後使用Pandas對獲取的數據進行數據清洗,去除數據中的無效及重複部分,最終獲取租房數據的總數為31502條。
最後依據獲取的租房數據對北京自如友家的房租價格、房屋數量、房屋分布、房屋屬性等信息做定量分析,同時定性分析影響房屋價格的因素。
房租價格
1、總體價格
8月9日到9月8日30天內北京自如友家單個房間的平均房租為2781元,最低價格1030元,最高價格6830元,具體的價格分布如下。
由圖可知自如合租的單個房間價格大多分布在2000元與3000元價格檔位,其中2500元附近分布最為密集。
自如友家房的租金價格分為XX30、XX60、XX90三種,同一價格區間內三者數目依次遞增,大多數房間定位的價格為XX90,圖中分布較高的柱形均為XX90。
2、各區價格
為了能夠客觀地比較北京各個行政區域的租金價格差異,將北京各個行政區域的租金分布繪製成箱型圖,X軸各行政區按照平均價格由高到低排列。由圖可見北京平均房租價格最高的為西城區,平均價格為3504元,平均房租最低的為門頭溝區,平均價格為1574元。
由箱型圖大致可以看到各個行政區的房租分布情況,其中房租差距最大的為海淀區,房租差距最小的為門頭溝區。
3、價格趨勢
計算30天內每日的平均房租價格,繪製自如友家房租的價格趨勢圖如下。
8月9日自如網站所有合租房源均價為2763元,9月8日房租均價為2693元,30天之內大部分日期的房租平均價格位於2700元到2750元之間,最高價格為8月11日的2888元,最低價格為9月8日的2693元,總體而言房租價格穩定且呈略微下降的趨勢。房租均價的下降可能與畢業季租房高峰結束有關。
房屋數量
本次總計獲取的房租數據總數為31502條,而自如網站上展示的房源有部分處於已出租狀態,因而一個月以內可以出租的房源應該小於這一數目。計算每日自如網站的租房信息條數並繪製每日在線房屋數量變化圖如下。
30天內房屋數量最多的為9月8日的12223間,房屋數量最少的為8月11日的6113間,從8月12日開始自如網站的每日在線房屋數量一直處於上升狀態,並且較之前的房屋數目有了非常大的提升,推測這可能與前一段時間北京市約談有關。
房屋分布
1、分布熱力圖
七月份曾通過爬蟲抓取自如的每一個租房頁面獲取房屋的詳細信息,三次共獲取租房信息14850條,其中包含了房屋的經緯度信息,以此為基礎使用百度地圖API繪製北京自如友家的房屋分布熱力圖如下。
由圖中分布可以看出自如房屋分布最密集的部分有:回龍觀、天通苑、望京、順義(15號線末端)、通州(八通線與6號線末端)、丰台科技園(地鐵首經貿與科怡路站周邊)、羅庄東里、勁松、棗園、天宮院等。
2、各區比例
統計自如友家在各個行政區的房屋分布如下圖所示。
分布數量最多的是朝陽區,占房屋總量的22.12%,分布數量最少的是門頭溝區僅占房屋分布總量的1.16%。
3、小區分布
相對於行政區,小區的劃分更加精細,能夠反映除房屋自身屬性以外的其它屬性,如位置、交通、生活的便利程度等,因此根據統計數據分析自如各個小區的房屋分布情況,取前50名如下圖所示,字體越大表示房屋數量越多。
可見龍冠冠華苑是八月北京自如友家房屋分布數量最多的小區。圖中小區大多分布在熱力圖中的紅色位置,能更確切地說明自如友家的房屋分布狀況。
房屋屬性
1、房屋面積
統計獲取的所有房屋的面積如下,最小房屋面積為4.5平米,最大房屋面積為59.6平米,平均面積為12.86平方米,大部分的房屋分布在8平米到15平米之間,其中11.5平米左右與14.5平米左右房屋分布最為密集,推測兩個峰值的出現可能次卧,主卧有關。
2、房屋類型
由房屋類型的分布圖可知,自如友家絕大部分的出租房源為三居室,佔據所有房源的62.56%,房間數目最多的為8居室佔據所有房源的0.03%。
3、房屋朝向
統計所有房屋的朝向,可見自如房間的朝向總計有8種,其中南向卧室的比例最多,房屋朝向主要為南、北、東、西等比較正常朝向,但比較奇怪的朝向也佔據了所有房屋的4.48%。
4、樓高分布
由自如房源的樓高分布圖可知,自如友家所在的小區樓高最多的為6層,佔據總數的28.99%,一般來講6層樓高的多為比較老的小區。
房租價格定性分析
房租價格影響因素較多,並非簡單的線性關係,很難定量得出房價與各影響因素的關係,因而下面定性地分析影響房租價格的各項因素。
首先由北京各地區房租分布的差異可知房屋位置是影響房租價格的主要因素,為分析除此之外影響房屋價格的其它因素,本文採用房屋數量最多的小區內所有的房源作對比分析。將房間的朝向、房間的面積,房間的價格繪製在同一張散點圖中,紅色的表示南向卧室,深藍色的表示北向卧室。
如圖所示南向房間價格總體高於北向卧室價格,可見房間朝向對於房租有一定的影響,南向卧室價格較高。
隨著房屋面積的增加,房租成上升趨勢,但二者並不成正比,一定範圍內房間面積對房租價格影響不大,例如該小區15到20平米內南向房租價格基本無變化。
在散點圖中南向房間12到15平米內價格聚集在兩個1890與2190兩個價格區間,產生此種差異的原因是因為房屋戶型不同,2190的房屋基本都有陽台,1890的房屋基本沒有陽台,因而是否帶有陽台也是是影響房租價格的因素之一。
綜上影響房租的因素除房屋位置外還包含,房屋朝向、房屋面積、房屋戶型等。
代碼實現
本文篇幅有限,無法展示所有代碼,因而選取部分主要代碼,重在表述實現思路。
1、數據獲取
數據獲取的思路是使用Python爬蟲爬取自如友家網站的租房數據,具體方案如下:
使用selenium及PhantomJS模擬瀏覽器網站,不選取Chrome-headless的原因是PhantomJS可以更加方便的實現整個網頁的截圖。按行政區域爬取租房數據,主要代碼如下:
使用BeautifulSoup解析HTML,獲取名稱、面積、樓層等房屋屬性信息。自如網站的房屋租金為了防止爬取做了特殊處理,因而使用pytesseract識別截圖中的價格信息,代碼如下:
2、數據清洗
由於爬取的數據存在重複數據及錯誤數據,因而本文使用Pandas做數據清洗,去除重複及錯誤部分。
3、數據分析
數據分析部分使用百度地圖API及pyecharts對數據進行可視化分析,由於繪製的圖表較多,百度地圖API以熱力圖作為例子,pyecharts以玫瑰餅圖作為例子。
熱力圖:
玫瑰餅圖:
4、參考資料
Selenium文檔:
https://selenium-python-zh.readthedocs.io/en/latest/
BeautifulSoup文檔:
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
百度地圖API文檔:
http://lbsyun.baidu.com/index.php?title=jspopular
Pyecharts文檔:
http://pyecharts.org/#/zh-cn/charts_configure
寫在最後
自如友家的房租定價與北京市房租基本呈正相關,因而本次對自如友家八月份租房數據的分析,一定程度上可以作為北京租房市場的參考。
從七月份房租暴漲到八月份房租趨於穩定,相關部門的約談與監管起到了非常重要的作用。希望在相關部門監管及民眾的關注下,房屋租賃市場能夠健康發展,使居者有其屋,在高房價的社會中給年輕人一絲喘息的機會。
作者:小獅子是LEO,苦逼軟體工程師,業餘Python愛好者。
聲明:本文為作者獨家原創投稿,未經允許請勿轉載。
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)
※中興侵權案敗訴需賠 2.89 億元;HTC 裁員 1500 人;Android P Beta 3 發布
※程序員月入2萬與5千,這就是差距!
TAG:CSDN |