一個全球最大成人網站的爬蟲
簡介
項目主要是爬取全球最大成人網站PornHub的視頻標題、時長、mp4鏈接、封面URL和具體的PornHub鏈接
項目爬的是PornHub.com,結構簡單,速度飛快
爬取PornHub視頻的速度可以達到500萬/天以上。具體視個人網路情況,因為我是家庭網路,所以相對慢一點。
10個線程同時請求,可達到如上速度。若個人網路環境更好,可啟動更多線程來請求,具體配置方法見 [啟動前配置]
環境、架構
開發環境: MacOS系統、4G內存
資料庫: MongoDB
主要使用 scrapy 爬蟲框架
從Cookie池和UA池中隨機抽取一個加入到Spider
start_requests 根據 PorbHub 的分類,啟動了5個Request,同時對五個分類進行爬取。
並支持分頁爬取數據,並加入到待爬隊列。
使用說明啟動前配置
安裝MongoDB,並啟動,不需要配置
安裝Python的依賴模塊:Scrapy, pymongo, requests 或
根據自己需要修改 Scrapy 中關於 間隔時間、啟動Requests線程數等得配置
啟動
python PornHub/quickstart.py
運行截圖
資料庫說明
資料庫中保存數據的表是 PhRes。以下是欄位說明:
PhRes 表:
項目地址:https://github.com/xiyouMc/WebHubBot/
題圖:pexels,CC0 授權。
點擊展開全文
※利用Tesseract圖片文字識別初探
※雲伺服器彈性、安全、穩定背後的技術秘密
※如何利用 Celery 執行定時任務並設置優先順序?
※Flask 進階:如何實現 HTTPS?
TAG:編程派 |
※暴雪再次重創全球最大外掛團隊 懟到網站關閉
※全球點擊量最高的十個網站,被美國和中國包攬了,中國佔了四個!
※2018年全球十大熱門網站,中國有兩個,看看他們的創始人都是誰
※個人網站要成功必走這三條路
※全球點擊量最高的4個網站,被美國和中國包攬了,中國佔了四個!
※暑期檔大劇復盤:視頻網站全面崛起、愛奇藝成最大贏家、小而美反超大IP
※全球最大的眾籌網站上,人氣最高的中國產品竟然是它……
※一個神奇的網站 每次刷新都會由AI生成一張肖像圖
※全球最厲害的4位黑客:最後一位是中國人,並把國旗插在美國網站
※全球三大頂尖黑客,這個中國人赫然在列,曾將國旗放到美國網站上
※自媒體最愛,最大最全搜索網站推薦 讓你一次愛個夠
※波蘭最大的門戶網站 Logo 只是一個黃色的圓
※「每刷新一次生成一副假臉」的網站,迎來眾多模仿者
※國外的網站盤點世界橋樑!前十個橋樑中,中國就擁有8個幾乎霸榜!
※外國網站公布全球最恐怖景點,中國僅有一個上榜,網友:外國人是不是有什麼誤會
※我終於還是給世界最大的動作片網站貢獻了一個點擊
※工作中十一個極其方便的網站
※網站榮耀四個越到後期越強的被動 第一個都趕上一個大件了
※中國最牛兩大黑客:一位將國旗插在美國網站,一位讓日本網路癱瘓
※這才是一個神奇的網站