個人信息的泄露在今天已經嚴重到了什麼地步?對普通人的生活有多大的影響?
如果我說大部分的人都是光著屁股在互聯網玩耍你信嗎?
信息泄漏的事情時時刻刻在發生,你認為安全的分享,平台認為安全的數據,不過就是一層薄薄的窗戶紙,一捅即破。
之前的《我在百度網盤上看到上萬條車主個人信息,企業、政府高官信息、各種資料庫和無窮無盡的盜版》這篇文章瞬間就火了,火爆程度令百度猝不及防。
其實呢,這事真不能全怪百度,畢竟用戶分享出去了。之所以引起這麼大轟動,主要是因為用戶的文件本身,什麼數據都有,導致這次危害或者說恐慌,進行了放大。
每一次危機過去之後————
普通人,只會對其津津樂道;
有能力的人,會思考如何避免再次發生;
而開拓者,則會洞察整個形勢。
百度網盤泄露事件留給了我們什麼
百度事件發生,得到消息的人會趕緊確認自己的隱私文件是否被分享,然後儘快取消分享保證安全。一周過後,風波也就散了,基本就沒有什麼話題或者新聞了。
這裡我拋出一系列問題: 1. 除了百度網盤,還有沒有其它類似的問題? 2. 遭受泄露的用戶群體,有哪些通性? 3. 從事技術行業的人,更具備敏感意識么?他們是否更大程度避免發生這類問題?
本篇文章不會給出答案,因為這是開放性問題,沒有絕對的答案。上面這幾個問題,目的是為了讓大家帶著思考去看下文,之後,你可能會對百度事件,有一個更全面的認識。
我是如何在全球最大的「同性社交平台」獲取數據的
好了,言歸正傳。小標題不是噱頭,毋庸置疑github是全球最大的同性社交平台,這篇文章,我會通過github向大家展示一種攻擊思路,以及我的一個成果:
我有幾千個github賬號和密碼(確實沒有上萬,不吹牛逼,該多少就多少)。
幾千個賬號,說多不多,說少不少,所運用到的技術原理——基於爬蟲的數據攻擊,這方面的研究(不知道算不算學術)差不多有一年多了,我會把可公開的內容展示給大家,研究的結果還不是很成熟,歡迎大家在下面評論討論,很樂意與大家交流。
在github平台,用戶需要輸入賬號和密碼登陸,而賬號可以輸入郵箱也可以輸入github的用戶名。
github用戶名就是所謂的git賬號,這個是對外公開的,查看個人主頁,或者查看代碼時候,都會在比較明顯的地方顯示用戶名,通過用戶名可以直接登錄github。比如這個哥們,他叫Sushil Thasale,而他的github賬號是sushil-thasale。
賬號很容易得到,那麼密碼怎麼才能知道呢?直接上圖!
1. 這是某個用戶的密碼:
這是這個用戶的登陸後的頁面:
2. 這個用戶名字是四位,很好的賬號——jv98,他的密碼很複雜:
這是登陸後的個人主頁:
個人賬戶設置頁面,我可以悄悄地加一個郵箱進行監控:
4. 再給一個2013年就註冊的賬號和密碼:
登陸後的個人主頁:
好了,不晒圖了,這種賬號確實有幾千個,而且有好多都是github的重度用戶。
細心的讀者應該已經發現,我是怎麼找到他們的密碼的了。所有密碼截圖,都是來自他們自己上傳到github項目的代碼里,所有截圖都是代碼截圖。我利用了github的搜索技術,搜索到一堆想要的賬號和密碼,然後進行登錄嘗試,登陸成功的我就記下來。
那麼,怎麼搜索才能找到呢?
1. 充分利用開源項目,開源項目有固定的存儲密碼的位置,比如php語言的wordpress,密碼存放位置在根目錄下的wp-config.php文件中,代碼內容define("DB_PASSWORD", "password")。
2. 開源項目有很多,就拿php語言來說,就有wordpress、joomla、phpcms、discuz等。 3. 利用搜索技術,比如同時搜索多個關鍵詞define,DB_PASSWORD,篩選語言為php,基本就能列出所有wordpress的密碼了。
4. 善於利用搜索技術,對於密碼為空的要過濾掉,對於密碼為####、*****這種的也要過濾掉。
以上操作,千萬不要手工,開頭我都說了————基於爬蟲的數據攻擊,所以我們要寫爬蟲,自動爬取github數據,然後通過正則匹配篩選掉不想要的數據。
這裡的核心就是爬蟲,以及過濾。過濾技術用得越好,數據越有價值,爆破的時間成本越低!
除了過濾掉常見的password、####、******、空密碼等,還有一個細節一定要注意:
沒錯,github密碼有要求的,所以我們可以寫個正則,只保留符合github密碼要求的,這樣我就拿到了一堆價值數據。
然後再用python寫個程序,模擬登陸github就可以了。
最後再展示一個github項目比較多的賬號:
為了避免引起額外信息泄露,暫時無法提供更多深入的數據和完整的爬蟲框架腳本。
坐擁這些賬號,目前我能想到的賺錢方法就是,收費幫別人的項目點贊。
網路安全從業者與爬蟲技術
爬蟲技術本身,並不能實施黑客攻擊,也不能直接與安全連在一起。
但是縱觀很多安全方面的東西,卻又都離不開爬蟲技術: 1. 百度網盤數據泄露,爬蟲惹的禍。 2. 某企業存在通過id泄露數據,我們可以編寫爬蟲批量掃描id獲取數據。 3. 某網站許可權配置不當,導致在特定情況訪問登陸後的頁面,這時候也可能需要寫爬蟲。 4. wvs等安全工具,嚴重依賴爬蟲,通過爬蟲爬取網站組織架構。 5. 探探app,兩年前我就玩過,含有大量美女,我的第一反應不是感不感興趣,而是悄悄地寫了個爬蟲,獲取了大量圖片,而且我還發現他們防色情做的不嚴謹。(開個玩笑)
寫到這裡,大家應該明白了,為什麼我強調爬蟲的重要性了。
另外,爬蟲可以使很多事情變得有趣,只要肯琢磨,腦洞足夠開,我們完全可以實施很多攻擊。
從過來人角度說一下,自己的成長蠻有意思的,從爬蟲起家學技術,中途又在公司從事過接近一年的數據挖掘,這兩個技術的結合,給我的學習和研究,帶來了很多興趣。
當你具備爬蟲和數據分析時,你真的可以去改變一些事情。
烏雲密布的爬蟲
百度網盤這件事,是我不想看到的,這類安全問題的一個共同特點: 1. 用戶自身確實存在問題。 2. 從嚴格意義上講,這個不是漏洞。 3. 企業在修復時,處於下風,甚至無能為力、無法修復。
就拿github這個例子來說,除非我把github幾千個賬號發出來,github把每個人賬號都凍結。
我只是嘗試了一些開源項目,還有很多項目我沒有實施爬蟲攻擊,比如facebook的redmine項目等,很有可能這些項目代碼里,也有密碼泄露。
真的沒辦法根治!未來,我擔心會有越來越多的安全問題,屬於沒有辦法根治的,卻存在極大安全隱患的。就好比,我生大病了,我卻不知道怎麼治,你說問題嚴重么?
再給大家簡單展示一個例子,為了避免引起不必要的隱患,具體的爬蟲思路我全部省略。
只說結論: 腳本執行了一個下午,我便擁有了幾百個阿里雲服務,其中不乏性能很高的服務,不乏百萬數據級別的redis服務,也不乏企業服務。這些服務裡面的數據,我不知道有多少價值,泄露會引起多少恐慌,因為我一條都沒看過。
這是提交給阿里雲之後,阿里雲的修復建議(很早之前的簡訊了):
我的同事、朋友們之中,都有收到阿里雲的這條簡訊。嗯,沒錯,因為漏洞本身源自用戶自己的數據泄露,只能通過簡訊提醒用戶。
是不是和百度網盤泄露,有相似之處?
連技術人員的信息泄露都如此隨意,何況普通人耶?
就寫到這裡吧……安全漸遠漸行,卻總有一些無能為力的事情發生,絲絲的痛。
我能做的也只有分享一下我所知道防止信息泄露的方法,盡我微薄之力罷了。
TAG:i春秋學院 |