情人節:一本正經地為單身狗推薦這個158萬張圖像的鑒黃數據集
機器之心報道
機器之心編輯部
如果你想訓練一個內容審核系統過濾不合適的信息,或用 GAN 實現一些大膽的想法,那麼數據集是必不可少的。但限制級圖像很難收集,也很少會開源。在這個項目中,作者構建了一個大型高質量圖像鑒黃數據集,它有超過 158 萬張圖像,共分為 159 個大類別,且每一個類別還有若干子類別。另外,今天發這篇文章和情人節完全無關,和你是不是單身狗完全無關,一切是為了探索機器學習的前沿……(笑眯眯手動摸狗頭)。
項目地址:https://github.com/EBazarov/nsfw_data_source_urls
上個月我們介紹了一個有22 萬張 NSFW 圖像的 GitHub 項目(nsfw_data_scrapper),僅分為 5 個類別。這個項目不同類別之間的距離並不是很明顯,且有很多圖像存在誤分類或不應該歸類於 NSFW 中。不過 nsfw_data_scrapper 項目確實是近來少有的開源圖像鑒黃數據集,開源一個多月以來獲得了 7000 的 GitHub 收藏量。
nsfw_data_scrapper 項目鏈接:https://github.com/alexkimxyz/nsfw_data_scrapper
在這篇文章中,我們將介紹一個新的鑒黃圖像開源項目,它的 158 萬數據量足夠訓練一個大型分類模型或生成模型,而且充足的類別也提升了數據的質量。總體而言,我們會發現該項目的圖像分類比較準確,至少我們採樣的一些圖像都屬於 NSFW 和對應的類別。
整個項目和 nsfw_data_scrapper 項目一樣提供對應的圖像超鏈,不同類別及子類別都有對應的 TXT 文件,所有超鏈都儲存在 TXT 文本中。如下所示為簡單的數據示例,因為本文這個數據集尺度有點大,我們以 nsfw_data_scrapper 數據集為例:
數據集統計信息
raw_data 文件夾中可以找到不同類別及對應的 TXT 文本,以下是關於該數據集的一些統計信息:
159 個不同的類別
158.9331 萬個 URL
下載並清洗後大約有 500GB,或者說 130 萬張 NSFW 圖像。
如下所示為不同類別與對應圖像數,下圖只截取了少量類別作為示例:
每一個類別還會有一些小類,例如在緊身衣褲(appearance_clothing_tight-clothing)的類別下,還會細分一些子類別:
這些子類別並沒有統計信息,不過在讀取圖像並構建標註的過程中,我們可以考慮這些子類別,也可以忽略它們。
注意事項
1. 下載之後最好清洗一下數據集,如:
刪除重複圖像
移除被禁止/刪除的圖片(它們會產生一個特殊的圖像佔位符)
找出損壞的數據並將其移除
2. 注意雜訊,一些資源提供了 NSFW 和中性圖像的高度混合的數據。
3. 該庫可以幫助檢索 NSFW 圖像,整個項目沒有針對中性圖像內容的專用 URL。
本文為機器之心報道,轉載請聯繫本公眾號獲得授權。
------------------------------------------------
※過往Net,皆為調參?一篇BagNet論文引發學界震動
※ICLR 2019 | 與膠囊網路異曲同工:Bengio等提出四元數循環神經網路
TAG:機器之心 |