當前位置:
首頁 > 知識 > 情人節:一本正經地為單身狗推薦這個158萬張圖像的鑒黃數據集

情人節:一本正經地為單身狗推薦這個158萬張圖像的鑒黃數據集

機器之心報道

機器之心編輯部

如果你想訓練一個內容審核系統過濾不合適的信息,或用 GAN 實現一些大膽的想法,那麼數據集是必不可少的。但限制級圖像很難收集,也很少會開源。在這個項目中,作者構建了一個大型高質量圖像鑒黃數據集,它有超過 158 萬張圖像,共分為 159 個大類別,且每一個類別還有若干子類別。另外,今天發這篇文章和情人節完全無關,和你是不是單身狗完全無關,一切是為了探索機器學習的前沿……(笑眯眯手動摸狗頭)。

項目地址:https://github.com/EBazarov/nsfw_data_source_urls

上個月我們介紹了一個有22 萬張 NSFW 圖像的 GitHub 項目(nsfw_data_scrapper),僅分為 5 個類別。這個項目不同類別之間的距離並不是很明顯,且有很多圖像存在誤分類或不應該歸類於 NSFW 中。不過 nsfw_data_scrapper 項目確實是近來少有的開源圖像鑒黃數據集,開源一個多月以來獲得了 7000 的 GitHub 收藏量。

nsfw_data_scrapper 項目鏈接:https://github.com/alexkimxyz/nsfw_data_scrapper

在這篇文章中,我們將介紹一個新的鑒黃圖像開源項目,它的 158 萬數據量足夠訓練一個大型分類模型或生成模型,而且充足的類別也提升了數據的質量。總體而言,我們會發現該項目的圖像分類比較準確,至少我們採樣的一些圖像都屬於 NSFW 和對應的類別。

整個項目和 nsfw_data_scrapper 項目一樣提供對應的圖像超鏈,不同類別及子類別都有對應的 TXT 文件,所有超鏈都儲存在 TXT 文本中。如下所示為簡單的數據示例,因為本文這個數據集尺度有點大,我們以 nsfw_data_scrapper 數據集為例:

數據集統計信息

raw_data 文件夾中可以找到不同類別及對應的 TXT 文本,以下是關於該數據集的一些統計信息:

159 個不同的類別

158.9331 萬個 URL

下載並清洗後大約有 500GB,或者說 130 萬張 NSFW 圖像。

如下所示為不同類別與對應圖像數,下圖只截取了少量類別作為示例:

每一個類別還會有一些小類,例如在緊身衣褲(appearance_clothing_tight-clothing)的類別下,還會細分一些子類別:

這些子類別並沒有統計信息,不過在讀取圖像並構建標註的過程中,我們可以考慮這些子類別,也可以忽略它們。

注意事項

1. 下載之後最好清洗一下數據集,如:

刪除重複圖像

移除被禁止/刪除的圖片(它們會產生一個特殊的圖像佔位符)

找出損壞的數據並將其移除

2. 注意雜訊,一些資源提供了 NSFW 和中性圖像的高度混合的數據。

3. 該庫可以幫助檢索 NSFW 圖像,整個項目沒有針對中性圖像內容的專用 URL。

本文為機器之心報道,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

過往Net,皆為調參?一篇BagNet論文引發學界震動
ICLR 2019 | 與膠囊網路異曲同工:Bengio等提出四元數循環神經網路

TAG:機器之心 |