當前位置:
首頁 > 知識 > 158萬張圖像的鑒黃數據集

158萬張圖像的鑒黃數據集


機器之心報道

如果你想訓練一個內容審核系統過濾不合適的信息,或用 GAN 實現一些大膽的想法,那麼數據集是必不可少的。但限制級圖像很難收集,也很少會開源。在這個項目中,作者構建了一個大型高質量圖像鑒黃數據集,它有超過 158 萬張圖像,共分為 159 個大類別,且每一個類別還有若干子類別。另外,今天發這篇文章和情人節完全無關,和你是不是單身狗完全無關,一切是為了探索機器學習的前沿……(笑眯眯手動摸狗頭)。

項目地址:https://github.com/EBazarov/nsfw_data_source_urls

在這篇文章中,我們將介紹一個新的鑒黃圖像開源項目,它的 158 萬數據量足夠訓練一個大型分類模型或生成模型,而且充足的類別也提升了數據的質量。總體而言,我們會發現該項目的圖像分類比較準確,至少我們採樣的一些圖像都屬於 NSFW 和對應的類別。

整個項目和 nsfw_data_scrapper 項目一樣提供對應的圖像超鏈,不同類別及子類別都有對應的 TXT 文件,所有超鏈都儲存在 TXT 文本中。如下所示為簡單的數據示例,因為本文這個數據集尺度有點大,我們以 nsfw_data_scrapper 數據集為例:


數據集統計信息


raw_data 文件夾中可以找到不同類別及對應的 TXT 文本,以下是關於該數據集的一些統計信息:



  • 159 個不同的類別



  • 158.9331 萬個 URL



  • 下載並清洗後大約有 500GB,或者說 130 萬張 NSFW 圖像。

如下所示為不同類別與對應圖像數,下圖只截取了少量類別作為示例:


每一個類別還會有一些小類,例如在緊身衣褲(appearance_clothing_tight-clothing)的類別下,還會細分一些子類別:

這些子類別並沒有統計信息,不過在讀取圖像並構建標註的過程中,我們可以考慮這些子類別,也可以忽略它們。

注意事項


1. 下載之後最好清洗一下數據集,如:



  • 刪除重複圖像



  • 移除被禁止/刪除的圖片(它們會產生一個特殊的圖像佔位符)



  • 找出損壞的數據並將其移除

2. 注意雜訊,一些資源提供了 NSFW 和中性圖像的高度混合的數據。

3. 該庫可以幫助檢索 NSFW 圖像,整個項目沒有針對中性圖像內容的專用 URL。



推薦閱讀


不會多機並行爬取數據的看這裡!


抖音爬蟲 | 手把手教你下載指定的Douyin視頻


資源 | 正則表達式的功法大全


春節假期十大AI事件,看看你都錯過了啥


GitHub不為人知的小秘密…讓你的工作更高效


畢業論文無從下手?一文幫你理清頭緒


Python可視化神器——pyecharts的超詳細使用指南!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |