當前位置:
首頁 > 科技 > 爬網頁、洗數據、創建海量數據集一條龍!英偉達工程師小姐姐開源工具庫

爬網頁、洗數據、創建海量數據集一條龍!英偉達工程師小姐姐開源工具庫

乾明 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

想做研究,卻沒有足夠的數據,著實讓人抓狂、苦惱。

現在,你可以自己動手創建數據集了。

英偉達工程師小姐姐Chip Huyen,在GitHub上開源了一個名為「lazynlp」的工具庫。

爬網頁、清洗數據、創建數據集都可以搞定。

她說,使用這個庫,你應該能創建一個比大於40G的文本數據集,比OpenAI訓練GPT-2時使用的還要大。

開源僅一天,項目在GitHub上就獲得了300多星,Twitter上獲得上千次點贊。fast.ai創始人Jeremy Howard等人也轉發推薦。

而且,用這個工具庫創建數據集的過程,也並不麻煩。

五步走,一條龍

第一步,獲取你想抓取的網頁的網址。

小姐姐提供了三個你可以直接拿走使用的網址集合,分別來自Reddit、古騰堡計劃(電子書)、維基百科。

當然,你也可以下載自己的。

第二步,刪除重複的網址。

網址有很多,重複也在所難免。

這裡提供了兩種方法,來刪除重複的網址。

第三步,下載網址內容。

這裡提供了兩種方法,一種可以並行下載多個文件,另一種可以單獨下載網頁內容。

如果網址數量比較大,可以將列表分成多個文件的,分別調用函數。

小姐姐說,自己能夠並行40個腳本,下載起來也更容易一些。

第四步,清理網頁。

這一步有3個方法可以選擇,一是使用lazynlp/cleaner.py中的方法,二是直接調用命令行:

lazynlp.clean_page(page)

另外,也可以使用lazynlp.download_pages ( )函數,同時爬網頁並清理。

第五步,刪除重複網頁。

網站下載好了,該清理的東西都清理了,接下來需要去重。

不然就會有一些文本重複出現,從而影響數據集的表現。

小姐姐提供了3個函數,可以幫你完成步驟。

做完這些,你就有自己的NLP數據集了,想幹什麼就可以放手去做了。

如果你有想法,請收好下面的傳送門:

https://github.com/chiphuyen/lazynlp

一份小調查

大噶好,

為了了解大家感興趣的話題,豐富我們的報道內容,帶來更好的閱讀體驗,請大家幫我們填一份調查問卷鴨,掃碼即可進入問卷頁面。

筆芯。( ̄︶ ̄)

喜歡就點「好看」吧 !


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

老牌國產晶元公司國芯為AI再出發!獲國投創合+創新工場1.5億元融資
「深度學習不是學習」:英特爾高管與AI大牛LeCun展開互懟

TAG:量子位 |