爬網頁、洗數據、創建海量數據集一條龍!英偉達工程師小姐姐開源工具庫
乾明 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
想做研究,卻沒有足夠的數據,著實讓人抓狂、苦惱。
現在,你可以自己動手創建數據集了。
英偉達工程師小姐姐Chip Huyen,在GitHub上開源了一個名為「lazynlp」的工具庫。
爬網頁、清洗數據、創建數據集都可以搞定。
她說,使用這個庫,你應該能創建一個比大於40G的文本數據集,比OpenAI訓練GPT-2時使用的還要大。
開源僅一天,項目在GitHub上就獲得了300多星,Twitter上獲得上千次點贊。fast.ai創始人Jeremy Howard等人也轉發推薦。
而且,用這個工具庫創建數據集的過程,也並不麻煩。
五步走,一條龍
第一步,獲取你想抓取的網頁的網址。
小姐姐提供了三個你可以直接拿走使用的網址集合,分別來自Reddit、古騰堡計劃(電子書)、維基百科。
當然,你也可以下載自己的。
第二步,刪除重複的網址。
網址有很多,重複也在所難免。
這裡提供了兩種方法,來刪除重複的網址。
第三步,下載網址內容。
這裡提供了兩種方法,一種可以並行下載多個文件,另一種可以單獨下載網頁內容。
如果網址數量比較大,可以將列表分成多個文件的,分別調用函數。
小姐姐說,自己能夠並行40個腳本,下載起來也更容易一些。
第四步,清理網頁。
這一步有3個方法可以選擇,一是使用lazynlp/cleaner.py中的方法,二是直接調用命令行:
lazynlp.clean_page(page)
另外,也可以使用lazynlp.download_pages ( )函數,同時爬網頁並清理。
第五步,刪除重複網頁。
網站下載好了,該清理的東西都清理了,接下來需要去重。
不然就會有一些文本重複出現,從而影響數據集的表現。
小姐姐提供了3個函數,可以幫你完成步驟。
做完這些,你就有自己的NLP數據集了,想幹什麼就可以放手去做了。
如果你有想法,請收好下面的傳送門:
https://github.com/chiphuyen/lazynlp
—完—
一份小調查
大噶好,
為了了解大家感興趣的話題,豐富我們的報道內容,帶來更好的閱讀體驗,請大家幫我們填一份調查問卷鴨,掃碼即可進入問卷頁面。
筆芯。( ̄︶ ̄)
喜歡就點「好看」吧 !
※老牌國產晶元公司國芯為AI再出發!獲國投創合+創新工場1.5億元融資
※「深度學習不是學習」:英特爾高管與AI大牛LeCun展開互懟
TAG:量子位 |