爬網頁、洗數據、創建海量數據集一條龍！英偉達工程師小姐姐開源工具庫

科技 03-02

乾明發自凹非寺

量子位報道 | 公眾號 QbitAI

想做研究，卻沒有足夠的數據，著實讓人抓狂、苦惱。

現在，你可以自己動手創建數據集了。

英偉達工程師小姐姐Chip Huyen，在GitHub上開源了一個名為「lazynlp」的工具庫。

爬網頁、清洗數據、創建數據集都可以搞定。

她說，使用這個庫，你應該能創建一個比大於40G的文本數據集，比OpenAI訓練GPT-2時使用的還要大。

開源僅一天，項目在GitHub上就獲得了300多星，Twitter上獲得上千次點贊。fast.ai創始人Jeremy Howard等人也轉發推薦。

而且，用這個工具庫創建數據集的過程，也並不麻煩。

五步走，一條龍

第一步，獲取你想抓取的網頁的網址。

小姐姐提供了三個你可以直接拿走使用的網址集合，分別來自Reddit、古騰堡計劃（電子書）、維基百科。

當然，你也可以下載自己的。

第二步，刪除重複的網址。

網址有很多，重複也在所難免。

這裡提供了兩種方法，來刪除重複的網址。

第三步，下載網址內容。

這裡提供了兩種方法，一種可以並行下載多個文件，另一種可以單獨下載網頁內容。

如果網址數量比較大，可以將列表分成多個文件的，分別調用函數。

小姐姐說，自己能夠並行40個腳本，下載起來也更容易一些。

第四步，清理網頁。

這一步有3個方法可以選擇，一是使用lazynlp/cleaner.py中的方法，二是直接調用命令行：

lazynlp.clean_page(page)

另外，也可以使用lazynlp.download_pages ( )函數，同時爬網頁並清理。

第五步，刪除重複網頁。

網站下載好了，該清理的東西都清理了，接下來需要去重。

不然就會有一些文本重複出現，從而影響數據集的表現。

小姐姐提供了3個函數，可以幫你完成步驟。

做完這些，你就有自己的NLP數據集了，想幹什麼就可以放手去做了。

如果你有想法，請收好下面的傳送門：

https://github.com/chiphuyen/lazynlp

—完—

一份小調查

大噶好，

為了了解大家感興趣的話題，豐富我們的報道內容，帶來更好的閱讀體驗，請大家幫我們填一份調查問卷鴨，掃碼即可進入問卷頁面。

筆芯。（￣︶￣）

喜歡就點「好看」吧 !

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章: