自然語言處理領域公開數據集

最新 04-22

網上公開的數據集很多，在這裡整理了一份關於自然語言處理領域的公開數據集的清單，內容如下。

1. Apache Software Foundation Public Mail Archives（公共郵件存檔）

大小：200GB

內容：截至2011年7月11日所有公開可用的Apache Software Foundation郵件。

鏈接：https://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/

2.Blog Authorship Corpus（博客作者身份語料庫）

大小：298MB

內容：包含2004年8月從blogger.com收集的19,320位博主的文章，共計681,288篇，字數超過1.4億—平均每人35篇、7250字。

鏈接：http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

3. Amazon Fine Food Reviews [Kaggle]（亞馬遜食品評論）

大小：240MB

內容：數據跨越10年以上，包括截至2012年10月的568,454條評論。內容包括產品、用戶信息、評分以及純文本評論。

鏈接：http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

4. Amazon Reviews（亞馬遜評論）

大小：11GB

內容：斯坦福收集了18年期間的3500萬條亞馬遜評論。

鏈接：http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

5. ASAP Automated Essay Scoring [Kaggle]（ASAP自動短文評分）

大小：100MB

內容：一共包含八個作文集，每一集作文都圍繞一個主題展開。短文的平均長度為150到550個字。一些文章依賴於主題信息，另一些則是自由發揮。所有文章都是由7年級到10年級的學生撰寫的，並經相關人員手工評分，有些還進行了雙重評分。

鏈接：

https://www.kaggle.com/c/asap-aes/data

6. ASAP Short Answer Scoring [Kaggle]（ASAP自動簡答題評分）

大小：35MB

內容：一共包含十個數據集，每個數據集都是由單個提示生成的。平均長度為50個字。一些回答依賴於問題信息，另一些則是自由發揮。所有答案都是由10年級的學生撰寫的，並經相關人員手動分級並進行雙重評分。

鏈接：

https://www.kaggle.com/c/asap-sas/data

7. Classification of political social media（美國政客的社交媒體消息分類）

大小：4MB

內容：收集了來自美國參議員和其他美國政客的數千條社交媒體消息，可按內容分類為目標群眾（國家或選民）、政治主張（中立/兩黨或偏見/黨派）和實際內容（如攻擊政敵等）

鏈接：https://www.figure-eight.com/data-for-everyone/

8. CLiPS Stylometry Investigation (CSI) Corpus（CSI語料庫）

內容：荷蘭語，該語料庫包含兩種類型的學生信息：作文和評論。涉及作者（性別、年齡、性取向、來源地區、性格概況）和文檔（時間、流派、真實性、情緒、等級）等大量原數據。由安特衛普大學CLiPS研究中心提供，主要用於計量文體學分析。

鏈接：https://www.clips.uantwerpen.be/datasets/csi-corpus

9. Common Crawl Corpus（AWS爬蟲數據）

大小：541TB

內容：收集了從2008以來抓取的50億個網頁的數據。其中自2013年開始，所有爬蟲只持續一個月，數據以WARC文件格式存儲。從2012年開始，抓取的數據還包含原數據（WAT）和文本數據（WET）提取，大大簡化了數據處理。

鏈接：https://aws.amazon.com/cn/public-datasets/common-crawl/

10. Cornell Movie Dialog Corpus（康奈爾電影對話語料庫）

大小：9.5MB

內容：包含從原始電影腳本中提取的對話集：10,292對電影角色之間的220,579次會話交流、涉及617部電影中的9,035個字元，共304,713個句子。元數據極其豐富，包含流派、發布年份、IMDB評級、IMDB票數、性別、在電影積分榜上的位置。

鏈接：

http://www.cs.cornell.edu/%7Ecristian/Cornell_Movie-Dialogs_Corpus.html

11. Crosswikis

大小：11GB

內容：英語短語相關的維基百科文章資料庫、論文

12. DBpedia

大小：17GB

內容：包含從維基百科中提取出的結構化信息，包括312,000個人、413,000個地點、94,000張音樂專輯、49,000部電影、15,000種電子遊戲、140,000個組織、146,000個物種和4600種疾病。共計10億多條信息，其中2.57億條來自維基百科英文版，7.66億條來自其他語言版本。

鏈接：

https://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic

13. Disasters on social media（社交媒體上有關災難的消息）

大小：2MB

內容：包含10,000條和災難事故相關的帶注釋推特

鏈接：https://www.figure-eight.com/data-for-everyone/

14. Enron Email Data（Enron電子郵件集）

大小：210GB

內容：包含1,227,255封電子郵件，其中493,384份附件覆蓋了151名託管人。該電子郵件的格式為Microsoft PST、IETF MIME和EDRM XML

鏈接：https://aws.amazon.com/de/datasets/enron-email-data/

15. Examiner.com - Spam Clickbait News Headlines [Kaggle]（垃圾郵件/標題黨新聞數據集）

大小：200MB

內容：新聞網站The Examiner上的新聞彙編，包含超過6年的21000多位作者撰寫的300萬篇文章。

鏈接：https://www.kaggle.com/therohk/examine-the-examiner

16. Flickr Personal Taxonomies

大小：40MB

內容：社交媒體上用戶按個人喜好分類內容的樹形數據集。

鏈接：https://www.isi.edu/%7Elerman/downloads/flickr/flickr_taxonomies.html

17. Freebase Data Dump

大小：26GB

內容：是一個開放的世界信息資料庫，包含電影、音樂、人物、地域在內的數百個類別的數百萬個主題。

鏈接：https://aws.amazon.com/de/datasets/freebase-data-dump/

18. GigaOM WordPress Challenge [Kaggle]

大小：1.5GB

內容：預測有人會喜歡哪些博客文章。包含博客文章、元數據、用戶喜歡情況等信息。

鏈接：https://www.kaggle.com/c/predict-wordpress-likes/data

19. Hate speech identification（仇恨言語識別）

大小：3MB

內容：由ICWSM 2017論文「自動仇恨語音檢測和無禮語言問題」的作者提供。包含3類短文本：a）包含仇恨言論；b）是冒犯性的，但沒有仇恨言論；c）根本沒有冒犯性。由15,000行文本構成，每個字元串都經過3人判斷。

鏈接：https://github.com/t-davidson/hate-speech-and-offensive-language

20. Home Depot Product Search Relevance [Kaggle]

大小：65MB

內容：包含Home Depot網站上的關於產品和真實客戶的搜索信息。每對詞都經3名評估人員評估，並給出1-3的相關性評分，可用來預測相關性。

鏈接：https://www.kaggle.com/c/home-depot-product-search-relevance/data

21. Material Safety Datasheets（材料安全數據表）

大小：3GB

內容：230,000份材料安全數據表，包含化學成分、急救措施、儲存和處理等信息。

鏈接：https://aws.amazon.com/de/datasets/material-safety-data-sheets/

22. MCTest

大小：1MB

內容：提供660個故事和相關問題，用於研究機器對文本的理解、回答問題。

鏈接：https://www.microsoft.com/en-us/research/lab/microsoft-research-redmond/?from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fum%2Fredmond%2Fprojects%2Fmctest%2Findex.html

23. NYTimes Facebook Data（NYTimes Facebook數據）

大小：5MB

內容：所有關於《紐約時報》的Facebook帖子

鏈接：http://minimaxir.com/2015/07/facebook-scraper/

24. One Week of Global News Feeds （一周全球新聞饋送）

大小：115MB

內容：一周內（2017年8月24日至2017年8月30日）全球在線發布的大多新聞內容的快照，包括大約140萬篇文章、20,000個新聞來源和20多種語言。

鏈接：https://www.kaggle.com/therohk/global-news-week

25. Reddit Comments（Reddit評論）

大小：250GB

內容：截至2015年7月的每個公開可用的書籤評論，共計17億條評論

鏈接：

https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/

26. SMS Spam Collection（簡訊垃圾郵件收集）

大小：200KB

內容：是一個包含5,574英文單詞，真實的、未附帶附件的簡訊內容集，已合法進行標記

鏈接：http://www.dt.fee.unicamp.br/%7Etiago/smsspamcollection/

27. Yahoo! Answers Comprehensive Questions and Answers

大小：3.6GB

內容：2017年10月25日創建，包含4,483,032個問題及其答案。

鏈接：https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

28. Yahoo! Answers Manner Questions

大小：104MB

內容：Yahoo! Answers corpus的子集，並根據語言屬性進行選擇，包含142,627個問題及其答案。

鏈接：https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

29. Yahoo! N-Gram Representations

大小：2.6GB

內容：包含n-gram表示形式，這些數據可以作為查詢重寫任務的測試，這是IR研究中的一個常見問題，也可用於NLP研究中常見的單詞和句子相似性任務。

鏈接：https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

30. Yahoo! N-Grams 2.0

大小：12GB

內容：n-gram（n = 1至5），從1260多個面向新聞的站點中檢索到的1460萬個文檔（1.26億條語句，34億個詞）。

鏈接：https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

31. Yelp

內容：包括餐廳排名和220萬條評論。

鏈接：https://www.yelp.com/dataset

與情感分析任務相關的數據集：

1. Twitter New England Patriots Deflategate sentiment（Twitter上關於新英格蘭愛國者隊泄氣門（Deflategate）事件的情緒）

大小：2MB

內容：新英格蘭愛國者隊在美國橄欖球聯合會（AFC）決賽中擊敗印第安納波利斯小馬隊，將在2月1號的超級碗大賽中迎戰西雅圖海鷹隊。但是愛國者隊被發現在這次比賽中使用的12個橄欖球有11個充氣不足。這個數據集可用於觀察醜聞爆發Twitter用戶的情緒，以衡量公眾對整個事件的看法。

鏈接：https://www.figure-eight.com/data-for-everyone/

2. Twitter Progressive issues sentiment analysis（Twitter上激進分子情緒分析）

大小：600KB

內容：關於諸如墮胎合法化、女權主義、希拉里·柯林頓等各種左傾問題的推文，分為贊成、反對或保持中立的三種類別。

鏈接：https://www.figure-eight.com/data-for-everyone/

3. Twitter Sentiment140

大小：77MB

內容：與品牌/關鍵字相關的推文。是一個可用於情感分析的數據集。

鏈接：http://help.sentiment140.com/for-students/

4. Twitter sentiment analysis: Self-driving cars

大小：1MB

內容：自駕車：閱讀推文，將其分為非常積極的、輕微積極的、中性的、輕微消極的或非常消極的，並標記其是否與自駕車相關。

鏈接：https://www.figure-eight.com/data-for-everyone/

5. Twitter US Airline Sentiment [Kaggle]（Twitter美國航空公司）

大小：2.5MB

內容：收集了twitter用戶對於一些美國主要航空公司的評價情況。數據始於從2015年2月，評論者需選擇正面、負面和中性中的一類，如有負面評價，再進行原因分類（如「晚班」或「粗魯服務」）。

鏈接：https://www.kaggle.com/crowdflower/twitter-airline-sentiment

6. 豆瓣網影評情感測試語料

內容：來自豆瓣網對電影《ICE AGE3》的評論，評分標準均按照5 stars評分在網頁中有標註。語料庫527頁。每頁20條短評。共計11323條評論。

鏈接：http://www.datatang.com/data/13539

7. 康奈爾大學(Cornell)提供的影評數據集

內容：由電影評論組成,其中持肯定和否定態度的各1,000 篇;另外還有標註了褒貶極性的句子各5,331 句,標註了主客觀標籤的句子各5,000 句.目前影評庫被廣泛應用於各種粒度的,如詞語、句子和篇章級情感分析研究中。

鏈接：http://www.cs.cornell.edu/people/pabo/movie-review-data

8. 知網的情感詞典

內容：由知網發布的詞典，包括中文情感詞典和英文情感詞典。

鏈接：http://www.keenage.com/html/c_bulletin_2007.htm

9. 台灣大學的情感極性詞典

內容：包括2810個正極性詞語和8276個負極性詞語，準確度很高

鏈接：http://www.datatang.com/data/11837

10. 主觀詞詞典

內容：該詞典的主觀詞語來自OpinionFinder 系統,該詞典含有8,221 個主觀詞,並為每個詞語標註了詞性以及情感極性。

鏈接：http://www.cs.pitt.edu/mpqa

11.HowNet 評價詞詞典

內容：該詞典包含9,193 個中文評價詞語/短語, 9,142 個英文評價詞語/短語,並被分為褒貶兩類.其中,該詞典提供了評價短語,為情感分析提供了更豐富的情感資源。

鏈接：http://www.keenage.com/html/e_index.html

本文的編輯參考了以下文章：

1. 知乎專欄：https://www.zhihu.com/org/lun-zhi-40/activities

2. 公眾號：機器學習演算法與Python學習-情感分析語料庫

本文轉載自黑龍江大學自然語言處理實驗室公眾號，特此致謝！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 Ling大連西路550號 的精彩文章:

※劉志基：「花季」與「季軍」

TAG:Ling大連西路550號 |