當前位置:
首頁 > 最新 > 自然語言處理領域公開數據集

自然語言處理領域公開數據集

網上公開的數據集很多,在這裡整理了一份關於自然語言處理領域的公開數據集的清單,內容如下。

1. Apache Software Foundation Public Mail Archives(公共郵件存檔)

大小:200GB

內容:截至2011年7月11日所有公開可用的Apache Software Foundation郵件。

鏈接:https://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/

2.Blog Authorship Corpus(博客作者身份語料庫)

大小:298MB

內容:包含2004年8月從blogger.com收集的19,320位博主的文章,共計681,288篇,字數超過1.4億—平均每人35篇、7250字。

鏈接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

3. Amazon Fine Food Reviews [Kaggle](亞馬遜食品評論)

大小:240MB

內容:數據跨越10年以上,包括截至2012年10月的568,454條評論。內容包括產品、用戶信息、評分以及純文本評論。

鏈接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

4. Amazon Reviews(亞馬遜評論)

大小:11GB

內容:斯坦福收集了18年期間的3500萬條亞馬遜評論。

鏈接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

5. ASAP Automated Essay Scoring [Kaggle](ASAP自動短文評分)

大小:100MB

內容:一共包含八個作文集,每一集作文都圍繞一個主題展開。短文的平均長度為150到550個字。一些文章依賴於主題信息,另一些則是自由發揮。所有文章都是由7年級到10年級的學生撰寫的,並經相關人員手工評分,有些還進行了雙重評分。

鏈接:

https://www.kaggle.com/c/asap-aes/data

6. ASAP Short Answer Scoring [Kaggle](ASAP自動簡答題評分)

大小:35MB

內容:一共包含十個數據集,每個數據集都是由單個提示生成的。平均長度為50個字。一些回答依賴於問題信息,另一些則是自由發揮。所有答案都是由10年級的學生撰寫的,並經相關人員手動分級並進行雙重評分。

鏈接:

https://www.kaggle.com/c/asap-sas/data

7. Classification of political social media(美國政客的社交媒體消息分類)

大小:4MB

內容:收集了來自美國參議員和其他美國政客的數千條社交媒體消息,可按內容分類為目標群眾(國家或選民)、政治主張(中立/兩黨或偏見/黨派)和實際內容(如攻擊政敵等)

鏈接:https://www.figure-eight.com/data-for-everyone/

8. CLiPS Stylometry Investigation (CSI) Corpus(CSI語料庫)

內容:荷蘭語,該語料庫包含兩種類型的學生信息:作文和評論。涉及作者(性別、年齡、性取向、來源地區、性格概況)和文檔(時間、流派、真實性、情緒、等級)等大量原數據。由安特衛普大學CLiPS研究中心提供,主要用於計量文體學分析。

鏈接:https://www.clips.uantwerpen.be/datasets/csi-corpus

9. Common Crawl Corpus(AWS爬蟲數據)

大小:541TB

內容:收集了從2008以來抓取的50億個網頁的數據。其中自2013年開始,所有爬蟲只持續一個月,數據以WARC文件格式存儲。從2012年開始,抓取的數據還包含原數據(WAT)和文本數據(WET)提取,大大簡化了數據處理。

鏈接:https://aws.amazon.com/cn/public-datasets/common-crawl/

10. Cornell Movie Dialog Corpus(康奈爾電影對話語料庫)

大小:9.5MB

內容:包含從原始電影腳本中提取的對話集:10,292對電影角色之間的220,579次會話交流、涉及617部電影中的9,035個字元,共304,713個句子。元數據極其豐富,包含流派、發布年份、IMDB評級、IMDB票數、性別、在電影積分榜上的位置。

鏈接:

http://www.cs.cornell.edu/%7Ecristian/Cornell_Movie-Dialogs_Corpus.html

11. Crosswikis

大小:11GB

內容:英語短語相關的維基百科文章資料庫、論文

12. DBpedia

大小:17GB

內容:包含從維基百科中提取出的結構化信息,包括312,000個人、413,000個地點、94,000張音樂專輯、49,000部電影、15,000種電子遊戲、140,000個組織、146,000個物種和4600種疾病。共計10億多條信息,其中2.57億條來自維基百科英文版,7.66億條來自其他語言版本。

鏈接:

https://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic

13. Disasters on social media(社交媒體上有關災難的消息)

大小:2MB

內容:包含10,000條和災難事故相關的帶注釋推特

鏈接:https://www.figure-eight.com/data-for-everyone/

14. Enron Email Data(Enron電子郵件集)

大小:210GB

內容:包含1,227,255封電子郵件,其中493,384份附件覆蓋了151名託管人。該電子郵件的格式為Microsoft PST、IETF MIME和EDRM XML

鏈接:https://aws.amazon.com/de/datasets/enron-email-data/

15. Examiner.com - Spam Clickbait News Headlines [Kaggle](垃圾郵件/標題黨新聞數據集)

大小:200MB

內容:新聞網站The Examiner上的新聞彙編,包含超過6年的21000多位作者撰寫的300萬篇文章。

鏈接:https://www.kaggle.com/therohk/examine-the-examiner

16. Flickr Personal Taxonomies

大小:40MB

內容:社交媒體上用戶按個人喜好分類內容的樹形數據集。

鏈接:https://www.isi.edu/%7Elerman/downloads/flickr/flickr_taxonomies.html

17. Freebase Data Dump

大小:26GB

內容:是一個開放的世界信息資料庫,包含電影、音樂、人物、地域在內的數百個類別的數百萬個主題。

鏈接:https://aws.amazon.com/de/datasets/freebase-data-dump/

18. GigaOM WordPress Challenge [Kaggle]

大小:1.5GB

內容:預測有人會喜歡哪些博客文章。包含博客文章、元數據、用戶喜歡情況等信息。

鏈接:https://www.kaggle.com/c/predict-wordpress-likes/data

19. Hate speech identification(仇恨言語識別)

大小:3MB

內容:由ICWSM 2017論文「自動仇恨語音檢測和無禮語言問題」的作者提供。包含3類短文本:a)包含仇恨言論;b)是冒犯性的,但沒有仇恨言論;c)根本沒有冒犯性。由15,000行文本構成,每個字元串都經過3人判斷。

鏈接:https://github.com/t-davidson/hate-speech-and-offensive-language

20. Home Depot Product Search Relevance [Kaggle]

大小:65MB

內容:包含Home Depot網站上的關於產品和真實客戶的搜索信息。每對詞都經3名評估人員評估,並給出1-3的相關性評分,可用來預測相關性。

鏈接:https://www.kaggle.com/c/home-depot-product-search-relevance/data

21. Material Safety Datasheets(材料安全數據表)

大小:3GB

內容:230,000份材料安全數據表,包含化學成分、急救措施、儲存和處理等信息。

鏈接:https://aws.amazon.com/de/datasets/material-safety-data-sheets/

22. MCTest

大小:1MB

內容:提供660個故事和相關問題,用於研究機器對文本的理解、回答問題。

鏈接:https://www.microsoft.com/en-us/research/lab/microsoft-research-redmond/?from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fum%2Fredmond%2Fprojects%2Fmctest%2Findex.html

23. NYTimes Facebook Data(NYTimes Facebook數據)

大小:5MB

內容:所有關於《紐約時報》的Facebook帖子

鏈接:http://minimaxir.com/2015/07/facebook-scraper/

24. One Week of Global News Feeds (一周全球新聞饋送)

大小:115MB

內容:一周內(2017年8月24日至2017年8月30日)全球在線發布的大多新聞內容的快照,包括大約140萬篇文章、20,000個新聞來源和20多種語言。

鏈接:https://www.kaggle.com/therohk/global-news-week

25. Reddit Comments(Reddit評論)

大小:250GB

內容:截至2015年7月的每個公開可用的書籤評論,共計17億條評論

鏈接:

https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/

26. SMS Spam Collection(簡訊垃圾郵件收集)

大小:200KB

內容:是一個包含5,574英文單詞,真實的、未附帶附件的簡訊內容集,已合法進行標記

鏈接:http://www.dt.fee.unicamp.br/%7Etiago/smsspamcollection/

27. Yahoo! Answers Comprehensive Questions and Answers

大小:3.6GB

內容:2017年10月25日創建,包含4,483,032個問題及其答案。

鏈接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

28. Yahoo! Answers Manner Questions

大小:104MB

內容:Yahoo! Answers corpus的子集,並根據語言屬性進行選擇,包含142,627個問題及其答案。

鏈接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

29. Yahoo! N-Gram Representations

大小:2.6GB

內容:包含n-gram表示形式,這些數據可以作為查詢重寫任務的測試,這是IR研究中的一個常見問題,也可用於NLP研究中常見的單詞和句子相似性任務。

鏈接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

30. Yahoo! N-Grams 2.0

大小:12GB

內容:n-gram(n = 1至5),從1260多個面向新聞的站點中檢索到的1460萬個文檔(1.26億條語句,34億個詞)。

鏈接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

31. Yelp

內容:包括餐廳排名和220萬條評論。

鏈接:https://www.yelp.com/dataset

與情感分析任務相關的數據集:

1. Twitter New England Patriots Deflategate sentiment(Twitter上關於新英格蘭愛國者隊泄氣門(Deflategate)事件的情緒)

大小:2MB

內容:新英格蘭愛國者隊在美國橄欖球聯合會(AFC)決賽中擊敗印第安納波利斯小馬隊,將在2月1號的超級碗大賽中迎戰西雅圖海鷹隊。但是愛國者隊被發現在這次比賽中使用的12個橄欖球有11個充氣不足。這個數據集可用於觀察醜聞爆發Twitter用戶的情緒,以衡量公眾對整個事件的看法。

鏈接:https://www.figure-eight.com/data-for-everyone/

2. Twitter Progressive issues sentiment analysis(Twitter上激進分子情緒分析)

大小:600KB

內容:關於諸如墮胎合法化、女權主義、希拉里·柯林頓等各種左傾問題的推文,分為贊成、反對或保持中立的三種類別。

鏈接:https://www.figure-eight.com/data-for-everyone/

3. Twitter Sentiment140

大小:77MB

內容:與品牌/關鍵字相關的推文。是一個可用於情感分析的數據集。

鏈接:http://help.sentiment140.com/for-students/

4. Twitter sentiment analysis: Self-driving cars

大小:1MB

內容:自駕車:閱讀推文,將其分為非常積極的、輕微積極的、中性的、輕微消極的或非常消極的,並標記其是否與自駕車相關。

鏈接:https://www.figure-eight.com/data-for-everyone/

5. Twitter US Airline Sentiment [Kaggle](Twitter美國航空公司)

大小:2.5MB

內容:收集了twitter用戶對於一些美國主要航空公司的評價情況。數據始於從2015年2月,評論者需選擇正面、負面和中性中的一類,如有負面評價,再進行原因分類(如「晚班」或「粗魯服務」)。

鏈接:https://www.kaggle.com/crowdflower/twitter-airline-sentiment

6. 豆瓣網影評情感測試語料

內容:來自豆瓣網對電影《ICE AGE3》的評論,評分標準均按照5 stars評分在網頁中有標註。語料庫527頁。每頁20條短評。共計11323條評論。

鏈接:http://www.datatang.com/data/13539

7. 康奈爾大學(Cornell)提供的影評數據集

內容:由電影評論組成,其中持肯定和否定態度的各1,000 篇;另外還有標註了褒貶極性的句子各5,331 句,標註了主客觀標籤的句子各5,000 句.目前影評庫被廣泛應用於各種粒度的,如詞語、句子和篇章級情感分析研究中。

鏈接:http://www.cs.cornell.edu/people/pabo/movie-review-data

8. 知網的情感詞典

內容:由知網發布的詞典,包括中文情感詞典和英文情感詞典。

鏈接:http://www.keenage.com/html/c_bulletin_2007.htm

9. 台灣大學的情感極性詞典

內容:包括2810個正極性詞語和8276個負極性詞語,準確度很高

鏈接:http://www.datatang.com/data/11837

10. 主觀詞詞典

內容:該詞典的主觀詞語來自OpinionFinder 系統,該詞典含有8,221 個主觀詞,並為每個詞語標註了詞性以及情感極性。

鏈接:http://www.cs.pitt.edu/mpqa

11.HowNet 評價詞詞典

內容:該詞典包含9,193 個中文評價詞語/短語, 9,142 個英文評價詞語/短語,並被分為褒貶兩類.其中,該詞典提供了評價短語,為情感分析提供了更豐富的情感資源。

鏈接:http://www.keenage.com/html/e_index.html

本文的編輯參考了以下文章:

1. 知乎專欄:https://www.zhihu.com/org/lun-zhi-40/activities

2. 公眾號:機器學習演算法與Python學習-情感分析語料庫

本文轉載自黑龍江大學自然語言處理實驗室公眾號,特此致謝!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Ling大連西路550號 的精彩文章:

劉志基:「花季」與「季軍」

TAG:Ling大連西路550號 |