自然語言處理領域公開數據集
網上公開的數據集很多,在這裡整理了一份關於自然語言處理領域的公開數據集的清單,內容如下。
1. Apache Software Foundation Public Mail Archives(公共郵件存檔)
大小:200GB
內容:截至2011年7月11日所有公開可用的Apache Software Foundation郵件。
鏈接:https://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/
2.Blog Authorship Corpus(博客作者身份語料庫)
大小:298MB
內容:包含2004年8月從blogger.com收集的19,320位博主的文章,共計681,288篇,字數超過1.4億—平均每人35篇、7250字。
鏈接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
3. Amazon Fine Food Reviews [Kaggle](亞馬遜食品評論)
大小:240MB
內容:數據跨越10年以上,包括截至2012年10月的568,454條評論。內容包括產品、用戶信息、評分以及純文本評論。
鏈接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
4. Amazon Reviews(亞馬遜評論)
大小:11GB
內容:斯坦福收集了18年期間的3500萬條亞馬遜評論。
鏈接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
5. ASAP Automated Essay Scoring [Kaggle](ASAP自動短文評分)
大小:100MB
內容:一共包含八個作文集,每一集作文都圍繞一個主題展開。短文的平均長度為150到550個字。一些文章依賴於主題信息,另一些則是自由發揮。所有文章都是由7年級到10年級的學生撰寫的,並經相關人員手工評分,有些還進行了雙重評分。
鏈接:
https://www.kaggle.com/c/asap-aes/data
6. ASAP Short Answer Scoring [Kaggle](ASAP自動簡答題評分)
大小:35MB
內容:一共包含十個數據集,每個數據集都是由單個提示生成的。平均長度為50個字。一些回答依賴於問題信息,另一些則是自由發揮。所有答案都是由10年級的學生撰寫的,並經相關人員手動分級並進行雙重評分。
鏈接:
https://www.kaggle.com/c/asap-sas/data
7. Classification of political social media(美國政客的社交媒體消息分類)
大小:4MB
內容:收集了來自美國參議員和其他美國政客的數千條社交媒體消息,可按內容分類為目標群眾(國家或選民)、政治主張(中立/兩黨或偏見/黨派)和實際內容(如攻擊政敵等)
鏈接:https://www.figure-eight.com/data-for-everyone/
8. CLiPS Stylometry Investigation (CSI) Corpus(CSI語料庫)
內容:荷蘭語,該語料庫包含兩種類型的學生信息:作文和評論。涉及作者(性別、年齡、性取向、來源地區、性格概況)和文檔(時間、流派、真實性、情緒、等級)等大量原數據。由安特衛普大學CLiPS研究中心提供,主要用於計量文體學分析。
鏈接:https://www.clips.uantwerpen.be/datasets/csi-corpus
9. Common Crawl Corpus(AWS爬蟲數據)
大小:541TB
內容:收集了從2008以來抓取的50億個網頁的數據。其中自2013年開始,所有爬蟲只持續一個月,數據以WARC文件格式存儲。從2012年開始,抓取的數據還包含原數據(WAT)和文本數據(WET)提取,大大簡化了數據處理。
鏈接:https://aws.amazon.com/cn/public-datasets/common-crawl/
10. Cornell Movie Dialog Corpus(康奈爾電影對話語料庫)
大小:9.5MB
內容:包含從原始電影腳本中提取的對話集:10,292對電影角色之間的220,579次會話交流、涉及617部電影中的9,035個字元,共304,713個句子。元數據極其豐富,包含流派、發布年份、IMDB評級、IMDB票數、性別、在電影積分榜上的位置。
鏈接:
http://www.cs.cornell.edu/%7Ecristian/Cornell_Movie-Dialogs_Corpus.html
11. Crosswikis
大小:11GB
內容:英語短語相關的維基百科文章資料庫、論文
12. DBpedia
大小:17GB
內容:包含從維基百科中提取出的結構化信息,包括312,000個人、413,000個地點、94,000張音樂專輯、49,000部電影、15,000種電子遊戲、140,000個組織、146,000個物種和4600種疾病。共計10億多條信息,其中2.57億條來自維基百科英文版,7.66億條來自其他語言版本。
鏈接:
https://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic
13. Disasters on social media(社交媒體上有關災難的消息)
大小:2MB
內容:包含10,000條和災難事故相關的帶注釋推特
鏈接:https://www.figure-eight.com/data-for-everyone/
14. Enron Email Data(Enron電子郵件集)
大小:210GB
內容:包含1,227,255封電子郵件,其中493,384份附件覆蓋了151名託管人。該電子郵件的格式為Microsoft PST、IETF MIME和EDRM XML
鏈接:https://aws.amazon.com/de/datasets/enron-email-data/
15. Examiner.com - Spam Clickbait News Headlines [Kaggle](垃圾郵件/標題黨新聞數據集)
大小:200MB
內容:新聞網站The Examiner上的新聞彙編,包含超過6年的21000多位作者撰寫的300萬篇文章。
鏈接:https://www.kaggle.com/therohk/examine-the-examiner
16. Flickr Personal Taxonomies
大小:40MB
內容:社交媒體上用戶按個人喜好分類內容的樹形數據集。
鏈接:https://www.isi.edu/%7Elerman/downloads/flickr/flickr_taxonomies.html
17. Freebase Data Dump
大小:26GB
內容:是一個開放的世界信息資料庫,包含電影、音樂、人物、地域在內的數百個類別的數百萬個主題。
鏈接:https://aws.amazon.com/de/datasets/freebase-data-dump/
18. GigaOM WordPress Challenge [Kaggle]
大小:1.5GB
內容:預測有人會喜歡哪些博客文章。包含博客文章、元數據、用戶喜歡情況等信息。
鏈接:https://www.kaggle.com/c/predict-wordpress-likes/data
19. Hate speech identification(仇恨言語識別)
大小:3MB
內容:由ICWSM 2017論文「自動仇恨語音檢測和無禮語言問題」的作者提供。包含3類短文本:a)包含仇恨言論;b)是冒犯性的,但沒有仇恨言論;c)根本沒有冒犯性。由15,000行文本構成,每個字元串都經過3人判斷。
鏈接:https://github.com/t-davidson/hate-speech-and-offensive-language
20. Home Depot Product Search Relevance [Kaggle]
大小:65MB
內容:包含Home Depot網站上的關於產品和真實客戶的搜索信息。每對詞都經3名評估人員評估,並給出1-3的相關性評分,可用來預測相關性。
鏈接:https://www.kaggle.com/c/home-depot-product-search-relevance/data
21. Material Safety Datasheets(材料安全數據表)
大小:3GB
內容:230,000份材料安全數據表,包含化學成分、急救措施、儲存和處理等信息。
鏈接:https://aws.amazon.com/de/datasets/material-safety-data-sheets/
22. MCTest
大小:1MB
內容:提供660個故事和相關問題,用於研究機器對文本的理解、回答問題。
鏈接:https://www.microsoft.com/en-us/research/lab/microsoft-research-redmond/?from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fum%2Fredmond%2Fprojects%2Fmctest%2Findex.html
23. NYTimes Facebook Data(NYTimes Facebook數據)
大小:5MB
內容:所有關於《紐約時報》的Facebook帖子
鏈接:http://minimaxir.com/2015/07/facebook-scraper/
24. One Week of Global News Feeds (一周全球新聞饋送)
大小:115MB
內容:一周內(2017年8月24日至2017年8月30日)全球在線發布的大多新聞內容的快照,包括大約140萬篇文章、20,000個新聞來源和20多種語言。
鏈接:https://www.kaggle.com/therohk/global-news-week
25. Reddit Comments(Reddit評論)
大小:250GB
內容:截至2015年7月的每個公開可用的書籤評論,共計17億條評論
鏈接:
https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
26. SMS Spam Collection(簡訊垃圾郵件收集)
大小:200KB
內容:是一個包含5,574英文單詞,真實的、未附帶附件的簡訊內容集,已合法進行標記
鏈接:http://www.dt.fee.unicamp.br/%7Etiago/smsspamcollection/
27. Yahoo! Answers Comprehensive Questions and Answers
大小:3.6GB
內容:2017年10月25日創建,包含4,483,032個問題及其答案。
鏈接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
28. Yahoo! Answers Manner Questions
大小:104MB
內容:Yahoo! Answers corpus的子集,並根據語言屬性進行選擇,包含142,627個問題及其答案。
鏈接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
29. Yahoo! N-Gram Representations
大小:2.6GB
內容:包含n-gram表示形式,這些數據可以作為查詢重寫任務的測試,這是IR研究中的一個常見問題,也可用於NLP研究中常見的單詞和句子相似性任務。
鏈接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
30. Yahoo! N-Grams 2.0
大小:12GB
內容:n-gram(n = 1至5),從1260多個面向新聞的站點中檢索到的1460萬個文檔(1.26億條語句,34億個詞)。
鏈接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
31. Yelp
內容:包括餐廳排名和220萬條評論。
鏈接:https://www.yelp.com/dataset
與情感分析任務相關的數據集:
1. Twitter New England Patriots Deflategate sentiment(Twitter上關於新英格蘭愛國者隊泄氣門(Deflategate)事件的情緒)
大小:2MB
內容:新英格蘭愛國者隊在美國橄欖球聯合會(AFC)決賽中擊敗印第安納波利斯小馬隊,將在2月1號的超級碗大賽中迎戰西雅圖海鷹隊。但是愛國者隊被發現在這次比賽中使用的12個橄欖球有11個充氣不足。這個數據集可用於觀察醜聞爆發Twitter用戶的情緒,以衡量公眾對整個事件的看法。
鏈接:https://www.figure-eight.com/data-for-everyone/
2. Twitter Progressive issues sentiment analysis(Twitter上激進分子情緒分析)
大小:600KB
內容:關於諸如墮胎合法化、女權主義、希拉里·柯林頓等各種左傾問題的推文,分為贊成、反對或保持中立的三種類別。
鏈接:https://www.figure-eight.com/data-for-everyone/
3. Twitter Sentiment140
大小:77MB
內容:與品牌/關鍵字相關的推文。是一個可用於情感分析的數據集。
鏈接:http://help.sentiment140.com/for-students/
4. Twitter sentiment analysis: Self-driving cars
大小:1MB
內容:自駕車:閱讀推文,將其分為非常積極的、輕微積極的、中性的、輕微消極的或非常消極的,並標記其是否與自駕車相關。
鏈接:https://www.figure-eight.com/data-for-everyone/
5. Twitter US Airline Sentiment [Kaggle](Twitter美國航空公司)
大小:2.5MB
內容:收集了twitter用戶對於一些美國主要航空公司的評價情況。數據始於從2015年2月,評論者需選擇正面、負面和中性中的一類,如有負面評價,再進行原因分類(如「晚班」或「粗魯服務」)。
鏈接:https://www.kaggle.com/crowdflower/twitter-airline-sentiment
6. 豆瓣網影評情感測試語料
內容:來自豆瓣網對電影《ICE AGE3》的評論,評分標準均按照5 stars評分在網頁中有標註。語料庫527頁。每頁20條短評。共計11323條評論。
鏈接:http://www.datatang.com/data/13539
7. 康奈爾大學(Cornell)提供的影評數據集
內容:由電影評論組成,其中持肯定和否定態度的各1,000 篇;另外還有標註了褒貶極性的句子各5,331 句,標註了主客觀標籤的句子各5,000 句.目前影評庫被廣泛應用於各種粒度的,如詞語、句子和篇章級情感分析研究中。
鏈接:http://www.cs.cornell.edu/people/pabo/movie-review-data
8. 知網的情感詞典
內容:由知網發布的詞典,包括中文情感詞典和英文情感詞典。
鏈接:http://www.keenage.com/html/c_bulletin_2007.htm
9. 台灣大學的情感極性詞典
內容:包括2810個正極性詞語和8276個負極性詞語,準確度很高
鏈接:http://www.datatang.com/data/11837
10. 主觀詞詞典
內容:該詞典的主觀詞語來自OpinionFinder 系統,該詞典含有8,221 個主觀詞,並為每個詞語標註了詞性以及情感極性。
鏈接:http://www.cs.pitt.edu/mpqa
11.HowNet 評價詞詞典
內容:該詞典包含9,193 個中文評價詞語/短語, 9,142 個英文評價詞語/短語,並被分為褒貶兩類.其中,該詞典提供了評價短語,為情感分析提供了更豐富的情感資源。
鏈接:http://www.keenage.com/html/e_index.html
本文的編輯參考了以下文章:
1. 知乎專欄:https://www.zhihu.com/org/lun-zhi-40/activities
2. 公眾號:機器學習演算法與Python學習-情感分析語料庫
本文轉載自黑龍江大學自然語言處理實驗室公眾號,特此致謝!
TAG:Ling大連西路550號 |