收集數據太困難?這裡為你準備了 71 個免費數據集
進行良好的數據可視化的前提是數據的質量較高並且比較乾淨。大多數人認為收集大量數據是一件很困難的事情,事實並非如此。網上有成千上萬的免費數據集,我們可以利用這些數據進行分析和可視化。
下面是 70 多個免費的數據集,涉及到政府、犯罪、衛生、金融和經濟數據、市場和社交媒體、新聞傳媒、房地產、公司名錄和評價等各個方面。
有了這些數據,希望能節省大家的時間和精力,避免在網上進行盲目的搜索。
政府方面
1、Data.gov(https://data.gov/):美國政府提供的數據集門戶網站,大家可以通過這個網站直達從氣候到犯罪等各種奇妙的數據集。
2、Data.gov.uk(https://data.gov.uk/):來自英國所有中央機關和部分公共部門及地方政府的數據集。這個門戶網站涉及商業和經濟、犯罪與正義、國防、教育、環境、政府、衛生、社會和交通等方面各種類別的信息。
3、US. Census Bureau(https://www.census.gov/data.html):美國政府針對國民生活的統計數據,包括人口、經濟、教育、地理信息等。
4、The CIA World Factbook(https://www.cia.gov/library/publications/the-world-factbook/):各國狀況。重點關注歷史、政府、人口、經濟、能源、地理、通信、交通、軍事和跨國問題(267 個國家)。
5、Socrata(https://socrata.com/):Socrata 是一家任務驅動型軟體公司。在該網站上,可以用內置的可視化工具來搜索政府數據。該公司提供數據服務,目前已經有超過 1200 家政府機構與其達成合作。
6、European Union Open Data Portal(https://open-data.europa.eu/en/data/):歐盟各個機構的數據正在不斷增長中,該網站是獲取這些數據的唯一途徑。裡面的數據包括地理、地緣政治和金融數據、統計數據、選舉結果、法律行為,還有與犯罪、衛生、環境、交通和科學研究相關的數據。
大家可以在不同的資料庫和報告中重利用這些數據。此外,歐盟的各個機構和組織也提供了多種數字格式。該網站提供標準化的目錄、一些重利用數據的 app 和 web 工具、SPARQL 後端查詢編輯器和 rest API 接入,此外也有使用該站點的相關技巧。
7、Canada Open Data(https://www.data.gc.ca/):這是一個試點項目,包含許多政府和地理空間數據集。利用這一數據集,可以探索加拿大政府在推動創新、創造更多經濟機會方面是如何做的。比如如何創造出高度透明的社會,怎麼去增加公民的參與積極性和責任心。
8、Datacatalogs.org(https://opengovernmentdata.org/):提供美國、歐盟、加拿大、CKAN 數據平台等各個地方的開放政府數據。
9、U.S. National Center for Education Statistics(https://nces.ed.gov/):美國國家教育統計中心(NCES),負責收集和分析美國與教育相關的數據。
10、UK Data Service(https://www.ukdataservice.ac.uk/):包括英國政府發起的調查、跨國調查、縱向研究、英國人口普查數據、國際貿易額、商業數據和定性數據。
犯罪數據
11、Uniform Crime Reporting(https://ucr.fbi.gov/):執法人員、學生、研究人員、媒體和公眾一般都會在這裡尋找美國的相關犯罪信息。
12、FBI Crime Statistics(https://www.fbi.gov/stats-services/crimestats):一些關於犯罪的統計報告和出版物,詳細描述了犯罪行為,並從地區和國家級層面概述了人們面臨犯罪威脅的趨勢。
13、Bureau of Justice Statistics(https://www.bjs.gov/index.cfm?ty=dca):這裡有關於美國司法系統的一切信息,包括逮捕引起的死亡、監獄人口普查、DNA 犯罪實驗室的全國調查、執法部門的調查等等。
14、National Sex Offender Search(https://www.nsopw.gov/en):這是一份前所未有的公共安全資源,在這裡可以看到美國的性犯罪數據。這裡也有司法局提供的最新信息。
衛生數據
15、U.S. Food & Drug Administration(https://www.fda.gov/Drugs/InformationOnDrugs/ucm079750.htm):這裡提供美國食品藥品監督管理局(FDA)資料庫的壓縮數據文件,FDA 每天都會更新他們的數據集,這個壓縮數據文件會在每周二更新。
16、UNICEF(https://www.unicef.org/statistics/):UNICEF(聯合國兒童基金會)會收集世界各地兒童和婦女的相關數據。這些數據中包括來自於家庭調查等可靠信源的具有代表性的數據。
17、World Health Organisation(https://www.who.int/en/):150 多個國家的營養、疾病和衛生統計數據。
18、Healthdata.gov(https://www.healthdata.gov/):涵蓋美國 125 年來的衛生保健數據,包括醫療保險數據、傳染病和人口統計數據。
19、NHS Health and Social Care Information Centre(https://www.hscic.gov.uk/home):英國國家衛生服務部門(NHS)提供的衛生數據。NHS 編製了 260 多份正式的國家統計出版物。這裡有長期以來的醫院統計數據,這些數據可以幫助當地決策者提高前線醫療質量和效率。
金融和經濟數據
20、World Bank Open Data(https://data.worldbank.org/):涵蓋世界各地的金融、服務指標等數據。
21、IMF Economic Data(https://www.imf.org/en/Data):這是一個非常有用的信息源,包括全球金融穩定報告、地區經濟報告、國際金融統計數據、匯率、貿易方向等。
22、UN Comtrade Database(https://comtrade.un.org/):用戶可以以可視化的形式免費訪問詳細的全球貿易數據。它是國際貿易組織統計數據和相關分析表的官方資源庫。大家可以通過 API 訪問上面的所有數據。
23、Global Financial Data(https://www.globalfinancialdata.com/):涵蓋超過 6 萬家公司的數據,時間跨度為 300 年左右,為分析全球經濟的變化提供了獨特的來源。
24、Google Finance(https://finance.google.com/finance):包括實時股票報價和圖表、財經新聞、外匯匯率、投資組合等。
25、Google Public Data Explorer(https://www.google.com/publicdata/directory):提供來自世界銀行、OECD、歐盟統計局和丹佛大學等一系列國際組織和學術機構的公開數據和預測。這些數據可以以曲線圖、條形圖、橫截面圖的形式顯示,也可以在地圖上顯示。
26、U.S. Bureau of Economic Analysis(https://www.bea.gov/index.htm):美國官方宏觀經濟和工業統計數據,包括美國各地 GPU 相關報告。此外還包括在國民收入和生產賬戶(NIPA)上的個人收入、公司利潤和政府支出信息。
27、Financial Data Finder at OSU(https://guides.osu.edu/c.php?g=280921&p=2281286):這裡提供一切與金融相關的數據的鏈接,包括在線世界發展指標(World Development Indicators Online)、世界銀行公開數據(World Bank Open Data)、全球金融數據(Global Financial Data)、國際貨幣基金組織統計數據(International Monetary Fund Statistical Databases)和 EMIS 情報。
28、National Bureau of Economic Research(https://www.nber.org/):宏觀數據、行業數據、生產率數據、貿易數據、國際金融數據等。
29、U.S. Securities and Exchange Commission(https://www.sec.gov/):該數據集以季度為單位,涵蓋從外部數據到公司財務報告中提取出來的信息。
30、Visualizing Economics(http://visualizingeconomics.com/):與經濟相關的可視化數據。
31、Financial Times(https://markets.ft.com/data/):為全球商界提供廣泛的信息、新聞和服務。
市場和社交媒體
32、Amazon API(https://docs.aws.amazon.com/apigateway/latest/developerguide/welcome.html):可以按分類瀏覽 AWS 上的公共數據集,獲取大量信息。
33、American Society of Travel Agents(https://www.asta.org/):ASTA 是世界上最大的旅遊協會。該網站提供旅遊代理信息,還提供旅遊、郵輪、酒店、租車等產品信息。
34、Social Mention(https://socialmention.com/): Social Mention 是一個社交媒體搜索和分析平台,它將來自世界各地的用戶產生的內容聚合成單一信息流。
35、Google Trends(https://trends.google.com/trends/):展示了在世界上不同地區,特定的搜索詞出現的頻率。
36、Facebook API(https://developers.facebook.com/?locale=en_US):大家可以學習如何利用 Graph API 發布和檢索數據。
37、Twitter API(https://developer.twitter.com/en/docs):利用 Twitter 平台,大家可以在 Twitter 上接入網站或應用程序。
38、Instagram API(https://www.instagram.com/developer/):大家可以利用 Instagram API 平台構建非自動化的、真實的、高質量的應用和服務。
39、Foursquare API(https://developer.foursquare.com/):支持訪問 Foursquare 資料庫,能與 Foursquare 上的用戶和商家進行互動。
40、HubSpot(https://www.hubspot.com/marketing-statistics):大型市場資料庫。你可以在這裡找到最新的市場統計數據和趨勢。這裡也為社交媒體營銷、內容管理、網頁分析、登陸頁面和搜索引擎優化提供相關工具。
41、Moz(https://moz.com/):關於 SEO 的相關見解,包括關鍵詞研究、鏈接建設、網站審計和頁面優化,可以幫助公司直接地分析他們在搜索引擎上的位置,改進排名。
42、Content Marketing Institute(https://contentmarketinginstitute.com/):關於內容營銷的最新新聞、專著和研究。
新聞傳媒
43、The New York Times Developer Network(https://developer.nytimes.com/):可以搜索到從 1851 年到現在的文章,支持檢索標題、摘要,可以鏈接到相關的多媒體資源。此外,還能搜索書評、紐約事件列表、電影評論、熱門圖片故事等等。
44、Associated Press API(https://developer.ap.org/ap-content-api):無需訪問美聯社站點,該 API 支持大家用自己的編輯工具搜索和下載內容。大家可以下載美聯社、網站成員和來自第三方的圖片,還可以下載美聯社和選定的第三方製作的視頻。
45、Google Books Ngram Viewer(https://books.google.com/ngrams):在線搜索引擎,提供谷歌文本語料庫在 1500-2008 年間的 n-gram 數據。可以以圖例的形式顯示查詢詞在這些年間出現頻率的變化情況。
46、Wikipedia Database(https://en.wikipedia.org/wiki/Main_Page):向用戶免費提供平台上的所有數據。
47、FiveThirtyEight(https://fivethirtyeight.com/):它是一個關注民意調查分析、政治、經濟和體育的網站。Github 上的數據和代碼基於 FiveThirtyEight 上的故事和內容。
48、Google Scholar(https://scholar.google.com/):Google 推出的面向學術資源的免費搜索引擎,能夠幫助用戶查找包括期刊論文、學位論文、書籍、預印本、文摘和技術報告在內的學術文獻,內容涵蓋自然科學、人文科學、社會科學等多種學科。
房地產
49、Castles(https://www.castles-estateagents.co.uk/):一家運營良好的私營獨立機構,成立於 1981 年,提供包括住宅銷售、出租、管理、調查和估價在內的綜合服務。
50、Realestate.com(https://www.realestate.com/):RealEstate.com 是首次購房者的不二之選,會在購房的每個階段為大家提供易於理解的工具和專業建議。
51、Gumtree(https://www.gumtree.com.au/):Gumtree 是英國首家免費分類公告網站。在這個網站上可以購買和出售小物品、汽車、房產等,也可以在這個網站上找工作或進行招聘。
52、James Hayward(https://www.james-hayward.com/):針對住宅銷售、出租和管理,提供了一種創新的資料庫方法。
53、Lifull Home』s(https://www.homes.co.jp/):日本房地產網站。
54、Immobiliare.it(https://www.immobiliare.it/):義大利房地產網站。
55、Subito(https://www.subito.it/):義大利房地產網站。
56、Immoweb(https://www.immoweb.be/en/): 比利時最大的房地產網站。
公司名錄和評價
57、LinkedIn(https://www.linkedin.com/):LinkedIn 是一家以公司和就業為導向的社交網路服務商,可以通過網站和移動端訪問。它在 200 多個國家擁有 5 億會員,你可以在這裡搜索各種公司。
58、OpenCorporates(https://opencorporates.com/):OpenCorporates 是世界上最大的關於公司和公司內部數據的公開資料庫,它有超過 1 億家公司的數據管轄權。其主要目的是讓這些公司的信息更加有用,造福於大眾,打擊違法行為(例如腐敗、洗錢和有組織犯罪)。
59、Yellowpages(https://www.yellowpages.com/):它最初是為了更方便地聯繫到當地水管工人、雜物工人、技工、律師、牙醫等而建立的。
60、Craigslist(https://www.craigslist.org/about/sites):Craigslist 是一個分類公告網站,其中有工作、住房、物品銷售、求購、服務、社區、演出、論壇等不同模塊。
61、GAF Master Elite Contractor(https://www.gaf.com/Roofing/Contractors):1886 年成立,現在已經成為北美最大的商業和住宅屋頂製造商 (該數據源於 Fredonia Group 研究報告)。該公司的銷售額現在已經增加到近 30 億美元。
62、CertainTeed(https://www.certainteed.com/find-a-pro):如果你想要自建房子或手頭有商業建築項目,可以在這裡找到美國或加拿大的承包商、改造者、安裝者或建築商。
63、Companies in California(http://t.cn/RQxS26m):加州各類公司的相關信息。
64、Manta(https://www.manta.com/):Manta 是最大的在線資源商之一,提供產品、服務和教育機會。每個月都有數百萬人訪問 Manta 名錄,搜索資源庫中的個體企業、行業信息和基於地理因素的特定名單。
65、EU-Startups(https://www.eu-startups.com/directory/):歐盟國家的初創公司名錄。
66、Kansas Bar Association(http://t.cn/RQxSzYc):律師名錄。KBA 成立於 1882 年,是法律從業者自發組織的志願者協會,目前擁有超過 7000 名會員,包括律師、法官、法律專業學生和律師助理。
其他門戶網站
67、Capterra(https://www.capterra.com/):商業軟體和評論名錄。
68、Monster(https://www.monster.com/):招聘網站。
69、Glassdoor(https://www.glassdoor.com/index.htm):工作名錄,涵蓋員工對公司的評論,工資等信息。
70、The Good Garage Scheme(https://www.goodgaragescheme.com/):汽車服務、汽車修理名錄。
71、OSMOZ(https://www.osmoz.com/):關於香味的信息。
72、Octoparse(https://www.octoparse.com/):免費的數據提取工具,可以收集上面提到的所有網站的數據。
另外,大家要是知道有什麼好用的免費數據資源也可以後台留言,期待大家的分享。
NLP 工程師入門實踐班:基於深度學習的自然語言處理
三大模塊,五大應用,手把手快速入門 NLP
海外博士講師,豐富項目經驗
演算法 + 實踐,搭配典型行業應用
隨到隨學,專業社群,講師在線答疑
(http://www.mooc.ai/course/427)
※Tensorflow中learning rate decay 的奇技淫巧
TAG:AI研習社 |