當前位置:
首頁 > 最新 > 機遇與挑戰:行政數據在大數據革命中的作用

機遇與挑戰:行政數據在大數據革命中的作用

編者按:目前「大數據」已經成為社會科學中的一個流行語,但是仍然沒有一個精確的定義。本文聚焦於一種特殊類型的大數據——行政數據。行政數據為社會科學研究提供了新的機遇,但是還未得到學界的認可。本文的主要目的是討論行政數據帶給社會科學研究的機遇與挑戰。

這是社論前沿第S937期推送

微信號:shelunqianyan

引 言

1

作為一個新興的概念,「大數據」為我們認識人類行為和社會現象開闢了一條新路。目前有關大數據的定義非常多,其中很多都認為大數據是某一種特殊類型的數據,如社交媒介數據或商業數據。而我們認為,大數據有多種類型,不同類型的大數據需要不同的分析手段,了解不同類型數據的特徵對於分析它們是至關重要的。如果將大數據視為一個完全一致的整體,研究者們將無法辨別不同類型數據的屬性以及它們潛在的研究價值。

什麼是大數據?

2

大數據並沒有一個統一的概念。一些經濟學家認為數據的規模和複雜度是大數據的關鍵特徵。大量關於大數據的論文聚焦於來自於網路活動和社交媒介的數據,很多學者利用這些數據進行了有關個體情緒、政治家印象管理以及集體政治行動等方面的研究。

然而,大數據不應該等同於從網路收集的數據,它還有其他來源,商業行為、從手機收集的衛星或GPS數據、基因數據、行政數據等,同樣都是大數據的來源。

Laney(2011)的大數據定義最有名,他從數量、變數和速度方面描述大數據。Harford(2014)認為,大數據是「被發現」的數據是其基本特徵之一。在大數據時代,我們越來越多地使用那些為非研究的目的收集的數據。

行政數據

3

行政數據是來源於行政系統的數據,它們來自許多不同的行政部門,如教育、醫療、稅務、住房以及車輛註冊等部門,此外,行政數據還包括出生、死亡、結婚記錄、選民登記,以及人口普查等數據。我們認為行政數據符合我們上文提到的大數據的特徵。

在挪威、瑞典和芬蘭,行政數據已經長期為研究者所用。在其他國家,尤其是英國和美國,行政數據的使用為社會科學研究帶來了重大變革。

社會科學中的行政數據與傳統的社會科學數據

4

社會科學中的行政數據與傳統的社會科學數據的主要區別在於是「被發現(found data)」的還是「被製造(made data)」的。「被製造」的數據是通過實驗或社會調查收集的數據。傳統的社會科學數據、行政數據以及其他類型的大數據的區別見下表。

4.1「被製造」的數據

通過實驗收集數據的目的是為了驗證假設,這些數據的規模比行政數據小,結構清晰,研究者通常比較了解樣本及其代表性,因此也能把握進行推論的可能性。由於這些數據是為了驗證少數幾個假設而收集的,因此被其他研究者使用的可能性比較小。

社會調查數據是在社會科學研究中使用最廣泛的數據,這些數據質量高,規模大且複雜,系統性強。與實驗數據相比,它不是為了驗證某一個假設,而是為了研究一系列社會現象而收集,因此,其再利用潛力很大。

4.2行政數據

行政數據的規模雖然大,但是小於其他類型的大數據。行政數據通常是散亂的,研究者需要對它進行清理和重組以使其格式適應社會科學研究。由於從不同的部門收集信息才能回答社會科學研究的問題,因此許多行政數據是多維的。行政數據通常是從全體而不是樣本中收集信息。一般而言,行政數據描述的是某一個社會群體的特徵,而這會限制社會科學研究。當使用行政社會科學數據時,研究者需要明確這些數據來自於哪個群體。

在許多情況下,行政數據可以使用現有的數據分析方法進行處理,因此,數十年來社會統計學、經濟學和社會學領域的數據分析工作中的經驗教訓對行政數據也是大有裨益的。

4.3其他類型的大數據

其他類型的大數據規模大且複雜、缺乏系統性、散亂甚至混亂。這些數據通常從未知的人群中收集,樣本複雜且未知。這些特徵導致一些社會科學家需要採用新的方法來分析它們。

行政數據的核心優勢在於它可以作為「被製造」的數據的補充。社會調查數據可以幫助收集行政數據中缺乏的細節信息,而行政數據可以提供獨立測量和一些補充信息,如教育考試成績、醫療條件和納稅記錄。行政數據可以有效收集精確度很高的信息,如一份工作的準確起止時間。此外,「被發現」和「被製造」的數據的結合可以很大程度上減輕被訪者的負擔。

行政數據帶來的機遇

5

行政數據可以對社會不平等、人類行為、社會政策等方面的研究有所貢獻。儘管研究者們已經進行了一些高質量的大規模社會調查,但是這些數據仍然不能解釋所有的社會現象。在一些情況下,大樣本的數據仍然不能用來分析一些子樣本。

行政社會科學數據一般涵蓋所有的調查對象,n=all,這就使得對規模很小的子群體的研究成為可能;行政數據收集了那些不太可能進入社會科學主流研究領域的群體的信息;此外,行政社會科學數據也可以用來研究那些受訪者迴避的問題(如精神健康問題和藥物濫用問題)。

由於缺乏原始數據,研究一些同期群或經歷了同一歷史事件的群體是困難的,而行政數據可以使其成為可能,這可以推動縱貫研究和時代變遷研究的發展。

除此之外,行政數據可以減輕原始數據收集者的負擔,節省成本。

行政數據對於社會政策評估以及其他與社會政策相關的問題是有價值的,對行政數據的分析可以促進社會政策的發展。

行政數據帶來的挑戰

6

有關行政數據的最受關注的問題是合法性與倫理問題。由於行政數據原本的目的不是為研究所用,所以公眾會擔心他們的隱私被泄露。需要注意的是,研究人員是在數據所有者設定的嚴格條件下工作的,這些限制性條件確保個人信息不被泄露。

6.1數據分析

當行政數據被用來進行社會科學研究時,它們形成的矩陣與我們熟悉的社會調查數據沒什麼不同,每一行是一個樣本,每一列是一個變數。因此,在使用行政數據時面臨的挑戰與使用大規模社會調查數據時面對的挑戰沒什麼不同。

行政數據的規模是研究者需要關注的一個問題。行政數據通常具有樣本大而變數少的特徵。目前的數據分析軟體(如Stata、R、Stata MP)有能力處理大規模數據集。而在實踐層面上,非常大規模數據的處理需要強大的內存以及更多的時間。

針對大規模樣本分析中的計算問題,最簡單的解決方案是抽取其中一個較小的樣本進行研究。研究者需要考慮減少數據對結果的影響,並且確保子樣本能夠代表總體。另一個解決方案是選擇擁有更高速的處理器和更大內存的計算機。

從統計學的角度來看,對大規模數據的分析使得研究人員更加意識到簡單的顯著性檢驗以及p值的局限性。例如,當對使用線性回歸模型估計一個大規模數據時,計算出的β的標準誤可能非常小,使用傳統的顯著性檢驗就可能導致錯誤的結論。一個可能的解決方案是在樣本數目增加時,降低顯著度p,而這不是一種常用的方法,針對不同規模的樣本,p值也沒有統一的標準。研究人員可以採用一些簡單的方法來補充p值的缺陷,例如,研究者可以在給出p值的同時提出另一個衡量變數效果的標準,如邊際效用。這可以幫助研究者證明他們的發現在統計上是否是顯著的,以及在實際中是重要的。

6.2數據管理

行政數據要被社會科學研究所用,需要進行一些準備工作。這些工作包括調整數據、重新編碼以及構建變數。研究者需要調整數據使得這些數據可以成為一個矩陣。但是,很少有研究者致力於行政數據的處理技術。

由於缺乏清晰的記錄,研究者在使用行政數據時對數據並沒有全部的了解,這對於使用行政數據的先驅者來說是很大的困難。當研究人員共享和記錄行政數據的特徵、優點和缺點時,可能會克服這一挑戰。

6.3數據產生的過程

行政數據受到政策環境的影響,政治系統的變化影響測量的結果。因此,研究者要動態地看待行政系統,以明確信息是如何收集的,測量是如何進行的,以及隨著時間的推移,數據如何變化。這要求研究者既要把握數據收集的變化,也要掌握社會政策的變化。

6.4數據質量

社會調查數據中的誤差可能也存在於行政數據中,包括測量誤差、處理誤差、無回答以及調整誤差等。Goerge和Lee(2001)認為,不同的行政數據以及同一行政數據內部的不同部分之間的誤差是不同的,因此研究者在研究時應該分別評價每一個數據集。他們認為研究者需要考慮他們所關注的信息是否與該行政數據的最初目的一致,如果不一致,數據的質量可能存在問題。

Goerge and Lee (2001)提供了一些評估行政數據質量的方法。第一,把行政數據與其他數據進行對比;第二,研究者應該詢問是否存在審查數據的部門;第三,數據是否是由調查者錄入的;第四,數據收集系統中是否存在質量保證檢查。

評估數據質量時另一個需要考慮的要素是,該數據是否與行政部門的績效或目的相關?如果相關的話,可能由於腐敗導致數據質量存在問題。

6.5數據的獲得

另一個挑戰是,行政數據不屬於研究者,獲得它是很棘手的且需要花費很長時間。這一困難限制了研究者的研究。可以緩解該問題的一個方法是對研究過程做清晰詳盡的記錄。我們提倡共享「語法文件」。通過共享記錄和語法文件(syntax files),其他研究者可以仔細分析該研究並在此基礎上進行下一步的工作。

6.6數據連接

如果兩個數據集中的個體是匹配的,這兩個數據集就可能實現一致的唯一的連接。而對於不能夠實現這種連接的數據,研究者需要依賴於其他標識,如姓名、年齡、性別等。這種連接存在一定的風險,數據可能是不準確的,會導致分析中的誤差。研究人員需要重視這種數據連接的風險以及其對結果產生的影響。

結 論

7

總之,大數據帶來了社會科學研究的變革,行政數據在其中可以大有所為,但是,為了使行政數據發揮更大的作用,在研究實踐上應該向前跨越,並且確保使用行政數據的工作是有效的,共享的和可重複的。

文獻來源:

Roxanne Connelly,Roxanne Connelly,Vernon Gayle, Chris Dibben. The role of administrative data in the big data revolution in social science research[J].Social Science research,2016,59:1-12.

文獻整理:孫惠夏

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 社論前沿 的精彩文章:

學術勞動、數字媒介與資本主義
國際勞工組織全球論壇:工作與社會的未來趨勢

TAG:社論前沿 |