陳志武:量化歷史研究的過去與未來(上)
近六十年來量化歷史研究拓展並加深了我們對歷史的認知,使歷史研究向科學靠近。不管哪個領域,科學研究的基本流程應該保持一致:
首先,提出問題和假說;第二,根據提出的問題和假說去找數據,或者通過設計實驗產生數據;第三,做統計分析、檢驗假說的真偽,包括選擇合適的統計分析方法識別因果關係、做因果推斷,避免把虛假的相關性看成因果關係;第四,根據分析檢驗的結果做出解釋,如果是證偽了原假說,那原假說為什麼錯了?如果驗證了當初的假說,又是為什麼?這裡挖掘清楚「因」導致「果」的實際傳導機制甚為重要;第五步就是寫報告文章。
傳統歷史研究在第二至第四步上做的不夠完整。所以,量化方法不是要取代傳統歷史研究,而是對後者的補充。本文通過一些現有成果說明,量化史學不只是「用數據說話」,而是通過統計分析,既可令人信服地證明或證偽現有假說,也可以從歷史現象中發現全新的認知。
原文發表於《清史研究》2016年第4期。
本推送版本有一定刪改,引用請參照原文發表版本。
1. 引言
2013年,筆者與清華大學龍登高、倫敦經濟學院馬德斌、香港科技大學龔啟聖等教授一起舉辦了第一屆量化歷史講習班。之後,我們每年辦一屆。與四年前相比,報名人數越來越多,國內學界對量化歷史研究的認知和興趣已有了很大的變化。雖然參與過講習班和量化歷史年會的同仁還未必都能用量化方法研究歷史話題,但至少都了解到了量化方法的優勢和不足,也不乏對量化史學的質疑。
按照經濟史學者諾斯的追溯(Douglas North,1977),用量化方法研究經濟史問題大致起源於1957年,當時幾位學者嘗試研究美國黑奴歷史的經濟邏輯。隨後,量化方法也用到了其它歷史研究領域,包括諾斯對歐洲政治制度史(North Thomas,1973)、西波拉對西方的教育史與宗教史的研究(Cipolla,1969)。到1960-70年代,量化史學變得流行,這股風潮後來有所消退。但是,1990年代中期後,新一輪量化歷史研究熱潮再度崛起,引人注目。就以國際五大量化歷史資料庫為例(Integrated Public Microdata Series, BALSA Population Database, Historical Sample of the Netherlands, Scandinavian Economic Demographic Database, Utah Population Database),2006—2010 年間,新發表的學術論文中運用這些資料庫的就達2360餘篇(梁晨、董浩、李中清,2015)。
催生新一輪量化歷史研究的經典作品主要來自經濟學領域。而且,在如何利用大數據論證歷史假說方面,經濟史學者做了許多方法論上的創新,改變了以往社會學家、人口學家只注重歷史數據描述性分析、相關性分析的傳統,將歷史研究進一步往科學化的方向推進。期間,三組不同團隊起了關鍵作用:在哈佛和芝加哥大學的La Porta, Lopez-de-Silanes, Shleifer, Vishny(慣稱「LLSV」)(La Porta, Lopez-de-Silanes, Shleifer, Vishny,1998,1997),哈佛和麻省理工學院的AJR(Acemoglu, Johnson, Robinson,2001),以及繼諾斯與托馬斯《西方世界的興起:新經濟史》和德弗利斯的《工業革命與勤勞革命》(De Vries,1994)等著作之後,於2000年出版《大分流》的彭慕蘭(Pomeranz,2000),雖然該著作本身在量化方法方面停留在簡單描述性數據層面,沒有做更深層的計量分析,但它引發了眾多學者對「工業革命為什麼發生在西方而非中國或伊斯蘭國家」的研究興趣,大量學術著作因此產生,而且這些著作幾乎沒有例外地都基於某種程度的量化方法。
今天,計算機和互聯網已相當普及,不僅許多歷史資料的資料庫化變得可能,而且使這些歷史資料庫的跨地區、跨國共享成為可能。在互聯網上有數不清的各國歷史資料庫可以免費得到,用起來方便,成本也低。這是以前的歷史學者做夢也想不到的。
當然,眾多量化歷史資料庫只是研究的基礎,關鍵要看研究方法與分析框架是否跟得上。許多同仁說:量化史學不是曾經時興一段,但後來勢頭下降了嗎?這次為什麼會不同呢?我們必須看到,1980年代之前電腦沒有普及,更沒有互聯網,那時整理歷史大數據很難,做統計回歸分析並檢驗假說也很難。但是,現在沒有這些問題了。
今天「大數據」是個時髦話題,可是,很多人沒有看到歷史資料是真正的大數據。比如,僅清代刑科題本檔案就有近60萬本,平均每本大約30頁手稿,加在一起就是1800萬頁資料。更不用說其它明清及民國期間留下的奏摺、公文、實錄、文書、契約、方誌等史料,加在一起至少有數億頁。如果舉一極端例子,正如哈佛大學包弼德(Peter Bol)所說,僅2013年那一年,世界上的網站數量超過5億、共480億網頁,相當於6720億GB的信息量,是所有美國圖書館藏書總和的50萬倍!將來研究今天世界史或中國史的學者會如何作為呢?
首先要看到,採用細讀個案的傳統歷史方法,不僅會讓我們偏重樹木而忽視森林,而且,在歷史資料規模超過一定水平時,這種方法很難行得通。海量歷史資料帶來兩個現象:一是近代史比遠古史更難研究,因為明清資料太多而古代資料很少。傳統方法強調細讀一手史料,遠古資料少,使其相對可行,近代史海量資料反倒使其不好研究,只有靠引入新的研究方法才能改變這種奇怪局面;另一現象是由於傳統方法強調個案細節、不強調大樣本,但歷史上的社會現象又錯綜複雜,研究者很多時候都能根據需要挑選到「合意」的歷史案例。所以,在不同學者根據需要去找合意個案的習慣下,得出的結論當然各異。於是,就有了「歷史被任意打扮」的嫌疑。
我們需要改變這些現象,這就要靠大樣本量化方法。
中國歷史資料豐富,這是中華文明的優勢。但是,要發揮這種優勢、增加我們自己乃至全人類對我們過去的認知,就必須改進研究方法。量化歷史方法既受益於現代互聯網技術,也受益於現代社會科學分析範式的進步,是歷史研究領域的與時俱進。
接下來,本文分別回答以下幾個常見疑問:第一,量化歷史方法跟傳統歷史方法是什麼關係?第二,歷史能夠量化嗎?第三,1990年代末期以來的量化歷史研究方法跟之前的量化方法區別在哪裡?最後,量化史學除了證明或證偽傳統史學提出的假說外,能帶給我們對歷史的新認知嗎?
2. 量化歷史研究方法
量化歷史方法不是要取代傳統歷史研究方法,而是對後者的一種補充,是把科學研究方法的全過程帶入歷史領域。整理考證史料、注重文獻是歷史學研究的傳統,量化史學同樣注重對歷史文獻的考證、確認,這一點沒有區別。如果原始史料整理出了問題,不管採用什麼研究方法,由此推出的結論都難言可信。兩者差別在於量化方法會強調在史料的基礎上儘可能尋找其中的數據,或者即使沒有明顯的數據也可以努力去量化。
不管是自然科學還是社會科學領域,科學研究方法的基本流程是一樣的(King、Keohane、Verba,1994)。其中,第一步是提出問題和假說;第二步是根據提出的研究問題和假說去找數據,或者通過設計實驗產生數據;第三步是做統計分析、檢驗假說的真偽,包括選擇合適的統計分析方法識別因果關係、做因果推斷,避免把虛假的相關性看成因果關係;第四,根據分析檢驗的結果做出解釋,如果是證偽了原假說,那原假說為什麼錯了?如果驗證了當初的假說,又是為什麼?這裡挖掘清楚「因」導致「果」的實際傳導機制甚為重要。為給出令人信服的解釋,既可通過統計方法認證邏輯傳導機制,也可通過簡單數學模型驗證傳導機制的邏輯一致性;第五步就是寫報告或者文章,把科學過程研究出的結果報告出來。
傳統的歷史研究範式基本停留在上述科學方法的第一和第二步,也就是要麼先提出問題或假說,覺得「歷史應該是這樣」,然後去找歷史個案或少數幾個案例,只要假說與這些個案相符,就認為假說對歷史的解釋是成立的。或者,先通過對歷史個案的透徹研究,學者得出關於歷史現象中因果關係的假說或猜想,認為歷史中就是這樣由這個「因」導致那個「果」的,然後研究就到此結束。
——但是,從上面講到的科學研究流程看,這顯然只是研究過程中的一步或兩步,不是全部過程。史料整理是建立歷史資料庫的基礎,在沒有經過大樣本檢驗之前,這些假說和猜想還僅僅是假說,不一定真的成立。
量化研究是在傳統研究方法的基礎上,把科學方法中的第二步(收集大樣本數據)做好、做完,並且把第三、第四步也做完。只有這樣得到的對歷史現象背後的「歷史規律」,才讓人能接受,才能避免「以偏概全」。
所以,量化歷史方法是對傳統方法的補充,而不是取代。量化歷史研究也不只是簡單的「用數據說話」。數據是量化研究的基礎,但這只是其中一個環節,同樣重要的是要根據歷史大數據對我們感興趣的猜想進行統計檢驗,看這個猜想是否能得到大樣本的支持,而這一點是傳統歷史方法難以做到的。
過去,胡適也講過「大膽假設,小心求證」,只不過當時他所講的求證,還只是一般的尋求證據(主要是文獻方面的),並不是統計學分析與大樣本檢驗。比如說,到底是什麼導致清朝滅亡?一種假說(僅僅為假說)是:因為晚清立憲改革所致,並據此得出結論說「不能進行憲政改革,因為憲政改革導致國家滅亡」(King、Keohane、Verba,2012,2004)。根據清朝的個案經歷得出這樣的結論,就好比「阿炳二胡拉得好,是因為他是瞎子,所以任何人要拉好二胡,必須先把眼睛搞瞎」,這顯然有問題,是以點帶面。我們必須先收集中國與其他國家的憲政改革歷史樣本,進行系統統計檢驗,排除個案的特殊因素,讓樣本中的共同因素——憲政改革——突出出來,凸顯「歷史規律」的內涵.只有這樣才能知道這個假說到底能否站住腳。
3. 歷史研究能夠量化嗎?
在歷屆量化歷史講習班和年會及其它交流中,一個經常聽到的問題是:歷史能夠量化嗎?初看,這問得有道理,因為許多歷史現象和因素確實難以量化,即使是今天,有許多事物,包括情感等因素都難以量化。但是,難以量化不等於都不能量化,尤其不等於要放棄想像力、放棄創新的努力。只要努力創新,很多因素還是能夠量化的,儘管有時候並不一定那麼完美。
以香港科技大學龔啟聖和山東大學馬馳騁最近的一份研究為例,他們的核心問題是如何測度儒家文化的影響並評估其實際貢獻(Kung、Ma,2014)。我們都說儒家文化過去兩千多年對中國社會貢獻巨大,是中華文化的基礎。但如何證明儒家文化的積極作用?其發揮作用的方式或者說機理到底是什麼呢?
儒家文化的成本很高,尤以對個人自由與權利的壓製為突出,其核心原則是以君與臣、父與子、夫與妻的「三綱」為基本出發點,把每個人從出生到死都固定在一個根據輩份、年齡、性別決定的名分等級秩序之中,並基於「父為子綱」的原則推演出「孝道」規則,要求子女對父母無條件服從、聽話;基於「夫為妻綱」推演出「在家從父,出嫁從夫,夫死從子」的「三從四德」婦道規則。再在這些原則上輔以「父母在,不遠遊」、「父母之命、媒妁之言」的「包辦婚姻」等「仁義理智信」細則。雖然各社會都會倡導「仁義理智信」,但其仁、其義、其理、其智、其信的內涵既有共同普適性,又有每個文化特定的基本原則下所要求的獨特內容。比如,按照儒家的「禮」,在清代,如果父親打死兒子,未必會上刑,但在西方文化體系里,「禮」的範疇就不會這麼容忍,這就會上刑。
那麼,基於儒家名分等級秩序所實現的資源分配結構、收入分配體系,要求個人特別是女性犧牲這麼多、代價這麼大,帶來的貢獻是什麼?貢獻有多少?學術領域鮮有對這些問題的量化答案,原因當然是文化很難量化。
龔啟聖、馬馳騁嘗試用間接代理指標來量化「儒家文化影響的強弱」。他們使用各縣文廟或孔廟數量測度儒家文化的影響強弱:孔廟越多,儒家在當地的影響就越強。此外,自漢代開始政府實施旌表節烈婦女的制度,但直到宋代以前,婦女守節、殉節的現象有但並不普遍,再嫁、改嫁行為也還經常發生。宋代理學家程頤、朱熹按照「存天理,滅人慾」、「餓死事極小,失節事極大」的思路,強調寡婦再嫁就是失節。朱元璋1368 年創立明朝後,即頒布詔書:「民間寡婦,三十以前夫亡守志,五十以後不改節者,旌表門閭,免除本家差役。」(郭松義,2001)1723 年清廷規定將旌表標準縮短至守節十五年,其後又分別於1824 和1871年進一步縮至十年和六年。正因為守節是儒家「養子防老」體系的價值延伸,一個縣的列女數量也大致能反映當地人對儒家文化看重、遵守的程度。就這樣,他們找到了量化儒家文化的兩個代理變數。
龔啟聖、馬馳騁研究的目標是清代1644-1910年間山東107個縣的農民暴動情況,看儒家文化是否會顯著降低各地遭遇災荒衝擊時農民暴動的衝動。通過檢索《清實錄》等資料,他們發現,清期間山東南部各縣農民暴動最頻、次數最多,其次是青島周邊山東東北角的這些縣;而孔廟數量的分布則倒過來:中部各縣孔廟數量最多,以南部和北部縣為最少。在排除各種其它因素的影響之後(包括每個縣的收入水平、起初發達程度、教育水平、社會流動性等),受儒家文化影響越深的縣(即孔廟數量或列女數量越多),即使遭遇災荒衝擊(通過糧價高低測度災荒嚴重度),其在清代農民暴動的頻率也更低,尤其以南部縣域孔廟少、暴動頻,而中部縣域則反之。而之所以有這樣顯著的結果,機理在於:儒家文化影響深的地區,家族宗族網路越強,在面對災荒衝擊時宗族內部互通互助的程度就越高,亦即隱性互相保險的程度就越強;這就減少災荒迫使農民走投無路、求助於暴力的必要性。在缺乏保險市場等金融產品的社會裡,儒家文化就是這樣促使社會穩定、減少暴力衝突的。
或許我們可以對他們的量化研究提出質疑或者提出改進建議,但是,他們的創意價值顯而易見,不僅增加了我們對清朝歷史的理解,而且給我們提供了研究儒家文化以及其它文化的新方法,深化對文化影響社會、影響生活的機理的認知,不再泛泛而談。
TAG:陳志武論談 |
※陳志武:量化歷史研究的過去與未來
※丁榮晶:從最佳心臟康復研究談行為干預需要量化
※致勝未來:彭博量化組合管理研討會
※馬德斌:量化史學展示更立體的歷史影像
※從騰訊到高盈量化雲,看人工智慧的燎原之勢
※量化投資的進化之路(二)
※第五屆量化歷史講習報道(二)
※第五屆量化歷史講習班報道(三)
※遊走在城市與戰術邊緣:輕量化主義者所青睞的TT基礎雙肩包
※定位四步驟和八方法-《可以量化的管理學》
※李靖:人工智慧技術高速發展環境下量化投資的新視角
※《建軍大業》任何事情都可以娛樂化、流量化,唯有歷史不可以!
※袁姍姍把負能量化為正能量
※日本旭化成開發出具高強度及輕量化之纖維複合材料
※向量化與HashTrick在文本挖掘中預處理中的體現
※大數據24小時:臉書「神童」跳槽谷歌,「量化派」擬赴美上市
※用科技量化無形的心理亞健康,心潮科技另闢新思路
※如何量化考察航天技術民用的經濟效益?
※PPT|污泥處理如何減量化?桑德勞逸帶來電滲透污泥高幹脫水新技術