語言研究的科學化與國際化
【語言論壇】
隨著海量數據在傳統藝術與人文領域的廣泛應用,數字人文作為一種新的方法論正流行開來。這也使得語言學這些傳統學科不得不開始思考,如何利用數據來解決過去難以解決或解決得不夠好的問題——
語言研究的科學化與國際化
作者:黃偉 梁君英(系國家社科基金重大項目「現代漢語計量語言學研究」課題組成員,黃偉系北京語言大學副研究員、梁君英系浙江大學教授)
長久以來,語言學一直被認為是典型的人文社會學科。隨著現代語言學的發展,人們逐漸認識到,人類語言現象應該通過類似自然科學的一般方法進行研究,使語言學向生命與認知科學轉向,實現語言學的科學化。
計量語言學以真實語言材料為研究對象,廣泛借鑒相關學科,特別是自然科學領域的研究方法,通過對語言現象的精確測量、觀察、模擬、建模與解釋,尋求語言現象背後的數理規律,揭示各種語言現象形成的內在原因,探索語言系統的自適應機制和語言演化的動因。
語言學是研究語言結構模式與演化規律的學科。對「模式」與「規律」的探求是語言學與其他科學的共同目標。然而,光有科學的目標還遠遠不夠。演繹與歸納、定性與定量、描寫與解釋、假設與檢驗、模擬與建模等現代科學在方法論上的共同特徵,正是傳統語言學所欠缺的。
與此同時,中國語言學也面臨著國際化問題。我們在國際語言學學術共同體中的聲音還很微弱,對探求人類語言普遍規律方面的貢獻也有限。造成這種局面的原因,並不能完全歸結於研究對象(漢語及漢語方言為主)的不同,以及國際學術語言是英語的語言藩籬,也存在研究理念與研究方法的問題。
因此,使用科學的方法研究語言的結構模式與演化規律是實現語言學科學化和中國語言學國際化的基本途徑。
雖然語言學具有悠久的計量研究傳統,現代語言學的許多分支學科也離不開語言數據與計量方法的使用,但是,直接將結構模式與演化規律的發現作為目標,並以現代科學手段進行研究的,是計量語言學。
2011年,國家社會科學基金首次設立跨學科類重大項目,以劉海濤為首席專家的「現代漢語計量語言學研究」獲得資助。近幾年來,通過積極開展交叉學科語言研究,課題組在語言研究科學化與國際化方面取得了一些新進展。
語言規律
從文本中來,到文本中去
文本是集中體現人類文明的重要資源。發現文本中蘊含的規律,是計量語言學的根本任務。語言學中的齊普夫定律精確描述了文本中詞的出現頻次與其排序之間的冪律關係。雖然這個定律在不同語言中具有很強的普適性,但是人們一直無法清楚地解釋這種冪律關係的成因。
我們通過計算機模擬與大規模語料庫研究發現,層級結構能夠產生冪律分布,齊普夫定律闡述的詞頻序關係實質上是詞的層級結構特徵在線性句子中的分布規律。
定律不僅能夠描述與解釋現象,還應該能夠進行預測,即應用定律解決實際問題。我們在研究現代漢語新聞文本詞頻分布規律時發現,齊普夫定律不僅在描述不同文本的詞頻分布方面具有普適性,而且該定律中的參數能夠細分新聞報道與評論,基於詞頻的計量指標能夠區別口語與書面語文本。在對中國當代文學中的新詩與散文進行辭彙層面的計量研究中發現:散文高頻詞的描述對象呈現多樣化特徵,而新詩的高頻詞則表現出較強的時代性;散文的辭彙豐富程度明顯低於新詩;兩類文本在名詞、代詞的使用頻次上表現出的相似性可能是新詩「散文性」的根源。
計量語言學中已經發現了一些定律或建立了一些模型,但多數以描寫印歐語言為主。它們在人類語言中的普適性還需要通過更多的語言材料進行檢驗。我們在對現代漢語口語和書面語中的語言單位進行詳盡考察後發現,描述語言單位長度分布規律的齊普夫-阿列克謝耶夫模型同樣適用於描述漢語的結構長度分布。這不僅說明人類語言在單位長度分布方面具有普遍性,也揭示出不同語言通往普遍性的具體手段具有多樣性。
從真實語言現象中發現具有普適性的語言定律,將這些定律協同起來,可以構建科學哲學意義上的語言學理論體系。我們借鑒印歐語言辭彙協同系統,以語言結構基本單位的4個核心屬性(詞長、多義度、頻率和多文度)為元素,並首次引入配價概念,不僅成功地構建了一個漢語辭彙協同子系統模型,也為構擬基於配價與依存關係的句法協同子系統奠定了基礎。
採用計量語言學的一般方法開展漢語相關研究,加強了漢語描寫與解釋的客觀性、精確性和科學性,有助於驗證語言結構模式與規律的跨語言普適性。
學科交叉
他山之石,可以攻玉
語言是一個由人驅動的複雜適應系統,因而語言研究從本質上就具有多學科交叉的特質。我們借鑒系統科學、計算機科學、模擬學、心理學等學科的研究方法開展跨學科語言研究,得到了一些採用傳統語言研究方法或計量語言學一般方法難以發現的規律。
首先,現代語言學認為,語言是一個複雜適應系統。這意味著包括計量語言學一般方法在內的研究方法難以處理語言「湧現」現象。我們採用複雜網路分析方法對語言結構與演化進行了探索。比如,在對基於大規模真實語料構建的漢語字同現網路進行研究時,我們發現從網路中提取出的所有高頻字同現對與漢語中的二字詞具有很強的同一性,進而對漢語二字詞在局部語境中的突顯機制有了更深入的認識;還發現了上古、中古、近代和現代漢語的字同現網路的整體特性,以及「在」和「人」這兩個詞在不同時期的網路特徵變化,實現了對語言系統整體和個別語言現象的共演分析。
其次,語言還是一個由人驅動的符號系統。通過將人類認知機制同語言研究相結合,可以從語言之窗洞察人類天性。
人類語言系統的運作基礎是受認知機制所限而出現的省力原則(說話人與聽話人之間的一種能量開銷均衡)。依存距離(詞間句法語義關係的一個測度)最小化就是在這個原則的作用下產生的,它是人類語言線性結構的一個普遍特徵。通過計算機模擬數據與真實語言材料,我們發現了導致依存距離最小化的三個因素是交叉依存、根節點位置和組塊(一種比詞大的動態語言單位);同時還發現,為了降低長句的理解難度,人在認知資源的制約下會採取某些動態手段達成交際目的。
此外,我們還開展了長依存距離語言現象的心理行為實驗研究,發現介詞對依存距離不敏感,主謂關係中的依存距離受主語信息特徵影響等規律。這也說明,語言系統的運作機理是許多因素共同作用的結果。
以上研究從靜態角度揭示了語言結構的共時複雜性。在語言動態演化模式方面,我們也有新發現。比如,漢語句子的平均依存距離在持續增大,句法結構有複雜化趨勢;但是漢語的主要語序並沒有發生顯著變化。如果表達的精確性或內容的複雜化使漢語的句子結構變複雜了,那麼,由於依存距離與人類認知密切相關,是否意味著從古到今,講漢語的人的認知壓力一直在增加呢?然而,為什麼人們沒有感覺到這種壓力?難道是人的認知機制也隨著語言的變化發生了適應性改變嗎?我們正在對這個語言與認知共演的國際前沿課題進行研究。
目前,我們的部分研究成果已經達到國際領先或先進水平。這些成果拉近了語言學同其他科學領域的距離,縮小了漢語(計量)語言學同國際學術研究之間的差距,提高了中國語言學在國際上的聲望與話語權。
計量語言學是語言學領域具有典型的數字人文特徵的分支學科。隨著海量數據在傳統藝術與人文領域的廣泛應用,數字人文作為一種新的方法論正流行開來。這也使得這些傳統學科不得不開始思考,如何利用數據來解決過去難以解決或解決得不夠好的問題,從而更合理地解釋數據展現出來的有關人類認知、行為的模式,探求人與社會、自然交互的規律。
《光明日報》( 2017年03月26日 12版)
[責任編輯:徐皓]
※快速無線電暴是外星人宇宙旅行的證據嗎
※為什麼我們找不到外星人:沒準藏在暗物質之中?
※大數據時代 如何觀雲識天
※科幻影視大熱帶動科幻圖書熱 有的一個月銷10萬冊
※去年我國沿海海平面為1980年以來最高位
TAG:光明網 |
※探索專業化標準化科學化醫學傳播
※大數據與歷史學科學化
※科學的語文教育始於識字教育科學化
※民國中醫科學化之爭
※「科學中藥」合乎科學嗎?中藥是否應科學化?現代化呢?
※真正的科學化訓練,讓跑步成為藝術品
※中醫不科學化,勢必類乎巫術
※哈衛校實行固定資產科學化管理
※靈魂的神秘主義探究能走向「科學化」嗎?
※自動化技術在現代軍事領域中的另一重要應用是軍事決策的科學化
※拒絕瞎練!你需要學學真正的科學化系統訓練!
※為什麼跑步需要「科學化」訓練?
※讓·皮亞傑:將弗洛伊德理論科學化,曾是近代最懂兒童心理的人
※書中重大錯誤更正:《體能!技術!肌力!心志!全方位的馬拉松科學化訓練》
※老沒辦法PB?你需要試試科學化訓練
※如何入門科學化訓練?秋天來進行心率訓練!
※中醫能不能走向科學化?答案震驚世界!
※如何入門科學化訓練?秋天來成為心率認證教練!
※若把迪斯尼人物科學化,那我到哪兒去找我純潔無暇的童年