當前位置:
首頁 > 知識 > 程工教授:詞庫應該是什麼樣的?

程工教授:詞庫應該是什麼樣的?

·1·


在當代生物語言學研究中,一個得到普遍接受的假說是:


語言是一個晚出而且突發的系統。

所謂晚出,意為人類在比較新近的時期才具備了語言能力,不會早於20萬年。

程工教授:詞庫應該是什麼樣的?



來源:Marcus, G. F., & Fisher, S. E. (2003).FOXP2 in focus: what can genes tell us about speech and language?.Trends inCognitive Sciences, 7(6), 257-262.

突發則是與演化對立的概念,指語言系統不是通過對已有器官緩慢、逐漸的改造形成的,相反卻起源於某個單一的、迅速的、突發的事件。


按照生物學的一般原理,晚出、突發的生理系統,極有可能由基因突變導致,並「鑲嵌」於已有的某個系統中。而且,其內部結構必然是簡單的,只有經歷了長期演化的系統才有可能衍生出複雜的內部結構。


目前主流的、由喬姆斯基提出的最簡方案在句法部分與上述事實和原理已經日臻匹配。

程工教授:詞庫應該是什麼樣的?


喬姆斯基的《最簡方案》

程工教授:詞庫應該是什麼樣的?



它認為,人類早已具有一套語義(概念)系統和一套音系(感知運動)系統。語言起源的關鍵因素是由於基因突變而出現的合并(Merge)操作,一種可以組合語言成分的生成性程序。

程工教授:詞庫應該是什麼樣的?


合并可以迭代運用,形成層級性、無限的、離散的表達式。它以最經濟的方式與語義系統和音系系統介面,使表達式獲得詮釋。


在這樣一個理論模型里,專屬語言內部的機制只有一個,即合并,語言沒有內部的推導層次,D-結構和S-結構被取消了,內部的子模塊也消失了,原有的語言內部原則被改造成為其與詮釋系統的介麵條件。


在我們看來,最簡方案未必完美,但比現有其他的理論更符合語言官能晚出突發這一事實,是一種有潛力解釋語言起源和演化的理論。

·2·


然而,當我們把目光轉向最簡方案的詞庫部分時,看到的卻幾乎是完全相反的情形


詞庫與日常用語里的「詞典」有所不同,簡單地說,它是語法理論中負責列舉句法操作的原始單位(即所謂的「句法原子」)、標明其個體性特徵的部門。布龍菲爾德最初引入這個概念時,它只是「語法的附錄,基本個體特性的列表」,亦即語素的列表。

程工教授:詞庫應該是什麼樣的?



lexicon:詞庫


生成語法在誕生初期延續了這一觀念,但之後不久,出於種種考慮,特別是為了最大限度地簡化句法部分,控制其生成能力,不斷增加詞庫內容,使其作用越來越凸顯。


在最簡方案中,詞庫不僅沒有像句法部分那樣得到簡化、分解,反被賦予了更多的內容和更中心的地位,到了幾乎與句法部分並駕齊驅的程度。


概括起來,現有主流理論里的詞庫有以下特點——


首先,它是生成性的,負責把語素組合成詞,並賦予語義和音系的詮釋。這樣,詞庫從一個靜態的列表變成了一個動態的計算系統,成為語法體系的一個模塊;


詞庫的生成性


其次,詞庫是自主性的,即它與句法相互獨立、互不相同。詞庫規則可以改變對象的語類特徵和次語類特徵,而句法規則不可以。


translate(翻譯)的語類特徵和次語類特徵都被改變了


一些特設的原則,如辭彙自主律(Lexical Integrity Hypothesis)和無短語限制(No Phrase Constraint)等等,阻止了句法和詞庫的互動,使得句法操作不能進入並影響詞的內部結構,詞庫操作也不能使用句法產生的結構;


第三,詞庫是多模塊和多層次的。

程工教授:詞庫應該是什麼樣的?



內部模塊除了語素列表、構詞規則和詮釋規則之外,還包括一個過濾器(filter),用於篩除雖合規但不被認可的詞語(可能的詞語),只保留被接受的部分(實際的詞語)。


詞庫還被認為有大量的內部推導層次。例如,僅為解決重音相關問題,Siegel(1974)等就為英語詞庫設置了4個層次——

程工教授:詞庫應該是什麼樣的?



第一層是詞綴界限詞綴,主要源自拉丁語,一般附著在粘著的詞根上,能夠觸發重音遷移等形態音系變化;


第二層是詞界限詞綴,主要來源於本族的日耳曼語,一般附著在自由的詞基上,不觸發形態音系變化;


第三層是複合,能夠觸發重音遷移;


第四層是規則的屈折變化,不能觸發重音遷移。


最後,詞庫另一個重要特點是具有投射性,即在很大程度上決定著句法的操作。


經過多年研究的累積,詞庫包含的信息越來越豐富,如詞項的固有特徵、次語類框架、題元柵格、各種屈折變體形式,等等。主流理論包含了各種原則,用於確保這些信息體現在句法操作之中。


著名的投射原則規定詞庫信息在句法的每一個層次都必須得到遵守;這個原則稍後又被擴展到題元理論,規定句法操作不得違反詞庫里的題元柵格信息;在最簡方案中,句法操作基本依存於由詞庫規定的特徵,並按包容條件(the condition of inclusiveness)的要求對特徵不增不減,不加篡改。


正如Adger(2010:2)所說的那樣:「最簡論語法可以被視為詞庫驅動的組合系統」。


這種由詞庫規定大量而又關鍵的信息,並且決定句法操作的理論途徑被稱為「投射論」,也常被形象地稱為「大詞庫,小句法」的理論。

程工教授:詞庫應該是什麼樣的?



這種由詞庫規定大量而又關鍵的信息,並且決定句法操作的理論途徑被稱為「投射論」,也常被形象地稱為「大詞庫,小句法」的理論。


綜上,主流理論里的詞庫具有生成性、自主性、多模塊和多層次、投射性等特點。從生物語言學的視角,這樣的詞庫跟語言起源相關的證據格格不入,與上面提到的語言晚出突發的事實不相兼容。


首先,詞庫具有生成性,又有自主性,這蘊含著語言具備兩套組合系統。考慮到基因(特別是調節基因)的穩定性和保守性,它相當於某個生命體在極短時間同時突然獲得人類的視覺和蝙蝠的超聲波兩套定位系統,概率基本是零。


其次,詞庫內部的多模塊和多層次性,意味著它經歷了長期的演化,而不是一個晚出突發的系統。


最後,詞庫對句法操作的決定性,則使人感到語言出現的關鍵不是合并,而是詞庫。


Boeckx(2010:7)尖銳地指出:「與最簡論圈子裡的言辭相反,並不是『所有的就是合并』。


事實上,合并是附屬於詞庫的。沒有特徵的驅動,合并是不能用的。」

程工教授:詞庫應該是什麼樣的?



語言學家Cedric Boeckx


總之,最低限度,現有理論里的詞庫違背生物學的一般原理,與Chomsky本人倡導的生物語言學研究途徑背道而馳,是完全不可能在不到二十萬年這樣一個演化的「瞬間」所能獲得的。


·3·


假定主流理論有關詞庫的部分真的存在上述種種缺陷,那麼它應該是什麼樣的呢?


怎樣才能使之符合,至少基本符合語言晚出突發這一事實呢?

程工教授:詞庫應該是什麼樣的? 點擊播放 GIF/365K



基於分布式形態學理論和其他宗旨相似的理論,我們認為,詞庫應該是非生成性的。換言之,應該把詞庫回歸為靜態的列表,把其中的構詞規則移交給語法的其他部門。


特別重要的是,應該與最簡方案的句法理論一樣,把合并視為語言里唯一的組合機制,同時負責詞和短語層級結構的生成。從生物語言學的角度,這是最理想的選擇,既呼應了合并是語言起源關鍵因素的命題,也最吻合語言晚出突發的事實。


為了消除生成性,應該對現有理論里的詞庫進行如下改造——


第一,把句法推導的起點從詞轉移到沒有內部結構、原子性的語素上來。


為此,首先必須從句法的角度,把語素認定為句法操作可以通入(access)的最小客體,或者說可以充當句法終端的客體。這同時意味著放棄從結構主義語言學到當代一直堅守的一個信條,即把語素定義為「最小的語音語義結合體」,並以意義或者語音形式為依據識別語素。多年的研究已經證明,語素既可能沒有確定的意義,也不一定有固定的形式。

程工教授:詞庫應該是什麼樣的? 點擊播放 GIF/56K



把語素視為句法的原子


從當下大量的研究來看,把語素視為句法的原子,讓其在詮釋系統確定語義和語音,這是一個行之有效的分析途徑。更進一步說,語言是一個以句法為中介的音義匹配系統這個著名的斷言,對於詞同樣是適用的。


為了消除詞庫的生成性,還有必要改變對詞的認識和分析。


主流理論之所以設置專門、獨立的構詞模塊,主要是因為認為詞和短語有本質的差異:詞由專門的規則構造,集不可預測的語法、語義和語音特性為一體,而短語由句法構建,性質是組合性的、可預測的。


然而,多年的研究證實,詞不是語法、語義和語音等規則應用的共同區域,語法詞和音系(韻律)詞並沒有同一性,詞在意義上和短語也是相似的,既可能是透明的,也可能是非組合性的。


因此,認為詞有特殊的結構地位,需要專門的規則乃至專門的語法模塊予以構造,這在理論上承擔著維持兩套生成機制的負擔,在經驗上又違背了各種語言的事實,是不可取的。


當然,與短語相比,詞確實有一些特殊的句法表現:可以獨立使用和移動,不容外部成分插入,詞內成分不可變動順序,等等。


分布式形態學以語段(phase)概念對此加以派生。


簡言之,詞可以被看成推導過程中形成的封閉的局部區域,在此區域內它既獲得確定的意義和語音,又阻止了後續推導的穿透,形成傳統上所謂的孤島效應,確保了其內部結構的穩定性。


在我們看來,語段概念的引入是詞結構研究中的一次重大突破,在取消詞庫的模塊性,統一詞和短語的生成機制方面,發揮了支撐性作用。如此,語言單位的層次實際可以壓縮成兩種:語素和短語,詞和句子只是兩種特殊的短語而已。


第二,把傳統上的構詞規則從句法前(pre-syntactic)調整到句法後(post-syntactic)。


研究表明,在多數情形中,詞和短語是同構的,詞法就是句法。然而,詞和短語的結構不相一致的情形也時有發生,在形態豐富的語言里甚至較為頻繁。


例如,在英語里,屬於句子層次的時態,其標記經常附著在結構樹上較低的動詞上,從而造成句法和形態的錯配。


分布式形態學對此的解決方式是:在句法推導結束之後,在向音系式推導的分支上,設置一些形態操作,負責給句法終端填入音系信息,確定其線性順序,並根據普遍語法和個別語法的要求對句法結構進行調整,以便其得到音系詮釋。


這種做法的優點是:這個意義上的形態操作是在句法規則所生成的表達式的基礎上實施的,只是一種有限的調整,而不是一種平行、獨立的結構。形態規則也因此是詮釋性的,而不是生成性的。


在經驗方面,現有各種證據都表明形態操作是依存於音系相關特性的。例如剛提到的英語時態標記,它之所以附著在動詞上,是因為它是詞綴性的,是音繫上不可獨立的單位。這種附著顯然是為了滿足音系的需要才發生的。


另一個有說服力的例子出現在英語形容詞的比較級里。我們知道,根據音節數量,比較級可能是分析式的,如more intelligent;也可能是綜合式的,如smarter。其中,綜合式中的程度語素「-er」是通過某種變位操作與形容片語合在一起的。在此,相關的結構取決於音節的數量,這顯然是由形態規則非句法規則造成的。


由於形態操作通常涉及屈折詞綴,所以把它們放在句法後,一個必要的前提是假定它們的音系特徵不是自始至終存在,而是在向音系式推導過程中插入的。這種句法操作在前,音系內容在句法推導結束後才與之匹配的分析技術,稱為「遲後填音」,而隱藏於此背後的是一種分離論(separationist)思想,即語素是抽象的句法單位,其音系值由一個獨立的程序賦予。


這個看似新穎的思想實際有久遠的淵源,在結構主義語言學時期已初現端倪。在當代,它更是得到不同流派很多學者的認可。


我們認為,生物語言學有關語音是語言的外化(externalization)而不是語言本身的思想,為分離論提供了強有力的依據。

程工教授:詞庫應該是什麼樣的?



現任教於紐約大學的語言學家Alec Marantz


Marantz(2013:906)指出:


「對語素的分離論理解使得形態與句法(即日常語言里的『語法』)能夠完全整合到這樣一個程度:詞的內部結構與短語和句子的內部結構能夠以相同的句法架構和相同的句法原則得到分析。」


第三,為避免句法變成詞庫的附屬品,還有一個必要步驟是大力壓縮語素所攜帶的特徵,把對語言事實的解釋轉移給句法以及與之介面的詮釋系統(概念系統和感知運動系統)。


首先,消除詞根語素的語類特徵,既必要也可行。長期以來,不少語法學者往往一方面認為語類是句法性的,為句法服務的,另一方面又主張語類在詞庫里就已確定,認為詞根和詞一樣分名詞、動詞、形容詞等各種類別。這個觀點在理論上經不起推敲,也沒有堅實的事實依據。


另一個必須移出詞庫的是論元結構,因為它既有模塊性質,又是詞庫特徵決定句法操作的一個主要源頭。標準理論歷來堅持,謂詞所能攜帶的論元的數量,以及論元所能擔任的語義角色,如施事、受事等,是由詞庫決定的,並在推導中投射到句子結構中。


這個觀點至少有兩個缺陷——


第一,它沒有體現句法結構對單個動詞所具有的普遍性限制。例如,為什麼沒有攜帶3個內論元的動詞?為什麼我們所用的題元角色如此之少?


第二,它不能解釋動詞在攜帶論元方面所具有的靈活性。與投射論相反,分布式形態學提出了一個新的路徑,把動詞分解成詞根與一個謂詞性功能核心兩個部分,取決於詞根在結構樹的位置,以及功能核心的類別,相同的詞往往呈現出不同的語義和論元結構。Embick(2004)是這一路徑的代表,展示了句法結構對論元結構的決定性意義,可供參考。


最後,最簡方案規定詞項的各種屈折變體形式在詞庫里都要得到列舉,然後由句法加以核查或消除。在我們看來,這是一個有違常規的步驟。


眾所周知,對計算系統而言,只有無章可循的客體才需要列舉,由規則產生的客體是無需列舉的。那麼,為什麼不用規則派生出屈折形態的各種變體,卻要通過列舉這樣硬性的方式確定呢?


其次,辭彙形態的變化固然有不規則的部分,但畢竟只是少數,多數的變化是規則的。在詞庫中列舉規則的變化,難道不是一種理論上的冗餘嗎?


另外,列舉蘊含著需要記憶才能掌握。在形態豐富的語言里,一個詞的各種變體往往就有十幾乃至幾十個,如果它們都需要記憶的話,那麼兒童對這些語言的獲得不就極為困難嗎?


· 4 ·


總結上述討論,我們認為——


從生物語言學視角,詞庫應該是非生成性的。它只列舉沒有內部結構、原子性的語素,不包括構詞規則。


為此,有必要對主流的理論做出如下修正——


第一,把句法推導的起點前移到語素,為此又必須首先從句法的性質定義語素,將其意義和語音實現放到次要地位;


與此相對應,第二,放棄詞是句法原子的觀念,把它看成句法推導的結果而不是起點。對詞的特性通過語段理論加以派生;


第三,對於詞和短語的差異部分,認為是來源於句法操作之後,語言為滿足音系的要求所做的有限調整;


第四,儘可能減少詞庫所規定的信息,包括語類信息、論元結構、屈折變體形式,等等。


只有這樣,才能吻合語言晚出突發的事實,也才能與最簡方案的句法部分對接,實現對語言本質特性的更好的解釋。


參考文獻


Adger, D. 2010. A minimalist theory of feature structure. InFeatures. Perspectives on a key notion in linguistics,ed. A. Kibort and G. Corbett, 185-218. Oxford: Oxford University Press.


Boeckx, C. 2010.Defeating Lexicocentrism:Outline of Elementary Syntactic Structures. Part A. Second draft. ICREA/UAB.


Chomsky, N. 1995.The Minimalist Program.Cambridge, MA: MIT Press.


Embick, D. 2004. On the structure ofresultative participles in English.Linguistic Inquiry35, 355–392.


Marantz, A. 2013. No escape from morphemes in morphological processing.Language and Cognitive Processes, 28:7, 905-916.


Siegel, D. 1974.Topics in English morphology.Ph. D. Dissertation, MIT.


本文原標題為「詞庫應該是什麼樣的?--在『第13屆華東地區外語論壇(江蘇南京,2016年11月12日)』上的主旨發言」,由演講者修改後發表。

程工教授:詞庫應該是什麼樣的?



請您繼續閱讀更多來自 語言學午餐Ling-Lunch 的精彩文章:

毒舌電影評出的這部「年度前三」,背後有一個充滿爭議的假說
為什麼提到「鳥」,中國人第一個想到麻雀

TAG:語言學午餐Ling-Lunch |

您可能感興趣

6千萬辭彙的巨型漢語詞庫